📄 6.txt
字号:
发信人: ashun (阿顺), 信区: DataMining
标 题: 数据挖掘入门(六)
发信站: 南京大学小百合站 (Mon Aug 20 10:12:20 2001)
预言型数据挖掘
你需要选择的
数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界的
模型。建立这个模型可能需要各种各样的源数据,包括交易记录、顾客历史数据、人口统
计信息、进程控制数据、和市场相关的外部数据等,比如:信用卡公司提供的数据、天气
数据等。模型是模式和数据间相关性的形式化描述。
为了防止混淆,我们把数据挖掘概念划分为几个层次
² 商业目标
² 预言的种类
² 模型的类型
² 算法
² 产品
最高层是商业目标:数据挖掘的最终目的是什么?比如:希望用数据挖掘技术留住你的有
价值的客户,你可能先要建立一个模型来预测每个客户所能带来的利润,然后再建立一个
模型来确定哪些客户可能会离开。充分了解你所在企业的需求和目标有助于你建立这样的
目标。
下一步是决定最合适的预言的种类:(1)分类:预测一个特定的客户或事件属于哪一类;
(2)回归(regression):预测一个变量的值(如果此变量随事件变化,可成为时间序列
预测)。在上面的例子中你可以用回归来预测利润的大小,用分类预测哪些客户会离开。
后面我们会详细讨论。
现在你可以选择模型的类型:用神经网络来做回归,决策树做分类,还是用统计模型,如
:逻辑回归,偏差分析,普通线性模型等。下一章我们要详细讨论这些模型。
每种模型都可以用不同的算法来实现,比如,可以用回馈函数或radial basis函数来建立
神经网络;决策树有CART,C5.0,QUEST,CHAID等。
在选择数据挖掘软件产品时,要注意这些软件所采用的算法虽然名称可能完全一样,但他
们的实现方法通常都是不一样的。这些对算法的不同实现影响了软件对内存、硬盘的需求
的不同,和性能上的差异。
大部分的商业目标都可以用各种不同的模型及相异的算法来解决。通常在你还没有试过任
何数据挖掘算法之前,很难决定那种对你来说是最好的。
一些术语
在预言模型中,把我们要预测的值或所属类别称为响应变量、依赖变量或目标变量;用于
预测的输入变量是预测变量或独立变量。
一些预言模型是通过那些已知目标变量值的历史数据训练出来的。这种训练有时也称为带
指导的学习,因为是通过给出一些已知答案的问题(已知结果的数据)来让他“学习”。
相对应的,还有不带指导的学习,如上面提到的描述型数据挖掘(在运行之前,算法对数
据一无所知)。
分类
分类要解决的问题是为一个事件或对象归类。在使用上,既可以用此模型分析已有的数据
,也可以用它来预测未来的数据。例如,用分类来预测哪些客户最倾向于对直接邮件推销
做出回应,又有哪些客户可能会换他的手机服务提供商,或在医疗领域当遇到一个病例时
用分类来判断一下从哪些药品着手比较好。
数据挖掘算法的工作方法是通过分析已知分类信息的历史数据总结出一个预测模型。这里
用于建立模型的数据称为训练集,通常是已经掌握的历史数据。如,已经不再接受服务的
用户,你很可能还保存了他们在接受服务时的历史记录。训练集也可以是通过实际的实验
得到的数据。比如你从包含公司所有顾客的数据库中取出一部分数据做实验,向他们发送
介绍新产品的推销信,然后收集对此做出回应的客户名单,然后你就可以用这些推销回应
记录建立一个预测哪些用户会对新产品感兴趣的模型,最后把这个模型应用到公司的所有
客户上。
回归
回归是通过具有已知值的变量来预测其他变量的值。在最简单的情况下,回归采用的是象
线性回归这样的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性回归所
能预测的。如商品的销售量、股票价格、产品合格率等,很难找到简单有效的方法来预测
,因为要描述这些事件的变化所需的变量以上百计,且这些变量本身往往都是非线性的。
为此人们又发明了许多新的手段来试图解决这个问题,如逻辑回归、决策树、神经网络等
。
一般同一个模型既可用于回归也可用于分类。如CART决策树算法既可以用于建立分类树,
也可建立回归树。神经网络也一样。
时间序列
时间序列是用变量过去的值来预测未来的值。与回归一样,他也是用已知的值来预测未来
的值,只不过这些值的区别是变量所处时间的不同。时间序列采用的方法一般是在连续的
时间流中截取一个时间窗口(一个时间段),窗口内的数据作为一个数据单元,然后让这
个时间窗口在时间流上滑动,以获得建立模型所需要的训练集。比如你可以用前六天的数
据来预测第7天的值,这样就建立了一个区间大小为7的窗口。
--
业精于勤荒于嬉,行成于思毁于随。 —— 韩愈
临渊羡鱼不如退而结网。 —— 班固
勿以恶小而为之,勿以善小而不为。 —— 刘备
※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -