📄 5.txt
字号:
发信人: ashun (阿顺), 信区: DataMining
标 题: 数据挖掘入门(五)
发信站: 南京大学小百合站 (Mon Aug 20 10:10:58 2001)
描述型数据挖掘
统计和可视化
要想建立一个好的预言模型,你必须了解自己的数据。最基本的方法是计算各种统计变量
(平均值、方差等)和察看数据的分布情况。你也可以用数据透视表察看多维数据。
数据的种类可分为连续的,有一个用数字表示的值(比如销售量)或离散的,分成一个个
的类别(如红、绿、蓝)。离散数据可以进一步分为可排序的,数据间可以比较大小(如
,高、中、低)和标称的,不可排序(如邮政编码)。
图形和可视化工具在数据准备阶段尤其重要,它能让你快速直观的分析数据,而不是给你
枯燥乏味的文本和数字。它不仅让你看到整个森林,还允许你拉近每一棵树来察看细节。
在图形模式下人们很容易找到数据中可能存在的模式、关系、异常等,直接看数字则很难
。
可视化工具的问题是模型可能有很多维或变量,但是我们只能在2维的屏幕或纸上展示它。
比如,我们可能要看的是信用风险与年龄、性别、婚姻状况、参加工作时间的关系。因此
,可视化工具必须用比较巧妙的方法在两维空间内展示n维空间的数据。虽然目前有了一些
这样的工具,但它们都要用户“训练”过他们的眼睛后才能理解图中画的到底是什么东西
。对于眼睛有色盲或空间感不强的人,在使用这些工具时可能会遇到困难。
聚集(分群)
聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群
之间的数据尽量相似。与分类不同(见后面的预测型数据挖掘),在开始聚集之前你不知
道要把数据分成几组,也不知道怎么分(依照哪几个变量)。因此在聚集之后要有一个对
业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来
说可能并不好,这时你需要删除或增加变量以影响分群的方式,经过几次反复之后才能最
终得到一个理想的结果。神经元网络和K-均值是比较常用的聚集算法。
不要把聚集与分类混淆起来。在分类之前,你已经知道要把数据分成哪几类,每个类的性
质是什么,聚集则恰恰相反。
关联分析
关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则
是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相
关性。序列模式与此类似,他寻找的是事件之间时间上的相关性,如对股票涨跌的分析。
关联规则可记为A==>B,A称为前提和左部(LHS),B称为后续或右部(RHS)。如关联规则
“买锤子的人也会买钉子”,左部是“买锤子”,右部是“买钉子”。
要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即
可。某一特定关联(“锤子和钉子”)在数据库中出现的频率称为支持度。比如在总共10
00个事务中有15个事务同时包含了“锤子和钉子”,则此关联的支持度为1.5%。非常低的
支持度(比如1百万个事务中只有一个)可能意味着此关联不是很重要,或出现了错误数据
(如,“男性和怀孕”)。
要找到有意义的规则,我们还要考察规则中项及其组合出现的相对频率。当已有A时,B发
生的概率是多少?也即概率论中的条件概率。回到我们的例子,也就是问“当一个人已经
买了锤子,那他有多大的可能也会买钉子?”这个条件概率在数据挖掘中也称为可信度,
计算方法是求百分比:(A与B同时出现的频率)/(A出现的频率)。
让我们用一个例子更详细的解释这些概念:
总交易笔数(事务数):1,000
包含“锤子”:50
包含“钉子”:80
包含“钳子”:20
包含“锤子”和“钉子”:15
包含“钳子”和“钉子”:10
包含“锤子”和“钳子”:10
包含“锤子”、“钳子”和“钉子”:5
则可以计算出:
“锤子和钉子”的支持度=1.5%(15/1,000)
“锤子、钉子和钳子”的支持度=0.5%(5/1,000)
“锤子==>钉子”的可信度=30%(15/50)
“钉子==>锤子”的可信度=19%(15/80)
“锤子和钉子==>钳子”的可信度=33%(5/15)
“钳子==>锤子和钉子”的可信度=25%(5/20)
我们可以看到买锤子的人也买钉子的可能性(30%)高于买钉子的人要买锤子的可能性(1
9%)。锤子和钉子关联的支持度已经足够高了,意味着这是一条有意义的关联规则。
改善度(lift)是另外一个描述规则价值的数值。改善度越高A的出现对B出现的可能性影
响越大。改善度是一个比值:(A==>B的可信度)/(B出现的频率)。如:
“锤子==>钉子”的改善度:3.75(30% / 8%)
“锤子和钉子==>钳子”的改善度:16.5(33% / 2%)
关联规则算法的另一个重要的性质是指定项的概念层次。比如在我们讨论的锤子和钉子的
例子中没有涉及产品的品牌和型号。这一点很重要,如在“金属制品-->五金工具-->钉子
-->5号钉子-->XX厂的5号钉子”的概念层次上,基于不同的目的,你可能需要选择不同的
层次。
注意数据挖掘得到的关联规则或序列模式并不是真正的规则,他只是对数据库中数据之间
相关性的一种描述。还没有其他数据来验证得到的规则的正确性,也不能保证利用过去的
数据得到的规律在未来新的情况下仍有效。
有时很难决定能利用你发现的关联规则做些什么。比如,在超市货架的摆放策略上,按照
发现的关联规则把相关性很强的物品放在一起,反而可能会使整个超市的销售量下降—顾
客如果可以很容易的找到他要买的商品,他就不会再买那些本来不在他的购买计划上的商
品。总之,在采取任何行动之前一定要经过分析和实验,即使它是利用数据挖掘得到的知
识。
有些软件产品用图形的方式显示项之间的相关性。如图3所示,每个圆圈代表一个项或一个
事件,线代表他们间的关系,线越粗表示相关性越强,这样对软件的使用者来说就很直观
。
--
业精于勤荒于嬉,行成于思毁于随。 —— 韩愈
临渊羡鱼不如退而结网。 —— 班固
勿以恶小而为之,勿以善小而不为。 —— 刘备
※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -