📄 32.txt
字号:
发信人: greenflower (小呆), 信区: DataMining
标 题: 一个数据挖掘计划的例子(2)
发信站: 南京大学小百合站 (Wed Aug 22 10:46:09 2001)
测 量 数 据 挖 掘 的 效 果
数据挖掘是昂贵的。它需要耗费很大的精力用于数据收集、数据准备、软件集成、问题建
模、模型生成、结果分析等等。那么我们又如何确定所得结果是值得所有时间、金钱和努
力?
我们将回答以下三个问题:
数据挖掘的目标是什么?
这个目标的完成度如何?
完成了这个目标,价值如何?lift 和 ROI。
目标:
目标应该细化、清楚,以便于监督。切忌只有一个大而空的目标。
例如目标是:获得用户行为的了解、在数据中发现有用的模型、发现一些有意思得东西。
这些都是大而空得目标。而另外一些目标如:发现那些用户不愿意续用某项服务;找出哪
些产品的销量会受影响,当啤酒不再销售的时候。
描述型的目标和预测型的目标。
例如有两个从同一个数据库中生成的两个分类模型:模型1,含有四条规则,每条含有四个
是非字段。模型2,含有50条规则,每条都含有很多字段。模型1对70%的数据进行了正确的
分类;模型2对72%的数据进行了正确的分类。现在要问:哪个模型更好呢?答案取决于您
的目标。如果是描述性的目标,也就是说只是想对数据有一个好的了解的话,那么显然模
型1比模型2要更加的简单明了。而另一方面,如果是预测性的目标,目标是为了降低费用
的支出的话,那么虽然只有2%的差别也有可能会有上百万美圆的差别,因此模型2就更受欢
迎了。
衡量:
目标衡量要注意的四个问题:
模型的准确率是多少?
模型对于数据的描述程度有多好?
模型的预测有多少可信度?
模型是否容易理解?
整体或部分:一个模型的准确性和可理解性,可能在数据的整体或部分上是有一些区别的
。两个整体准确性相同的模型可能在某个部分,它们的准确性会有不小的区别。
衡量描述型模型:MDL(minimum description length)。我们用MDL来衡量描述性模型的
好坏的标准就是:MDL 即整个模型的长度。
衡量预测型模型:通过对未知数据的预测准确率来衡量。
关于分类的衡量:错误率。对于分类或预测的任务,它的准确率可以用错误率来衡量。也
就是模型在一个评估集上的预测的错误率是多少。
关于估值的衡量。如果处理的任务是估值的时候,这时的准确率就是估算值和实际值之间
的差别。对于数据整体上的准确率可以有多种方法来衡量。比较常用的有标准方差(Stan
dard Deviation)、可信度和支持度(Confidence and Support)、距离(Distance)。
衡量结果:
以上的方法主要是对于某个模型的衡量,但是如何比较多个模型的好坏呢?这里我们提出
一个 Lift 的概念用于衡量多个模型之间的差别。
提高率( lift )= P(classed / sample)/ P(classed / population)。
我们举个例子来说明一下:对于一个分类算法来说,它要对一个估计集进行分类,也就是
标上一个标记:如好、坏。现在假设估计集中有5%的真正“好”的记录,而在用分类算法
标上“好”的记录中有50%的真正“好”的记录,那么这个算法的提高率就是 50/5=10。但
是是不是单纯只要提高率越高,这个模型就越好呢?这里还有一个问题就是 sample 的大
小问题。当一个 sample 非常小的时候,它的 lift 也必然会相应的提高,所以我们也应
当同时考虑 sample大小的问题,因为 lift 回随着 sample 的增大而减小。
最后提一下的就是在真正的商业应用中,最重要的还是ROI(Return On Investment)的大
小,上面的种种只是对实际情况的一种估计,在采取行动之后我们还必须对行动的效果进
行不断的统计。
--
在孤单的路上自由的孤单......
※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -