32.txt

来自「This complete matlab for neural network」· 文本代码 · 共 105 行

TXT

105 行

发信人: greenflower (小呆), 信区: DataMining
标  题: 一个数据挖掘计划的例子(2)
发信站: 南京大学小百合站 (Wed Aug 22 10:46:09 2001)


测 量 数 据 挖 掘 的 效 果


数据挖掘是昂贵的。它需要耗费很大的精力用于数据收集、数据准备、软件集成、问题建
模、模型生成、结果分析等等。那么我们又如何确定所得结果是值得所有时间、金钱和努
力？


我们将回答以下三个问题：



数据挖掘的目标是什么？ 



这个目标的完成度如何？ 



完成了这个目标，价值如何？lift 和 ROI。 


目标：



目标应该细化、清楚，以便于监督。切忌只有一个大而空的目标。 


例如目标是：获得用户行为的了解、在数据中发现有用的模型、发现一些有意思得东西。
这些都是大而空得目标。而另外一些目标如：发现那些用户不愿意续用某项服务；找出哪
些产品的销量会受影响，当啤酒不再销售的时候。



描述型的目标和预测型的目标。 


例如有两个从同一个数据库中生成的两个分类模型：模型1，含有四条规则，每条含有四个
是非字段。模型2，含有50条规则，每条都含有很多字段。模型1对70%的数据进行了正确的
分类；模型2对72%的数据进行了正确的分类。现在要问：哪个模型更好呢？答案取决于您
的目标。如果是描述性的目标，也就是说只是想对数据有一个好的了解的话，那么显然模
型1比模型2要更加的简单明了。而另一方面，如果是预测性的目标，目标是为了降低费用
的支出的话，那么虽然只有2%的差别也有可能会有上百万美圆的差别，因此模型2就更受欢
迎了。


衡量：


目标衡量要注意的四个问题：



模型的准确率是多少？ 



模型对于数据的描述程度有多好？ 



模型的预测有多少可信度? 



模型是否容易理解？ 



整体或部分：一个模型的准确性和可理解性，可能在数据的整体或部分上是有一些区别的
。两个整体准确性相同的模型可能在某个部分，它们的准确性会有不小的区别。 



衡量描述型模型：MDL（minimum description length）。我们用MDL来衡量描述性模型的
好坏的标准就是：MDL 即整个模型的长度。 



衡量预测型模型：通过对未知数据的预测准确率来衡量。 



关于分类的衡量：错误率。对于分类或预测的任务，它的准确率可以用错误率来衡量。也
就是模型在一个评估集上的预测的错误率是多少。 



关于估值的衡量。如果处理的任务是估值的时候，这时的准确率就是估算值和实际值之间
的差别。对于数据整体上的准确率可以有多种方法来衡量。比较常用的有标准方差（Stan
dard Deviation）、可信度和支持度（Confidence and Support）、距离（Distance）。
 


衡量结果：


以上的方法主要是对于某个模型的衡量，但是如何比较多个模型的好坏呢？这里我们提出
一个 Lift 的概念用于衡量多个模型之间的差别。


提高率（ lift ）= P（classed / sample）/ P（classed / population）。


我们举个例子来说明一下：对于一个分类算法来说，它要对一个估计集进行分类，也就是
标上一个标记：如好、坏。现在假设估计集中有5%的真正“好”的记录，而在用分类算法
标上“好”的记录中有50%的真正“好”的记录，那么这个算法的提高率就是 50/5=10。但
是是不是单纯只要提高率越高，这个模型就越好呢？这里还有一个问题就是 sample 的大
小问题。当一个 sample 非常小的时候，它的 lift 也必然会相应的提高，所以我们也应
当同时考虑 sample大小的问题，因为 lift 回随着 sample 的增大而减小。


最后提一下的就是在真正的商业应用中，最重要的还是ROI（Return On Investment）的大
小，上面的种种只是对实际情况的一种估计，在采取行动之后我们还必须对行动的效果进
行不断的统计。




--
在孤单的路上自由的孤单......

 


※ 来源:．南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]

32.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 32.txt 源码文件，采用文本编程语言编写，共 105 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?