⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 14.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: ashun (阿顺), 信区: DataMining
标  题: 数据挖掘入门(十四)
发信站: 南京大学小百合站 (Mon Aug 20 10:29:05 2001)

6.评价和解释。


a.         模型验证。模型建立好之后,必须评价他的结果、解释他的价值。记住从测试
集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,随着应用数据的不同
,模型的准确率肯定会变化。更重要的是,准确度自身并不一定是选择最好模型的正确评
价方法。你需要进一步了解错误的类型和由此带来的相关费用的多少。


无序矩阵。对分类问题来说,无序矩阵是理解结果的非常好的工具。如图9所示,无序矩阵
把预测的结果与实际的情况进行对比。它不仅说明了模型预测的准确情况,也把模型究竟
在哪里出了问题也展示了出来。下表是一个简单的无序矩阵,其中的列代表数据的实际分
类情况,行是预测的结果。在这张表值中,可以看到此模型在总共46个B类数据中成功预测
了38个,8个出了问题:2个预测成了A,6个成了C。显然这比简单的说模型总体准确度是8
2%要更详细的多(123个成功预测除以总共150)。


在实际应用中,如果每种不同的预测错误所需付出的代价(金钱)也不同的话,那么代价
最小的模型(而不一定是错误率最小的模型)就是我们所要选择的。例如,上面的无序矩
阵中,如果每个准确的预测会带来¥10的收益,错误的预测A要付出¥5的代价,B是¥10,
C是¥20,那么整个模型的纯价值是:


(123*¥10)-(5*¥5)-(12*¥10)-(10*¥20)=¥885


然而考察下面的无序矩阵(图10),虽然准确度降低到79%(118/150),但纯价值却升高
了:


(118*¥10)-(22*¥5)-(7*¥10)-(3*¥20)=¥940


收益表(图11)也是一种描述模型价值的方法。它显示了通过应用模型响应(如直接邮件
推销)的变化情况。变化的比率称为lift。例如,如果用随机抽取的方法选择10%的客户响
应率是10%,而通过模型选取10%的用户响应率是30%,则lift值为3。


模型解释的另一个重要组成部分是确定模型的价值。一个模型可能看起来很有意义,但要
实施它的话很有可能花的钱比赚的钱多。图12是一个描述模型投资回报率(ROI)的图表(
这里定义 ROI为利润与开销的比值)。注意图中当选取比例超过80%时,ROI变成了负数,
ROI最高是在横坐标为2时。

 

当然,也可以直接看利润的变化情况(利润为收入与花费的差值),如图13所示:


注意到我们上面的例子中,最大lift在第一个1/10处(10%),最大ROI在第2个1/10(20%
),而最大利润在第3、4个1/10处。


理想情况下,应该按照利润表行事,但很多情况下利润表并不能很容易的计算出来。


b.         外部验证。如前面指出的,无论我们用模拟的方法计算出来的模型的准确率有
多高,都不能保证此模型在面对现实世界中真实的数据时能取得好的效果。经验证有效的
模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定。例
如,在建立用户购买模式的模型时,可能没有考虑通货膨胀的影响,但实施模型时通货膨
胀率突然由3%增加为17%,这显然会对人们的购买意向产生重大影响,因此再用原来的模型
来预测客户购买情况必然会出现重大失误。


因此直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意之
后再向大范围推广。
--
业精于勤荒于嬉,行成于思毁于随。 —— 韩愈
临渊羡鱼不如退而结网。           —— 班固
勿以恶小而为之,勿以善小而不为。 —— 刘备

※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -