⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 18.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: ashun (阿顺), 信区: DataMining
标  题: 数据挖掘入门(十二)
发信站: 南京大学小百合站 (Mon Aug 20 10:26:26 2001)

3.分析数据。


请察看“描述型数据挖掘”以获得更详细的关于可视化、连结分析,及其他数据分析方法
。分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。



如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情
,这时你需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。


4.准备数据。


这是建立模型之前的最后一步数据准备工作。可以把此步骤划分成4个部分:


a.         选择变量


b.         选择记录


c.         创建新变量


d.         转换变量


a.         选择变量。理想情况下,你可以选择你所有的全部变量,把他们输入到数据挖
掘工具中,让他来帮你选择哪些是最好的预测变量。实际上这样做并不是很好,一方面是
由于随着变量个数的增加,模型的建立时间也随之上升;另一方面盲目的把所有的变量都
加进去会导致建立错误的模型。比如,建立预测模型的一个常见错误就是把一个依赖于目
标变量的变量(由目标变量导出)作为预测变量,像用生日来“预测”年龄。


在原理上说,一些数据挖掘算法自动忽略不相关的变量、自动计算相关的(协)变量,在
实际应用中完全依赖这些工具是不明智的,毕竟最了解你的数据的还是你自己。利用你的
领域知识,你会做出大部分正确的选择。例如,用身份证号或人名做预测变量要么不会有
任何用处,要么甚至降低了其他重要变量的影响力。


b.         选择记录。与选择变量类似,你可能也想用你所有的数据行来建立模型,然而
如果你的数据量确实非常巨大的话,要么要花费很长的时间来建立这个模型,要么买一台
计算能力非常强大的机器。


因此,如果数据量特别大,进行抽样就是一个很好的主意。如果做的足够仔细,保证抽样
是按真正的随机来进行的,采样对大部分商业问题来说都不会丢失信息。你可以用所有的
数据建立一个模型;你还可以用采样的方法根据不同得采样方法建立几个模型,然后评价
这几个模型选择一个最好的。我们认为后面这种方法得到的方法更准确、更健壮。


你可能选择数据中明显的异常数据删除掉。然而在某些情况下,这些看来异常的数据可能
包含了你要建立模型的重要信息。基于你对问题的理解方式的不同,通常可以把这些异常
忽略掉。比如可以把异常认为是人为的录入错误。


有时也需要向数据中添加一些新的数据(如,那些没有做出购买得客户)。


c.         创建新变量。很多情况下需要从原始数据中衍生一些新的变量作为预测变量。
比如,用负债占收入百分比来预测信用风险比直接用负债和收入做预测变量更准确一些,
也更容易理解一些。很多变量如果组合起来(加、减、比率等)会比这些变量自身影响力
更大。一些变量如果扩大它的范围也会成为一个非常好的预测变量,比如用一段时间内收
入变化情况代替一个单一的收入数据。


d.         转换变量。你所选择的算法和工具决定了都要对数据做哪些转换工作。如神经
网络要求所有的变量都在0-1之间,因此在这些数据被提交到算法之前就必须先对不在[0,
1]内的变量进行映射。同样一些决策树算法不接受数值型变量作为输入,在使用他们之前
也要把这些数值映射到“高、中、低”等。当然你的转换方式也在一定程度上影响了模型
的准确度。
--
业精于勤荒于嬉,行成于思毁于随。 —— 韩愈
临渊羡鱼不如退而结网。           —— 班固
勿以恶小而为之,勿以善小而不为。 —— 刘备

※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.119.80.20]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -