📄 32.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]请问关于数据挖掘前期数据有没有相关书籍和资料?
发信站: 南京大学小百合站 (Tue Feb 18 18:11:04 2003)
kailey (kailey) 于Mon Jan 13 16:06:06 2003)
提到:
edog (过海仙人) 于Wed Jan 15 13:46:38 2003)
提到:
你说的是数据预处理吧?
这方面的书好像不多,我没有找到专门讨论这个的,
还是看一些论文吧。
感觉这个方向东西太乱、太杂,不容易出成果
【 在 kailey (kailey) 的大作中提到: 】
:
:
: --
:
: ※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.204.76.108]
:
: ※ 修改:.kailey 於 Jan 13 16:49:31 2003 修改本文.[FROM: 202.204.76.108]
: ※ 修改:.kailey 於 Jan 13 16:50:15 2003 修改本文.[FROM: 202.204.76.108]
yinjilong (下雨了,) 于Wed Jan 15 16:42:43 2003)
提到:
王国印那本书有点点提到
【 在 edog (过海仙人) 的大作中提到: 】
: 你说的是数据预处理吧?
: 这方面的书好像不多,我没有找到专门讨论这个的,
: 还是看一些论文吧。
: 感觉这个方向东西太乱、太杂,不容易出成果
: 【 在 kailey (kailey) 的大作中提到: 】
francois (断玉) 于
提到:
我来讲点与工程有关的吧
因为目前在做数据挖掘的项目,请教了台湾同事在实施数据挖掘时的经验,发现60%~70
%的时间花在了EDA(Exploratory Data Analysis)上。比方说我现在希望对移动通信公司
的客户流失进行预测,采用简单的决策树算法(C5.0),Dependent Variable很明确,就
是流失标志,而Independent Variable则有很多,比如客户的基本信息,客户的通话行为
,客户的帐单和付款行为,以及客户的投诉和抱怨等等,如何选取,如何处理缺失值,如
何检查数据质量,都属于EDA的范畴,有些书里做了简单的介绍,大多都是用统计的方法进
行分析,比如Histogram,Frequency,T-Test等等。
现在得到的经验是先把统计的基础打好,才可能做好数据挖掘的项目,在研究上因为常常
缺乏大量的真实数据,所以凭空猜测数据预处理时可能会遇到的问题,很难有所进展。圣
人说的真好啊——多思无益,不如以学;学而时习之,不亦乐乎?
【 在 edog 的大作中提到: 】
: 你说的是数据预处理吧?
: 这方面的书好像不多,我没有找到专门讨论这个的,
: 还是看一些论文吧。
: 感觉这个方向东西太乱、太杂,不容易出成果
: 【 在 kailey (kailey) 的大作中提到: 】
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -