⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 32.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]请问关于数据挖掘前期数据有没有相关书籍和资料?
发信站: 南京大学小百合站 (Tue Feb 18 18:11:04 2003)

kailey (kailey) 于Mon Jan 13 16:06:06 2003)

提到:


edog (过海仙人) 于Wed Jan 15 13:46:38 2003)
提到:

你说的是数据预处理吧?
这方面的书好像不多,我没有找到专门讨论这个的,
还是看一些论文吧。
感觉这个方向东西太乱、太杂,不容易出成果

【 在 kailey (kailey) 的大作中提到: 】
: 
: 
: --
: 
: ※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.204.76.108]
: 
: ※ 修改:.kailey 於 Jan 13 16:49:31 2003 修改本文.[FROM: 202.204.76.108] 
: ※ 修改:.kailey 於 Jan 13 16:50:15 2003 修改本文.[FROM: 202.204.76.108] 


yinjilong (下雨了,) 于Wed Jan 15 16:42:43 2003)
提到:

王国印那本书有点点提到

【 在 edog (过海仙人) 的大作中提到: 】
: 你说的是数据预处理吧?
: 这方面的书好像不多,我没有找到专门讨论这个的,
: 还是看一些论文吧。
: 感觉这个方向东西太乱、太杂,不容易出成果
: 【 在 kailey (kailey) 的大作中提到: 】


francois (断玉) 于

提到:
我来讲点与工程有关的吧


因为目前在做数据挖掘的项目,请教了台湾同事在实施数据挖掘时的经验,发现60%~70

%的时间花在了EDA(Exploratory Data Analysis)上。比方说我现在希望对移动通信公司

的客户流失进行预测,采用简单的决策树算法(C5.0),Dependent Variable很明确,就

是流失标志,而Independent Variable则有很多,比如客户的基本信息,客户的通话行为

,客户的帐单和付款行为,以及客户的投诉和抱怨等等,如何选取,如何处理缺失值,如

何检查数据质量,都属于EDA的范畴,有些书里做了简单的介绍,大多都是用统计的方法进

行分析,比如Histogram,Frequency,T-Test等等。


现在得到的经验是先把统计的基础打好,才可能做好数据挖掘的项目,在研究上因为常常

缺乏大量的真实数据,所以凭空猜测数据预处理时可能会遇到的问题,很难有所进展。圣

人说的真好啊——多思无益,不如以学;学而时习之,不亦乐乎?


【 在 edog 的大作中提到: 】

: 你说的是数据预处理吧?

: 这方面的书好像不多,我没有找到专门讨论这个的,

: 还是看一些论文吧。

: 感觉这个方向东西太乱、太杂,不容易出成果

: 【 在 kailey (kailey) 的大作中提到: 】



⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -