📄 27.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: 数据挖掘书评之二zz
发信站: 南京大学小百合站 (Wed Dec 11 23:28:57 2002)
发信人: three (QuasiP), 信区: AI
标 题: 数据挖掘书评之二
发信站: 日月光华 (2002年12月11日16:48:39 星期三), 站内信件
2. Data Warehousing, Data Mining, & OLAP
Alex Berson, and Stephen J. Smith
McGraw-Hill Series on Data Warehousing and Data Management
McGraw-Hill Book Co. 1997
世界图书出版公司 影印, 1999
这是一本在国内被忽略的数据挖掘教科书。
和上次介绍的Data Mining: Concepts and Techniques不同,
这本书不是研究性质的。
相反,这本书从一个非常大、非常泛的框架入手,
蜻蜓点水地介绍了一些(最常用的)数据挖掘/OLAP/数据仓库技术,
例如:决策树、神经元网络、聚类、遗传算法...
我介绍这本书并不是因为它介绍的角度有多精妙或者有多深入,或者有多全面,
而是因为这本书给出了研究数据挖掘的“上下文”(context)。
我们做的很多研究到底在整个BI系统的哪里?
我们为什么要做这些事情?业界已经做了哪些?
这些是做数据挖掘和kdd必需考虑的问题。
正是由于这本书讲了data warehouse,讲了olap,讲了data mining,
讲了data cleansing,讲了etl,讲了metadata,讲了reporting,
甚至还讲了data visualization,
所以使得它能够很好地在学术、技术、应用之间架起桥梁。
也使得它描述了一个全面的BI的roadmap。
所以,它是一本真正的数据挖掘的入门书。
这本书所介绍的技术都是经典的,但是从研发角度看是基础的,过时的。
所以在了解了data mining的来龙去脉以后,
最好还是开始看Jiawei的书和论文。
这里牵涉到一些话题:
1. 国内的很多研究不考虑研究背景
记得微软研究院的很多人,Kai-fu Lee, Hong-jiang Zhang等都说过,
做研究要先有个长期目标,然后才是当前目标。
看一篇paper,针对问题去写另一篇是没有意义的,做出来的都是delta work。
所以,根据终极需求确定自己的目标很重要。
也就是motivation 要清楚。
2. 应用和学术的结合
为什么www上的一篇论文就可以引申出google?
学术不是关门埋头苦干。
像kdd这样的领域尤其如此。
从应用角度看,这本书介绍了最基本的使用数据仓库、数据挖掘系统的概念。
(相关的技术类书籍相对而言做的不好)。
这引出另一些话题:
1. 国内的书
中科大也出了一本数据挖掘教科书,像是Jiawei的书的翻版,
随便翻翻都是错。为什么他们不能从另一个角度去看问题?
重复的工作没有意义。整理别人的结果有错更是不应该。
相比,史忠植老师的“知识发现”就从人工智能的角度看数据挖掘。写得很好。
2. 国外书籍的引进
Data Warehousing, Data Mining, & OLAP 绝对不是同类书中佼佼者。
但是是国内唯一available的原版。
优秀书籍的引进需要出版社、推荐者(读者)的共同努力。
需要提到的是这本书的作者还写了
Building Data Mining Applications for CRM.
(构造面向CRM的数据挖掘应用,人民邮电,2001)
那本书是Data Warehousing, Data Mining, & OLAP这本书
在CRM应用上的实例介绍。
不同的是,那本书对于业界的情况介绍得更详细,资料也更新,整理得更好。
(例如关于MineSet, Clementine等的介绍)
(如果有可能,找原版读,书是我们翻译的,但是仍然推荐原版)
※ 来源:·日月光华 bbs.fudan.edu.cn·[FROM: 10.100.178.149]
--
*** 端庄厚重 谦卑含容 事有归着 心存济物 ***
数据挖掘 http://DataMining@bbs.nju.edu.cn/
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 211.80.38.17]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -