📄 28.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: 数据挖掘书评之一zz
发信站: 南京大学小百合站 (Wed Dec 11 23:33:34 2002)
发信人: three (破阿三——虎鶴雙形), 信区: AI
标 题: 数据挖掘书评之一
发信站: 日月光华 (2002年09月03日00:34:09 星期二)
1. Data Mining: Concepts and Techniques
国内学生最熟悉的数据挖掘教科书可能就是这本了。其作者之一,韩家玮教授是国际著名
的数据库、数据挖掘领域的学者。这本书的优点和缺点一样突出:
优点:
1). 包括了到作者写作时几乎所有的最重要的从数据库角度切入的数据挖掘研究成果;
2). 几乎每个小节都包含了一项研究成果,各小节相互独立;
3). 全书使用一个相对简单的框架来组织。
缺点:
1). 全书仅从数据库角度切入,忽略了很多其它方向,例如机器学习、信息检索、统计领
域的研究成果;
2). 由于每个小节篇幅较短,介绍的仅仅是结论,而且是相关论文的结论,缺乏论证(这
也是一个优点:画龙点睛),比较片面,需要阅读大量文献并作深入研究才能真正理解;
3). 每个小节相对独立,缺乏统一的描述,符号不统一,比较是定性的(有时是主观的)
,有些结论有矛盾;
4). 框架是从技术角度入手的,而不是从应用或者功能角度入手的。
虽然一般认为数据挖掘有着“广义”和“狭义”之分[注1],但是这是从过程上进行定义的
。从学科角度看,其实还有另一种广义和狭义:
广义:在任何应用中,对任何种类的数据进行挖掘
狭义:对商务数据(特别是电子商务数据)进行挖掘
从数据库角度进行切入的学者们其实常常是站在第二种立场上的,而且这种立场是主流的
。然而,很多学者(特别是来自于人工智能、多媒体信息检索领域的学者)认为对数据的
分析就是数据挖掘。从这个角度看,韩老师的书是非常传统的,并不包含独立的与检索、
多媒体等相关的信息。
Web作为一个数据库(最大的?),是挖掘的好来源。但是Web挖掘本身并没有被很好地定
义。从很多角度看,Web挖掘的很多方面就是传统的数据挖掘(因为数据清洗不包含在狭义
的定义里)。但是,从用户行为(Web Log)中发现知识本身是Web这种交互式系统所特有
的。由于这部分的研究工作本身并不深入,韩老师的书并没有详细的叙述。比较可惜。(
韩老师的WebMiner始终没有发布!快6年了!)
从应用角度看(我想这是最终目的),特定应用决定了特定的挖掘任务。这就是为什么Ke
Wang强调profit-driven mining,Guozhu Dong专注于研究emergency patterns... 然而
,韩老师的书没有从这个角度对技术进行分析,而是采取了“纯技术”路线。
最后,作为总结,我要说明,韩老师的书是研究数据挖掘的经典教材,是进入数据挖掘研
究必备索引之一。但是要全面了解数据挖掘,还需要进一步补充:
2). 来自于统计、机器学习、人工智能、信息检索领域的文献
3). 来自于应用的案例
另:SIGMOD Record 31(2) 上有一篇对该书的很好的review。我是从学生的角度进行介绍
的。
注1:广义数据挖掘又称数据库中的知识发现,包括需求分析、数据准备(清洗)、挖掘分
析、知识理解与管理等多个阶段。狭义数据挖掘仅指挖掘分析阶段。
(待续)
--
※ 来源:·日月光华 bbs.fudan.edu.cn·HTTP [FROM: 61.169.223.130]
--
*** 端庄厚重 谦卑含容 事有归着 心存济物 ***
数据挖掘 http://DataMining@bbs.nju.edu.cn/
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 211.80.38.17]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -