⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 41.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]Principles of Data Mining-前言
发信站: 南京大学小百合站 (Thu Mar 13 11:35:47 2003)

aaahchi (aaahchi) 于Wed Mar  5 13:59:07 2003)
提到:

    我们把从庞大的数据集或数据库中提炼有用信息的科学称之为数据挖掘。它跨越了统计
学、机器学习、数据管理和数据库、模式识别、人工智能等领域,是一门交叉性的新兴
学科。所有这些学科都致力于数据分析的某一个方面,因此它们有很多共性--但是每一
学科又有其独有的特色,侧重于不同的问题和求解的不同方式。

        由于数据挖掘广泛的涵盖了计算机科学和统计学中的很多主题,所以要在一本书
中覆盖
所有的相关材料是不可能的。因此,我们把焦点集中在那些我们认为特别重要的主题上
        从教学的角度来讲,本书主要适合于希望学习数据挖掘基本原理的较高年级(最
后一年
)大学生,或者是一、二年级的研究生;本书对于那些旨在更好的了解数据挖掘方法和
技术的研究者和实践者们也是有价值的。本书假定读者熟悉了概率论、微积分、线性代
数和优化等学科中的基本概念--也就是说诸如工程学、计算机科学、数学和经济学等专
业的大学学历背景会为阅读和理解本书提供一个很好的基础。
        市场上已经出现了许多关于数据挖掘的书籍,其中大多数都是直接针对商业应用
,着重
于特定的方法和算法(例如决策树分类),而不是一般性的原则(例如参数估计和计算
复杂性)。这些书对于了解一般框架和案例研究是很有价值的,但对于课堂教学来说有
很多不足,因为低层的基础原则经常被忽略掉了。另一类数据挖掘方面的书则具有它多
的学术气息,但迄今为止这些书绝大部分是从计算机科学的角度出发的,特别是从数据
库角度(Han and Kamber, 2000)或从机器学习的角度(Witten and Franke, 2000)出
发。
        本书的侧重点有所不同。我们的目标是分析数据挖掘的最基础特征。我们没有用
很长的
篇幅来讨论特定的数据挖掘应用(比如说:协同过滤(collaborative filtering) 、
信用评分以及欺诈探查等),而是把焦点集中在这些应用所依赖的基本原理和算法。这
并不是说我们不重视应用。从根本上讲数据挖掘就是一门应用性学科。本着这一指导思
想,在探讨基本理论的同时,我们也介绍了很多可以应用(或者已经应用了)该理论的
特定应用和研究案例。
        我们认为掌握数据挖掘需要既理解统计学又理解计算科学。要掌握这两个不同的
专业领
域不论对学生还是对老师来说都是一个比较大的挑战。对于典型的计算机科学家来说,
统计学著作是相当难以理解的:冗长而枯燥的专业术语、隐含的假定、渐近性的证明以
及缺乏理论和数学概念如何在数据分析算法中具体实现的细节。对统计学家来说情况恰
好相反:关于机器学习和数据挖掘方面的计算机科学著作中充满了关于算法、伪代码、
计算效率等的讨论,而且经常很少提到潜在的模型或推理过程。重要的一点是这两个学
科对于处理庞大的数据集来说都是至关重要的。既可以从"数学模型"的角度理解,又可
以从"计算算法"的角度理解是正确把握数据挖掘复杂性的关键。
        在本书中我们试图架起一座沟通这两个世界的桥梁,目的是把统计建模的思想和
"现实
世界"中的实际计算方法和算法联系起来。
        本着这一宗旨,我们以一种有些与众不同的方式组织了本书的结构。首先我们讨
论了建
模和推理的基本原理,然后介绍了通过计算方法和算法来联系模型与数据的系统框架,
最后结合诸如分类和回归这样的具体技术例化了这些思想。因此,本书可分为三个大的
部分:
1、     基础篇:第1章到第4章着重与数据和数据分析的基本原理:介绍了数据挖掘(第
1章
),测量(第2章),概括和可视化数据(第3章),不确定性和推理(第4章)。
2、     数据挖掘的组件:第5章到第8章讨论的焦点是我们所称的数据挖掘算法的"组件":
这是用以系统地创建和分析数据挖掘算法的标准部件。在第5章中主要讨论算法分析的系
统方法,并说明了这种"分组件"的方法可以帮助那些刚刚接触数据挖掘这一学科的初学
者系统的透视那些数据分析算法中非常容易令人困惑的地方。而后在这一框架下,我们
对数据挖掘的每一组件进行广泛深入的讨论:第6章讨论模型表示方法,第7章讨论用来
拟合模型和数据的评分函数,第8章讨论优化和搜索技术(数据管理推后到第12章讨论)

3、     数据挖掘任务和算法:本书的前8章已经对数据挖掘的基本原理和组件进行了讨
论,
余下的章节(第9章到14章)则致力于特定的数据挖掘任务以及针对这些任务的算法。我
们将基本的数据挖掘任务组织成密度估计和聚类(第9章)、分类(第10章)、回归(第
11章)、模式发现(第13章)以及根据内容萃取(第14章)。在这些章节中我们使用了
第二部分中所建立的框架结构,讨论了针对每一项任务的具体算法。例如,在对分类的
讨论中,我们回答了这些问题:哪些模型和表示是可信并有价值的?我们可以使用或者
应该用哪些评分函数来训练分类器?哪些优化和搜索技术是必要的?一旦我们使用了某
种方法来实现实际的算法时,那么这个算法的复杂度如何?我们希望这些一般性的方法
给读者提供我们一个"路标",使他们认识到:数据挖掘算法是基于一些非常通用的系统
性的原理,而不是简单的将一些看起来并不相关的生僻算法堆积在一起。
如果将本书用于教学的话,那么正如在前面所提到的,本书的目标读者是以下专业的大
学毕业生:比如计算机科学、工程学、数学、自然科学,以及像经济学这样其它很多面
向商业的专业。从教师的角度来说,在一门课程中应该如何覆盖本书的内容主要依赖于
课程的长度(例如10周还是15周)和学生所具备的对统计学和机器学习等基本概念的熟
悉程度。举例来说,如果是为具有基本统计学概念的一年级研究生开设的10周长度的课
程,那么教师可以简单地讲述前面的章节,提纲挈领的讨论第3、4、5和7章;并将第1、
2、6章和第8章作为背景/补充读物要求同学阅读;然后把10周中的大部分时间放在第9章
到第14章的内容上,进行深入的讨论。
相反的是,本书的许多同学和读者可能只有很少或没有正式的统计学基础。令人遗憾的
是许多理工科专业(例如计算机学科)的大学本科生或研究生仅具有非常有限的统计学
知识,他们对许多现代程序中的统计思想知之甚少。由于本书很大程度上是从统计学的
角度来讨论数据挖掘的,所以我们在计算机系学生中使用本书草稿的经验告诉我们:对
于许多学生来说,在10周或15周的课程时间中掌握本书是一个不小的挑战,因为要完全
的吸收所有内容,他们必须掌握第2章到第8章中提到的相当大范围内的统计学、数学和
算法概念。因此,在教学或第一遍阅读时,可以跳过本书一些的章节,以降低难度。例
如:本书第11章中的回归可能是最具有数学挑战的章节,并且跳过这一内容也不会影响
对其它内容的理解。同样的,第9章中的某些内容(比如说,有关混合模型的内容)也可
以跳过;第4章中的贝叶斯(Bayesian)估计框架也如此。那么哪些内容是阅读的关键呢
?我们认为第1章到第5章和第7章、第8章和第12章中的绝大多数内容对学生来说是必须
掌握的内容,这样内容是掌握接下来章节中的模型和算法思想(第6章包含了很多有价值
的内容,是关于建模的一般概念的,但是篇幅相当长,所以可以跳过以缩短时间)的关
键。第9章、第10、11、13章和第14章是"针对任务"的,这些章的内容是彼此相对独立的
,所以可以任意选择其中的一些章节(但是前提是相当好的掌握了第1章到第8章中的内
容)。
        对那些仅具有很少统计学知识的学生的一个建议是:学习本第4章之前(不确定
性),
应该复习一下概率论和统计学中的一些基本概念。如果连像条件概率和期望这样的基本
概念都还没有熟练掌握的话,那么就会在第4章及其以后章节的学习中遇到相当大的困难
。本书附录中简要的包含了常见分布的定义和基本的概率概念,不过许多学生可能喜欢
在进一步学习之前,再拿出并复习他们大学期间的概率论和统计学教材。
        另一方面,对于那些具有坚实统计学背景的读者(例如:统计专业学生或是对数
据挖掘
有兴趣的统计学家)来说,本书的绝大部分内容看起来相当的熟悉,甚至有的统计学读
者可能会倾向于说"咳,这本数据挖掘的材料在很多方面与应用统计学的内容非常相似啊
"!这句话确实是多少有些道理的,因为数据挖掘技术(在我们看来)相当大的程度上依
赖于统计模型和方法。然而,在本书的很多部分统计学者都会很容易的发现相当多的新
内容:第1章的总括部分、第5章的算法观点、第7章的评分函数观点、以及从12章到14章
的数据库原理、模式发现以及根据内容萃取等。另外,我们还从数据挖掘的角度展示了
许多传统的统计学概念(例如:分类、聚类和回归等),以及在普通的统计学教材中通
常不包括的有关算法的丰富内容和计算复杂度问题。这些内容中包含了许多关于计算复
杂度的论述以及如何将各种技术应用到不同的数据挖掘应用中。虽然如此,统计学学者
还是会在本书中发现许多熟悉的材料。如果要从计算和数据管理的角度讨论数据挖掘,
那么可以参阅Han和 Kamber(2000);如果需要侧重于商业应用的材料,那么可以参阅
Berry和Linoff(2000)。这些教材可以作为课堂教学的补充读物。
        总而言之,本书讨论了用于数据挖掘的各种工具,并将它们分解为不同的组成部
分,以
便看到各个组成部分间的关系和结构。本书不仅给出了如何设计这些工具的内幕,而且
力图使读者在面临特定的问题时,能够独立设计出合适的数据挖掘工具。本书也阐明了
为什说数据挖掘是一个过程--不是那些一触即就的任务,而是一种"发现--表示--再调查
"的渐进过程。本书也包含了大量针对现实数据的应用,其中很多是从作者本人所从事的
科研和应用研究中选摘的。为了教学的方便,并不是讨论的所有数据集合都是很大的,
因为这样解释起来更加简单。而且一旦领会了其中的思想,那么很容易的就可以把这些
思想应用到现实大小的数据集中。
        综上所述,数据挖掘技术的确是一门另人兴奋的学科。当然了,所有的科研事业
都一样
,许多努力将是没有回报的(做一项保证成功的研究这样的情况是罕见的,而且也是乏
味的)。但是当"挖掘"出了一个令人兴奋的发现(信息的宝石)时,这些努力也就获得
了成倍的补偿。我们希望本书能够激励读者前进并发现你自己的宝石!
        


GzLi (笑梨) 于Wed Mar  5 14:55:31 2003)
提到:

我到图书馆看过英文版,很好的。
希望中文版能好好翻译,此乃挖掘者们的福气。
也请这位老师能早日告诉我们消息。

【 在 aaahchi (aaahchi) 的大作中提到: 】
:     我们把从庞大的数据集或数据库中提炼有用信息的科学称之为数据挖掘。它跨越了..
: 学、机器学习、数据管理和数据库、模式识别、人工智能等领域,是一门交叉性的新兴
: 学科。所有这些学科都致力于数据分析的某一个方面,因此它们有很多共性--但是每一

              ***  端庄厚重 谦卑含容 事有归着 心存济物  ***
数据挖掘  http://DataMining@bbs.nju.edu.cn/


chouqin (chouqin) 于Wed Mar  5 18:39:49 2003)
提到:

我只搜到这是一个欧洲dm方面会议的文集,
请问版主,这本书详细的出版信息,
非常感谢!!

【 在 GzLi (笑梨) 的大作中提到: 】
: 我到图书馆看过英文版,很好的。
: 希望中文版能好好翻译,此乃挖掘者们的福气。
: 也请这位老师能早日告诉我们消息。
: 【 在 aaahchi (aaahchi) 的大作中提到: 】
:               ***  端庄厚重 谦卑含容 事有归着 心存济物  ***
: 数据挖掘  http://DataMining@bbs.nju.edu.cn/


aaahchi (aaahchi) 于Wed Mar  5 20:12:36 2003)
提到:

不是不是,不是proceeding,是book。作者是David J. Hand, Padhraic Smyth, Heikki
 Mannila。
出版日期据说在近一个月内。

【 在 chouqin (chouqin) 的大作中提到: 】
: 我只搜到这是一个欧洲dm方面会议的文集,
: 请问版主,这本书详细的出版信息,
: 非常感谢!!
: 【 在 GzLi (笑梨) 的大作中提到: 】


GzLi (笑梨) 于Thu Mar  6 00:29:44 2003)
提到:

D. Hand, H. Mannila, P. Smyth, Principles of Data Mining, MIT Press, Cambridg
e, CA, 2001.

【 在 chouqin (chouqin) 的大作中提到: 】
: 我只搜到这是一个欧洲dm方面会议的文集,
: 请问版主,这本书详细的出版信息,
: 非常感谢!!
: 【 在 GzLi (笑梨) 的大作中提到: 】


⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -