📄 1.txt
字号:
发信人: ccipt (北方的狼), 信区: DataMining
标 题: 数据挖掘技术概述
发信站: 南京大学小百合站 (Mon Aug 27 10:07:42 2001)
一. 数据挖掘技术概述
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库
被用于商业管理、政府办公、科学研究和工程开发等等,并且这一势头仍将持续发展下去
。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人
需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高
信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决
策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对"人们
被数据淹没,人们却饥饿于知?quot;的挑战,数据挖掘和知识发现(DMKD)技术应运而生,
并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中
,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很
多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data F
usion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样
。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图
形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可
以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询
优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广
义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视
化、并行计算等方面的学者和工程技术人员。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库
的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和
推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来
的活动进行预测。例如加拿大BC省电话公司要求加拿大SimonFraser大学KDD研究组,根据
其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公
司又有利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查询操
作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。
同时需要指出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是
要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识
都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解
,最好能用自然语言表达发现结果。因此DMKD的研究成果是很讲求实际的。
二、数据挖掘研究现状
KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止
,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发
展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也
逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间
的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算
机科学界的一大热点。
此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了
KDD专题或专刊。IEEE的KnowledgeandDataEngineering会刊领先在1993年出版了KDD技术专
刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD系统方法
论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高
噪声和不确定性、空档任侍猓琄DD系统与其它传统的机器学习、专家系统、人工神经网络
、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建
立分子模型到设计制造业的具体应用。
不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊KnowledgeDiscover
yNuggets最为权威,如要免费订阅,只需向http://www.kdnuggets.com/subscribe.html发
送一份电子邮件即可,还可以下载各种各样的数据挖掘工具软件和典型的样本数据仓库,
供人们测试和评价。另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版,
可向dstrial@tgc.com提出免费订阅申请。在网上,还有一个自由论坛DMEmailClub,人们
通过电子邮件相互讨论DMKD的热点问题。而领导整个潮流的DMKD开发和研究中心,当数设
在美国EMDEN的IBM公司开发部。
随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支
柱,即数据库、人工智能和数理统计。
数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚
,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库
、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理
论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离
。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是
很多单位的领导在热心数据库建设后发出的感叹。
由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一
个感兴趣的特定领域--客观世界,先用数据库技术将其形式化并组织起来,就会大大提高
知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求
的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转
向对归纳数据库的研究。
专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统,
目前的主要理论工具是基于谓词演算的机器定理证明技术--二阶演绎系统。领域专家长期
以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。
在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质
上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此
,知识获取成为专家系统研究中公认的瓶颈问题。
其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表
达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难
,勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。 此外
,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科
知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家Feigenba
um估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专
家系统有时会比傻子还傻。例如战场指挥员会根据"在某地发现一只刚死的波斯猫"的情报
很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。
以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动
机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习
的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的
、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。 数理统
计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今已有几
百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。
信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询
语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够
。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统
计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出"忽如一夜春风来,千
树万树梨花开"的繁荣景象。
三. 数据挖掘的挖掘任务和挖掘方法
数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特
征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;
关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测
未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -