⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 6.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: mining (key), 信区: DataMining
标  题: 数据挖掘--数据库技术的新时代
发信站: 南京大学小百合站 (Fri Nov  2 19:39:46 2001)

[摘自互动出版网] 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存
储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数
据库中抽取出来,将为公司创造很多潜在的利润,数据挖掘概念就是从这样的商业角度开
发出来的。

  确切地说,数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discover
y in Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及
有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了
数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策,比如,经
过对公司整个数据库系统的分析,数据挖掘工具可以回答诸如"哪个客户对我们公司的邮件
推销活动最有可能作出反应,为什么"等类似的问题。有些数据挖掘工具还能够解决一些很
消耗人工时间的传统问题,因为它们能够快速地浏览整个数据库,找出一些专家们不易察
觉的极有用的信息。

一、历史的回顾

  数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是
存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据
库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据
进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。

  研究数据挖掘的历史,可以发现数据挖掘的快速增长是和商业数据库的空前速度增长分
不开的,并且九十年代较为成熟的数据仓库正同样广泛地应用于各种商业领域。从商业数
据到商业信息的进化过程中,每一步前进都是建立在上一步的基础上的。下表给出了数据
进化的四个阶段,从中可以看到,第四步进化是革命性的,因为从用户的角度来看,这一
阶段的数据库技术已经可以快速地回答商业上的很多问题了。


进化阶段 时间段 技术支持 生产厂家 产品特点 

数据搜集 60年代 计算机、磁带等 IBM,CDC 提供静态历史数据 

数据访问 80年代  关系数据库、结构化查询语言SQL Oracle、Sybase、Informix、IBM、
Microsoft 在纪录中动态历史数据信息 

数据仓库 90年代 联机分析处理、多维数据库 Pilot、Comshare、Arbor、Cognos、Micro
strategy 在各层次提供回溯的动态的历史数据 

数据挖掘 正在流行 高级算法、多处理系统、海量算法 Pilot、Lockheed、IBM、SGI、其
他初创公司 可提供预测性信息 



二、数据挖掘分析方法

  数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器
学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数
据挖掘技术在当前的数据仓库环境中进入了实用的阶段。

  数据挖掘利用的技术越多,得出的结果精确性就越高。原因很简单,对于某一种技术
不适用的问题,其它方法即可能奏效,这主要取决于问题的类型以及数据的类型和规模。
数据挖掘方法有多种,其中比较典型的有关联分析、序列模式分析、分类分析、聚类分析
等。

1、关联分析

  关联分析,即利用关联规则进行数据挖掘。在数据挖掘研究领域,对于关联分析的研
究开展得比较深入,人们提出了多种关联规则的挖掘算法,如APRIORI、STEM、AIS、DHP等
算法。关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如"90%的顾
客在一次购买活动中购买商品A的同时购买商品B"之类的知识。

2、序列模式分析

  序列模式分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式分
析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如"在某一段时间内,顾
客购买商品A,接着购买商品B,而后购买商品C,即序列A→B→C出现的频度较高"之类的知
识,序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排
列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高
频序列。在进行序列模式分析时,同样也需要由用户输入最小置信度C和最小支持度S。


3、分类分析

  设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予
一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数
据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这
个分类规则对其它数据库中的记录进行分类。举一个简单的例子,信用卡公司的数据库中
保存着各持卡人的记录,公司根据信誉程度,已将持卡人记录分成三类:良好、一般、较
差,并且类别标记已赋给了各个记录。分类分析就是分析该数据库的记录数据,对每个信
誉等级做出准确描述或挖掘分类规则,如"信誉良好的客户是指那些年收入在5万元以上,
年龄在40~50岁之间的人士",然后根据分类规则对其它相同属性的数据库记录进行分类。
目前已有多种分类分析模型得到应用,其中几种典型模型是线性回归模型、决策树模型、
基本规则模型和神经网络模型。

4、聚类分析

  与分类分析不同,聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先
也不知道。聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则,合理地划
分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。聚
类分析的方法很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、
运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。

  聚类分析和分类分析是一个互逆的过程。例如在最初的分析中,分析人员根据以往的
经验将要分析的数据进行标定,划分类别,然后用分类分析方法分析该数据集合,挖掘出
每个类别的分类规则;接着用这些分类规则重新对这个集合(抛弃原来的划分结果)进行划
分,以获得更好的分类结果。这样分析人员可以循环使用这两种分析方法直至得到满意的
结果。

三、数据挖掘的范围

  追根溯源,"数据挖掘"这个名字来源于它有点类似于在山脉中挖掘有价值的矿藏。在
商业应用里,它就表现为在大型数据库里面搜索有价值的商业信息。这两种过程都需要对
巨量的材料进行详细地过滤,并且需要智能且精确地定位潜在价值的所在。对于给定了大
小的数据库,数据挖掘技术可以用它如下的超能力产生巨大的商业机会:

1、自动趋势预测。数据挖掘能自动在大型数据库里面找寻潜在的预测信息。传统上需要很
多专家来进行分析的问题,现在可以快速而直接地从数据中间找到答案。一个典型的利用
数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数
据找出其中最有可能对将来的邮件推销作出反应的客户。

2、自动探测以前未发现的模式。数据挖掘工具扫描整个数据库并辨认出那些隐藏着的模式
,比如通过分析零售数据来辨别出表面上看起来没联系的产品,实际上有很多情况下是一
起被售出的情况。

3、 数据挖掘技术可以让现有的软件和硬件更加自动化,并且可以在升级的或者新开发的
平台上执行。当数据挖掘工具运行于高性能的并行处理系统上的时候,它能在数分钟内分
析一个超大型的数据库。这种更快的处理速度意味着用户有更多的机会来分析数据,让分
析的结果更加准确可靠,并且易于理解。

此外,数据库可以由此拓展深度和广度。深度上,允许有更多的列存在。以往,在进行较
复杂的数据分析时,专家们限于时间因素,不得不对参加运算的变量数量加以限制,但是
那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在,高性
能的数据挖掘工具让用户对数据库能进行通盘的深度编历,并且任何可能参选的变量都被
考虑进去,再不需要选择变量的子集来进行运算了。广度上,允许有更多的行存在。更大
的样本让产生错误和变化的概率降低,这样用户就能更加精确地推导出一些虽小但颇为重
要的结论。

四、数据挖掘的体系结构

  现有很多数据挖掘工具是独立于数据仓库以外的,它们需要独立地输入输出数据,以
及进行相对独立的数据分析。为了最大限度地发挥数据挖掘工具的潜力,它们必须象很多
商业分析软件一样,紧密地和数据仓库集成起来。这样,在人们对参数和分析深度进行变
化的时候,高集成度就能大大地简化数据挖掘过程。

集成后的数据挖掘体系有自己的特点。应用数据挖掘技术,较为理想的起点就是从一个数
据仓库开始,这个数据仓库里面应保存着所有客户的合同信息,并且还应有相应的市场竞
争对手的相关数据。这样的数据库可以是各种市场上的数据库:Sybase、Oracle、Redbri
ck、和其他等等,并且可以针对其中的数据进行速度上和灵活性上的优化。

联机分析系统OLAP服务器可以使一个十分复杂的最终用户商业模型应用于数据仓库中。数
据库的多维结构可以让用户从不同角度,--比如产品分类,地域分类,或者其他关键角度
--来分析和观察他们的生意运营状况。数据挖掘服务器在这种情况下必须和联机分析服务
器,以及数据仓库紧密地集成起来,这样就可以直接跟踪数据和并辅助用户快速作出商业
决策,并且用户还可以在更新数据的时候不断发现更好的行为模式,并将其运用于未来的
决策当中。

数据挖掘系统的出现代表着常规决策支持系统的基础结构的转变。不象查询和报表语言仅
仅是将数据查询结果反馈给最终用户那样,数据挖掘高级分析服务器把用户的商业模型直
接应用于其数据仓库之上,并且反馈给用户一个相关信息的分析结果。这个结果是一个经
过分析和抽象的动态视图层,通常会根据用户的不同需求而变化。基于这个视图,各种报
表工具和可视化工具就可以将分析结果展现在用户面前,以帮助用户计划将采取怎样的行
动。

五、数据挖掘中最常用的技术

1、 人工神经网络:仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。

2、决策树:代表着决策集的树形结构。

3、遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优
化技术。

4、近邻算法:将数据集合中每一个记录进行分类的方法。

5、规则推导:从统计意义上对数据中的"如果-那么"规则进行寻找和推导。

采用上述技术的某些专门的分析工具已经发展了大约十年的历史,不过这些工具所面对的
数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联
机分析系统中去了。 

面对新经济时代,全面集成了客户、供应者以及市场信息的大型数据仓库导致公司内的信
息呈爆炸性增长,企业在市场竞争中,需要及时而准确地对这些信息作复杂的分析。为了
更加及时地,更加准确地作出利于企业的抉择,建立在关系数据库和联机分析技术上的数
据挖掘工具为我们带来了一个新的转机。目前,数据挖掘工具正以前所未有的速度发展,
并且扩大着用户群体,在未来越加激烈的市场竞争中,拥有数据挖掘技术必将比别人获得
更快速的反应,赢得更多的商业机会。




作者会员名:changhappy 



--

※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.118.237.2]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -