📄 1.txt
字号:
层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次
决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是"买面
包和黄油的顾客十有八九也买牛奶",也可能是"买食品的顾客几乎都用信用卡",这种规则
对于商家开发和实施客户化的销售计划和策略是非常有用的。至于发现工具和方法,常用
的有分类、聚类、减维、模式识别、可视化、决策树、遗传算法、不确定性处理等。
数据挖掘涉及的学科领域和方法很多,有多种分类法。根据挖掘任务分,可分为分类
或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型
发现、异常和趋势发现等等;根据挖掘对象分,有关系数据库、面向对象数据库、空间数据
库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;
根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器
学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统
计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判
别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关
分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自
组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面
向属性的归纳方法。
以下将主要从挖掘任务和挖掘方法的角度,着重讨论数据抽取、分类发现、聚类和关
联规则发现四种非常重要的发现任务。
1、数据抽取
数据抽取目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据抽取
方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、
饼状图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化
是一种把数据库中的有关数据从低层次抽象到高层次上的过程。由于数据库上的数据或对
象所包含的信息总是最原始、基本的信息(这是为了不遗漏任何可能有用的数据信息)。人
们有时希望能从较高层次的视图上处理或浏览数据,因此需要对数据进行不同层次上的泛
化以适应各种查询要求。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归
纳方法。
多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP)。数据仓库是面
向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在
数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算
量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策
支持系统使用。存储汇集操作结果的地方称作多维数据库。
采用多维数据分析方法进行数据抽取,它针对的是数据仓库,数据仓库存储的是脱机
的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是
,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维
数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面
向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上
总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成
满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关
联规则等。
2、分类发现
分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学
会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给
定类别中的某一个。分类和回归都可用于预测。预测的目的是从利用历史数据纪录中自动
推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类
的输出是离散的类别值,而回归的输出则是连续数值。这里我们将不讨论回归方法。
要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元
组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样
本还有一个类别标记。一个具体样本的形式可为:(v1,v2,...,vn;c);其中vi表示字段值
,c表示类别。
分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝
叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示则为判别函数和原型事
例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者
则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模
型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种
非线性判别函数。另外,最近又兴起了一种新的方法:粗糙集(roughset),其知识表示是产
生式规则。
不同的分类器有不同的特点。有三种分类器评价或比较尺度:1预测准确度;2计算复杂
度;3模型描述的简洁度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类
任务,目前公认的方法是10番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件
环境,在数据挖掘中,由于操作对象是巨量的数据库,因此空间和时间的复杂度问题将是
非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎;例如,采用规则
表示的分类器构造法就更有用,而神经网络方法产生的结果就难以理解。
另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺值
,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合
式的。目前普遍认为不存在某种方法能适合于各种特点的数据。
3、聚类
聚类是把一组个体按照相似性归成若干类别,即"物以类聚"。它的目的是使得属于同
一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方
法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。
在统计方法中,聚类称聚类分析,它是多元数据分析的三大方法之一(其它两种是回归
分析和判别分析)。它主要研究基于几何距离的聚类,如欧式距离、明考斯基距离等。传统
的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有
重叠聚类和模糊聚类等。这种聚类方法是一种基于全局比较的聚类,它需要考察所有的个
体才能决定类的划分;因此它要求所有的数据必须预先给定,而不能动态增加新的数据对象
。聚类分析方法不具有线性的计算复杂度,难以适用于数据库非常大的情况。
在机器学习中聚类称作无监督或无教师归纳;因为和分类学习相比,分类学习的例子或
数据对象有类别标记,而要聚类的例子则没有标记,需要由聚类学习算法来自动确定。很
多人工智能文献中,聚类也称概念聚类;因为这里的距离不再是统计方法中的几何距离,而
是根据概念的描述来确定的。当聚类对象可以动态增加时,概念聚类则称是概念形成。
在神经网络中,有一类无监督学习方法:自组织神经网络方法;如Kohonen自组织特征映
射网络、竞争学习网络等等。在数据挖掘领域里,见报道的神经网络聚类方法主要是自组
织特征映射方法,IBM在其发布的数据挖掘白皮书中就特别提到了使用此方法进行数据库聚
类分割。
4、关联规则发现
关联规则是形式如下的一种规则,"在购买面包和黄油的顾客中,有90%的人同时也买
了牛奶"(面包+黄油(牛奶)。用于关联规则发现的主要对象是事务型数据库,其中针对的应
用则是售货数据,也称货篮数据。一个事务一般由如下几个部分组成:事务处理时间,一组
顾客购买的物品,有时也有顾客标识号(如信用卡号)。
由于条形码技术的发展,零售部门可以利用前端收款机收集存储大量的售货数据。因
此,如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。例
如,可以帮助如何摆放货架上的商品(如把顾客经常同时买的商品放在一起),帮助如何规
划市场(怎样相互搭配进货)。由此可见,从事务数据中发现关联规则,对于改进零售业等
商业活动的决策非常重要。
设I={i1,i2,...,im}是一组物品集(一个商场的物品可能有上万种),D是一组事务
集(称之为事务数据库)。D中的每个事务T是一组物品,显然满足T
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -