📄 120.txt
字号:
发信人: fjibj (fj), 信区: DataMining
标 题: 数据挖掘工具:分类器
发信站: 南京大学小百合站 (Wed Sep 25 22:36:28 2002)
计算机世界1999年第20期
数据挖掘工具:分类器
清华大学计算机系 田金兰 李 奔
一、分类器的基本概念
分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个
分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模
型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。要
构造分类器,需要有一个训练样本数据集作为输入。训练集(Training set) 由一组数据库
纪录或元组构成,每个纪录是一个由有关字段值组成的特征向量,我们把这些字段称做属
性(Attribute),把用于分类的属性叫做标签(Label),标签属性也就是训练集的类别标记
。一个具体的样本的形式可以表示为(v1, v2...... vn; c), 其中vi 表示字段值,c 表示
类别。
训练集是构造分类器的基础。训练集是包含一些属性的一个数据库表格,其中的一个
属性被制定为分类标签。标签属性的类型必须是离散的,且标签属性的可能值的数目越少
越好(最好是两或三个值)。标签值的数目越少,构造出来的分类器的错误率越低。
从训练集中自动地构造出分类器的算法叫做生成器(Inducer)。在生成分类器后,可以
利用它来对数据集中不包含标签属性的记录进行分类,标签属性的值也可以用分类器来预
测。
二、几种基本的分类器
1. 决策树分类器
提供一个属性集合,决策树通过在属性集的基础上作出一系列的决策,将数据分类。
这个过程类似于通过一个植物的特征来辨认植物。可以应用这样的分类器来判定某人的信
用程度,比如,一个决策树可能会断定“一个有家、拥有一辆价值在1.5 万到2.3 万美元
之间的轿车、有两个孩子的人”拥有良好的信用。决策树生成器从一个“训练集”中生成
决策树。SGI 公司的数据挖掘工具MineSet 所提供的可视化工具使用树图来显示决策树分
类器的结构,在图中,每一个决策用树的一个节点来表示。图形化的表示方法可以帮助用
户理解分类算法,提供对数据的有价值的观察视角。生成的分类器可用于对数据的分类。
2. 选择树分类器
选择树分类器使用与决策树分类器相似的技术对数据进行分类。与决策树不同的是,
选择树中包含特殊的选择节点,选择节点有多个分支。比如,在一棵用于区分汽车产地的
选择树中的一个选择节点可以选择马力、汽缸数目或汽车重量等作为信息属性。在决策树
中,一个节点一次最多可以选取一个属性作为考虑对象。在选择树中进行分类时,可以综
合考虑多种情况。选择树通常比决策树更准确,但是也大得多。
选择树生成器使用与决策树生成器生成决策树同样的算法从训练集中生成选择树。Mi
neSet 的可视化工具使用选择树图来显示选择树。树图可以帮助用户理解分类器,发现哪
个属性在决定标签属性值时更重要。同样可以用于对数据进行分类。
3. 证据分类器
证据分类器通过检查在给定一个属性的基础上某个特定的结果发生的可能性来对数据
进行分类。比如,它可能作出判断,一个拥有一辆价值在1.5 万到2.3 万美元之间的轿车
的人有70 %的可能是信用良好的,而有30 %的可能是信用很差。分类器在一个简单的概
率模型的基础上,使用最大的概率值来对数据进行分类预测。
与决策树分类器类似,生成器从训练集中生成证据分类器。MineSet 的可视化工具使
用证据图来显示分类器,证据图由一系列描述不同的概率值的饼图组成。证据图可以帮助
用户理解分类算法,提供对数据的深入洞察,帮助用户回答像“如果... 怎么样" 一类的
问题。同样可以用于对数据进行分类。
三、分类器的准确度评估方法
1. 影响一个分类器错误率的因素
1、训练集的记录数量。生成器要利用训练集进行学习,因而训练集越大,分类器也就
越可靠。然而,训练集越大,生成器构造分类器的时间也就越长。错误率改善情况随训练
集规模的增大而降低。
2、属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合,使得生成
器难度增大,需要的时间也更长。有时随机的关系会将生成器引入歧途,结果可能构造出
不够准确的分类器(这在技术上被称为过分拟合)。因此,如果我们通过常识可以确认某
个属性与目标无关,则将它从训练集中移走。
3、属性中的信息。有时生成器不能从属性中获取足够的信息来正确、低错误率地预测
标签(如试图根据某人眼睛的颜色来决定他的收入)。加入其他的属性(如职业、每周工
作小时数和年龄),可以降低错误率。
4、待预测记录的分布。如果待预测记录来自不同于训练集中记录的分布,那么错误率
有可能很高。比如如果你从包含家用轿车数据的训练集中构造出分类器,那么试图用它来
对包含许多运动用车辆的记录进行分类可能没多大用途,因为数据属性值的分布可能是有
很大差别的。
2. 评估方法
有两种方法可以用于对分类器的错误率进行评估,它们都假定待预测记录和训练集取
自同样的样本分布。
(1) 保留方法(Holdout):记录集中的一部分(通常是2/3)作为训练集,保留剩余的
部分用作测试集。生成器使用2/3 的数据来构造分类器,然后使用这个分类器来对测试集
进行分类,得出的错误率就是评估错误率。
虽然这种方法速度快,但由于仅使用2/3 的数据来构造分类器,因此它没有充分利用
所有的数据来进行学习。如果使用所有的数据,那么可能构造出更精确的分类器。
(2) 交叉纠错方法(Cross
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -