📄 6.txt
字号:
这一强大的数据挖掘工具组合阵容,保证了可以支持企业级的数据挖掘的各个
方面工作。
数据获取工具
在SAS/EM的这个数据获取工具中,你可以通过对话框指定要使用的数据集的名
称,并指定要在数据挖掘中使用的数据变量。变量分为两类:区间变量(Interval
Variable)和分类变量(Class Variable)。区间变量是指那些要进行统计处理
的变量。对于这样一些变量,在数据输入阶段你就可以指定它们是否要作最大值、
最小值、平均值、标准差等的处理。还可给出该变量是否有值的缺漏,缺漏的百分
比是多少等。利用这些指定可对输入数据在获取伊始就进行了一次检查,并把结果
告诉你,你可初步审视其质量如何。
区间变量以外的变量称之为分类变量。在数据输入阶段将会提供给你每个分类
变量共有多少种值可供分类之用。
数据取样工具
对获取的数据,可再从中作取样操作。取样的方式是多种多样的,有:随机取
样、等距取样、分层取样、从起始顺序取样和分类取样等方式。
随机取样
在采用随机取样方式时,数据集中的每一组观测值都有相同的被取样的概率。如按
10%的比例对一个数据集进行随机取样,则每一组观测值都有10%的机会被取到。
等距取样
如按5%的比例对一个有100组观测值的数据集进行等距取样,则有:100 / 5 = 20
,等距取样方式是取第20、40、60、80和第100等五组观测值。
分层取样
在这种取样操作时,首先将样本总体分成若干层次(或者说分成若干个子集)。在
每个层次中的观测值都具有相同的被选用的概率,但对不同的层次你可设定不同的
概率。这样的取样结果可能具有更好的代表性,进而使模型具有更好的拟合精度。
从起始顺序取样
这种取样方式是从输入数据集的起始处开始取样。取样的数量可以给定一个百分比
,或者就直接给定选取观测值的组数。
分类取样
在前述几种取样方式中,取样的单位都是一组观测值。分类取样的单位是一类观测
值。这里的分类是按观测值的某种属性进行区分。如按客户名称分类、按地址区域
分类等。显然在同一类中可能会有多组观测值。分类取样的选取方式就是前面所述
的几种方式,只是取样以类为单位。
设置多种形式的取样方式不仅给了你取样的灵活性,更重要的是从取样阶段你
就能主动的考虑数据挖掘的目的性,强化了最后结论的效果。
数据筛选工具
通过数据筛选工具你可从观测值样本中筛选掉你不希望包括进来的观测值。对
于分类变量可给定某一类的类值说明此类观测值是要排除于取样范围之外的。对于
区间变量可指定其值大于或小于某值时的这些组观测值是要排除于取样范围之外的
。
通过数据筛选使样本数据更适合你要数据挖掘的目标。
数据变量转换工具
利用此工具可将某一个数据进行某种转换操作,然后将转换后的值作为新的变
量存放在样本数据中。转换的目的是为了使你的数据和将来要建立的模型拟合的更
好。例如,原来的非线性模型线性化、加强变量的稳定性等。可进行取幂、对数、
开方…等转换。当然,你亦可给定一个公式进行转换。
建立数据挖掘用的数据库
在进行数据挖掘分析模型的操作之前,要建立一个数据挖掘的数据库(DMDB)
,其中就放置此次要进行操作的数据。因为此后可能要进行许多复杂的数学运算,
在这里建立一个专门的数据集将使你的工作更加有效率。在处理之前,可对你选进
数据挖掘数据库的各个变量预先进行诸如最大、最小、平均、标准差…等处理。对
一些要按其分类的变量的等级也先放入Meta Data之中,以利接下来的操作。总之
在这个数据库中为数据挖掘建立一个良好的工作环境。
数据挖掘过程
在数据挖掘的过程中可以使用SAS广泛的数学方法,以及实现最新数学方法的
环境。这给你提供了几乎无所不能的数据挖掘天地。限于篇幅这里主要介绍几种常
用的工具。
多种形式的回归工具
在图形化工具中提供的回归操作中主要有线性回归和Logistic回归。在线性回
归中有若干不同方法供你选择,诸如向前、向后的逐步回归等,还有多种回归运算
结束的准则给你指定。
在Logistic回归过程中可拟合逻辑型的模型,其中响应变量可以是双值的或者
是多值的。亦可使用逐步法选择模型,还可以进行回归诊断及计算预测值和残差值
。
回归处理结束后,将会给你提供一份供讨论的详细的结果。内容包括:对回归
参数的评价;对于模型拟合的统计结果;回归结果的标准输出:F-检验、均方差、
自由度…等;回归运行的LOG;全部回归处理程序的代码;以及对此次回归记录文
档资料。
为建立决策树的数据剖分工具
对数据集进行聚类、剖分建立决策树,是近来数据处理,进行决策支持常用的
方法。在SAS/EM中亦支持这一功能。在建立决策树的过程中可有多种数据聚类、剖
分的方法供你选择。
图形化界面的交互式操作,可分成六个层次:
对你在数据挖掘数据库中选定的数据集的操作
对数据集中的变量的处理
聚类、剖分时的基本选择项
聚类、剖分时的进一步操作选择项
模型的初步确定
结果的评价
聚类、剖分可以多种不同的方法进行,不能说哪种方法更"准确",这要看是否
满足了你决策问题的需要。也许你应当试试不同方法所产生的结果。恰好SAS/EM不
仅具有多种多样的处理方式的选择,而且具有相当高的"自动化"程度,使你能以极
快的速度尝试多种方法,尽快得出你的最佳选择。
决策树浏览工具
你最后作出来满意的决策树可能是个"枝繁叶茂"的架构。SAS/EM给你提供了可
视化的浏览工具。这一点很重要,一个复杂的决策树若难以观察,则会影响你实施
决策时的效率,甚至是有效性。决策树浏览工具包括有:
决策树基本内容和统计值的汇总表
决策树的导航浏览器
决策树的图形显示
决策树的评价图表
人工神经元网络
人工神经元网络是近来使用越来越广的模型化方法,特别是对回归中难以处理
的非线性关系问题,它往往能以更真实反映世界的能力使之得到更灵活的处理。在
SAS/EM中有强有力的实现人工神经元网络模型的各种工具,使你免除了繁杂的数据
处理,集中精力于模型本身的考虑。
在SAS/EM中的人工神经元网络应用功能可以处理线性模型;多层感知模型(
MLP-Multilayer perceptron这是采用较多的缺省方式)和放射型功能(
RBF-Radial basis function)。在交互式图形化界面上,在一个在线的关于SAS人
工神经元网络问答的支持下,使你能高效的通过以下四个步骤建立人工神经元网络
的模型:
数据准备
神经网络的定义
人工神经元网络的训练
生成预报模型
数据挖掘的评价工具
在SAS/EM的评价工具中,向你提供了一个通用的数据挖掘评价的架构,可以比
较不同的模型效果;预报各种不同类型分析工具的结果。
在进行了各种比较和预报的评价之后,将给出一系列标准的图表,供你进行定量评
价。可能你会有自己独特的评价准则,在SAS/EM的评价工具中,你还可以进行客户
化的工作,对那些标准的评价图表按你的具体要求进行更改。这样一来,评价工作
可能就会更有意义。
SAS/EM让你以可操作的规范性实现了前面所讲的SEMMA数据挖掘方法学。它所
涵盖的技术深度和广度你是可以想见的。这对于各种不同类型的计算机用户来说都
是非常适合的。如果让你自己规划这样一个系统,可能你很难想象得这样完整,更
不要说你是否有这么多的时间和精力象SAS的数据挖掘专家这样去开发这样的工具
。
--
我挖,我挖,我挖挖挖。。。。。。。
哎呀,我挖到金子了???????
且慢,请先鉴定一下是否为真金!!!
热烈欢迎大家到数据挖掘版(DataMining)光临指导。
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.204.34.97]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -