📄 745.txt
字号:
识进行操作的。当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求
;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因
素之间有什么相关性;它们可区分成怎样一些类别……这都是要首先探索的内容。
进行数据特征的探索、分析,最好是能进行可视化的操作。SAS有:
SAS/INSIGHT和SAS/SPECTRAVIEW两个产品给你提供了可视化数据操作的最强有力的
工具、方法和图形。它们不仅能做各种不同类型统计分析显示,而且可做多维、动
态、甚至旋转的显示。
这里的数据探索,就是我们通常所进行的深入调查的过程。你最终要达到的目
的可能是要搞清多因素相互影响的,十分复杂的关系。但是,这种复杂的关系不可
能一下子建立起来。一开始,可以先观察众多因素之间的相关性;再按其相关的程
度,以了解它们之间相互作用的情况。这些探索、分析,并没有一成不变操作规律
性;相反,是要有耐心的反复的试探,仔细的观察。在此过程中,你原来的专业技
术知识是非常有用的,它会帮助你进行有效的观察。但是,你也要注意,不要让你
的专业知识束缚了你对数据特征观察的敏锐性。可能实际存在着你的先验知识认为
不存在的关系。假如你的数据是真实可靠的话,那末你绝对不要轻易地否定数据呈
现给你的新关系。很可能这里就是发现的新知识!有了它,也许会导引你在此后的
分析中,得出比你原有的认识更加符合实际的规律性知识。假如在你的操作中出现
了这种情况,应当说,你的数据挖掘已挖到了有效的矿脉。
在这里要提醒你的是要有耐心,做几种分析,就发现重大成果是不大可能的。
所幸的是SAS向你提供了强有力的工具,它可跟随你的思维,可视化、快速的作出
反应。免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。
这就使你数据分析过程集聚于你业务领域的问题,并使你的思维保持了一个集中的
较高级的活动状态,从而加速了你的思维过程,提高了你的思维能力。
Modify──问题明确化、数据调整和技术选择
通过上述两个步骤的操作,你对数据的状态和趋势可能有了进一步的了解。对
你原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能
进一步的量化。问题越明确,越能进一步量化,问题就向它的解决更前进了一步。
这是十分重要的。因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题
,没有问题的进一步明确,你简直就无法进行有效的数据挖掘操作。
在问题进一步明确化的基础上,你就可以按照问题的具体要求来审视你的数据集了
,看它是否适应你的问题的需要。Gartner group在评论当前一些数据挖掘产品时
特别强调指出:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和
所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的
进行。
针对问题的需要可能要对数据进行增删;也可能按照你对整个数据挖掘过程的
新认识,要组合或者生成一些新的变量,以体现对状态的有效的描述。SAS对数据
强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。若
使用了SAS的数据仓库产品技术时就更进一步保证了有效、方便的进行这些操作。
在问题进一步明确;数据结构和内容进一步调整的基础上,下一步数据挖掘应
采用的技术手段就更加清晰、明确了。
Model──模型的研发、知识的发现
这一步是数据挖掘工作的核心环节。虽然数据挖掘模型化工作涉及了非常广阔
的技术领域,但对SAS研究所来说并不是一件新鲜事。自从SAS问世以来,就一直是
统计模型市场领域的领头羊,而且年年提供新产品,并以这些产品体现业界技术的
最新发展。
按照SAS提出的SEMMA方法论走到这一步时,你对应采用的技术已有了较明确的
方向;你的数据结构和内容也有了充分的适应性。SAS在这时也向你提供了充分的
可选择的技术手段:广泛的数理统计方法;人工神经元网络;决策树……等。
正如Gartner group评论中所指出的:数理统计方法还是数据挖掘工作中最常
用的主流技术手段。在SAS的SAS/STAT软件包中就覆盖了所有的实用数理统计方法
,并成为国际上统计分析领域的标准软件。SAS/STAT提供了十多个过程可进行各种
不同类型模型、不同特点数据的回归分析,如正交回归、响应面回归、Logistic回
归、非线性回归等,且有多种形式模型化的方法选择。可处理的数据有实型数据、
有序数据和属性数据,并能产生各种有用的统计量和诊断信息。在方差分析方面,
SAS/STAT为多种试验设计模型提供了方差分析工具。更一般的,它还有处理一般线
性模型和广义线性模型的专用过程。在多变量统计分析方面,SAS/STAT为主成分分
析、典型相关分析、判别分析和因子分析提供了许多专用过程。SAS/STAT含有多种
聚类准则的聚类分析方法。利用SAS/STAT可进行生存分析(这对客户保有程度分析
等特别有用)。SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复
杂系统和进行预测的有力工具。它提供方便的模型设定手段、多样的参数估计方法
。实际上SAS的数理统计工具不仅能揭示企业已有数据间的新关系、隐藏着的规律
性;而且能反过来预测它的发展趋势,或是在一定条件下将会出现什么结果。
SAS以GUI式的友好界面提供了人工神经元网络的应用环境。一般的情况下人工
神经元网络对数据处理的要求比较多,在处理上资源的消耗也比较大。但在SAS的
集成环境下,有规范的数据维护、管理机制;可在诸如Client/Server等综合调度
环境中运行,这就保证了你的人工神经元网络应用更顺畅的实现。
人工神经元网络和决策树的方法结合起来可用于从相关性不强的多变量中选
出重要的变量。SAS还支持 平方自动交互检验(CHAID)。分类和回归树的软件包
(CART)也已交付使用。
在你的数据挖掘中使用哪一种方法,用SAS软件包中什么方法来实现,这主要
取决于你的数据集的特征和你要实现的目标。实际上这种选择也不一定是唯一的。
好在SAS软件运行效率十分高,你不妨多试几种方法,从实践中选出最适合于你的
方法和软件。
随着业界方法研究的进展,SAS会不断地向你提供实现它们的软件包,这将支
持你数据挖掘工作可持续的发展。
Assess──模型和知识的综合解释和评价
从上述过程中将会得出一系列的分析结果、模式或模型。若能得出一个直接的
结论当然很好。但更多的时候会得出对目标问题多侧面的描述。这时就要能很好的
综合它们的影响规律性提供合理的决策支持信息。所谓合理,实际上往往是要你在
所付出的代价和达到预期目标的可靠性的平衡上作出选择。假如在你的数据挖掘过
程中,就预见到最后要进行这样的选择的话,那末你最好把这些平衡的指标尽可能
的量化,以利你综合抉择。
你提供的决策支持信息适用性如何,这显然是十分重要的问题。除了在数据处理过
程中SAS软件提供给你的许多检验参数外,评价的办法之一是直接使用你原来建立
模型的样板数据来进行检验。假如这一关就通不过的话,那末你的决策支持信息的
价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数
据样本中挖掘出了符合实际的规律性。
另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的。这
次的检验效果可能会比前一种差。差多少是要注意的。若是差到你所不能容忍程度
,那就要考虑第一次构建的样本数据是否具有充分的代表性;或是模型本身不够完
善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时,那
你的数据挖掘应得到很好的评价了。
再一种办法是在实际运行的环境中取出新鲜数据进行检验。如在一个应用实例
中,就进行了一个月的现场实际检验。
以上叙述的是数据挖掘的基本流程。如图所示这一过程可能是要反复进行的。
在反复过程中,不断的趋近事物的本质,不断的优化你的问题的解决方案。在各个
行业SAS大量的成功实践证明了这一方法的强大威力。SAS的SEMMA方法论也一定能
帮助你在数据挖掘中取得成功。
SAS数据挖掘的集成软件工具-SAS/EM(Enterprise Miner)
利用SAS软件技术进行数据挖掘可以有三种方式:
使用SAS软件模块组合进行数据挖掘
将若干SAS软件模块联结成一个适合你的需要的综合应用软件
使用SAS数据挖掘的集成软件工具SAS/EM
在SAS数据挖掘的方法论──SEMMA的介绍中已经说明了可利用哪些SAS软件模
块组合进行数据挖掘。这里将向你介绍SAS数据挖掘的集成软件工具SAS/EM。
SAS/EM是一个图形化界面,菜单驱动的,对用户非常友好且功能强大的数据挖
掘集成软件。其中集成了:
数据获取工具
数据取样工具
数据筛选工具
数据变量转换工具
数据挖掘数据库
数据挖掘过程
多种形式的回归工具
为建立决策树的数据剖分工具
决策树浏览工具
人工神经元网络
数据挖掘的评价工具
可利用SAS/EM中具有明确代表意义的图形化的模块将这些数据挖掘的工具单元
组成一个处理流程图,并依此来组织你的数据挖掘的过程。这一过程在任何时候均
可根据具体情况的需要进行修改、更新并将适合你需要的模式存储起来,以便此后
重新调出来使用。SAS/EM图形化的界面,可视化的操作,可导引即使是数理统计经
验不太多的使用者也能按照SEMMA的原则成功的进行数据挖掘。对于有经验的专家
,SAS/EM也可让你一展身手精细的调整分析处理过程。
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -