📄 704.txt
字号:
发信人: yaomc (白头翁&山东大汉), 信区: DataMining
标 题: SAS数据挖掘技术的实现。
发信站: 南京大学小百合站 (Tue Dec 4 10:50:02 2001), 站内信件
SAS数据挖掘技术的实现
吴修霆
---- 在数据挖掘方面,SAS公司不仅提供了完整有伸缩性的模块化工具,还在挖
掘过程中提供了从数据取样(Sample)、数据探索(Explore)、数据调整(
Modify)、模型研发(Model)到模型综合解释和评价(Assess)的完整科学的
SEMMA方法论。下面,笔者将向大家介绍SAS的数据挖掘产品及其在国内外的应用实
例。
SAS数据挖掘产品
一、智能型的数据挖掘集成工具:
---- SAS/EM
---- 作为智能型的数据挖掘集成工具,SAS/EM的图形化界面、可视化操作可引导
用户(即使是数理统计经验不太多的用户)按SEMMA原则成功地进行数据挖掘,用
户只要将数据输入,经过SAS/EM运行,即可得到一些分析结果。有经验的专家还可
通过修改数据调整分析处理过程。
---- SAS/EM可实现同数据仓库和数据集市、商务智能及报表工具的无缝集成,它
内含完整的数据获取工具、数据取样工具、数据筛选工具、数据变量转换工具、数
据挖掘数据库、数据挖掘过程以及数据挖掘评价工具。
二、基于传统统计算法的数据挖掘工具:
---- SAS/INSIGHT、SAS/STAT以及SAS/ETS等
---- SAS/INSIGHT 是一个可视化数据探索与分析工具,它将统计方法与交互式图
形显示融合在一起,为用户提供全新的使用统计分析方法的环境。用户用
SAS/INSIGHT可以考察单变量(或指标)的分布,显示多变量(或指标)数据,用
回归分析、方差分析和广义线形模型等方法去建立模型。由于所有的图形和分析都
是动态的,用户可以通过3D旋转图形来探索数据,并通过点击图形上的点来识别它
们,方便快捷地增加或删除一些变量。用户还可以发现数据中的规律性,快捷地建
立模型,并分析各指标间的关系。
---- SAS/STAT软件包中覆盖所有实用数理统计方法,提供多个过程进行不同类型
模型与不同特点数据的回归分析,具有多种形式模型化的选择方法,可处理多种复
杂数据,并为多种试验设计模型提供方差分析工具;它可处理一般线性模型和广义
线性模型的专用过程,为主成分分析、典型相关分析、判别分析和因子分析提供许
多专用过程;此外,它含有多种聚类准则的聚类分析方法,用户可利用SAS/STAT进
行生存分析。
---- SAS/ETS拥有丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行
预测的有力工具。它提供方便的模型设定手段与多样的参数估计方法。
---- 除此之外,SAS/OR可提供全面的运筹学方法,SAS/QC为全面质量管理提供一
系列工具,SAS/IML提供功能强大的面向矩阵运算的编程语言。
---- 在数据挖掘中使用哪种方法,用SAS软件包中什么方法来实现,主要取决于用
户的数据集的特征和要实现的目标。实际上,选择不是惟一的,用户不妨多试几种
方法,从实践中选出最适合自己的方法和软件。
---- 除了使用SAS的开发工具以外,用户还可选择其他厂商的开发工具,将SAS提
供的数据挖掘功能通过界面集成起来,实现用户定制的数据挖掘应用。
三、产品应用范围
---- SAS数据挖掘软件广泛应用于客户关系管理、金融风险防范、供应关系管理、
数据库营销及竞争优势分析等方面。据悉,SAS新近推出了专用于网络流量分析的
最新软件产品e-Discovery和webHound,可对优化网站的结构起到非常有效的作用
。
数据挖掘技术的成功应用
一、在宝钢配矿系统中的应用
---- 宝钢在冶炼钢铁的过程中要使用多种矿石原料,且大多靠进口,这使得配矿
一直是宝钢努力研究解决的问题。1995年,宝钢将配矿系统的研究开发列为重大科
研项目,希望利用计算机和信息技术,结合宝钢十多年来的配矿经验,探索出配矿
规律,提高烧结矿质量,降低配矿成本。
---- 在宝钢的配料过程中,烧结矿的质量控制问题十分复杂:矿石以及辅料的种
类越多,越难以把握矿石配比;矿石之间的相互作用和交叉影响,使得配矿具有很
强的非线性特征,难以进行单因素分析;因为成本过高,不能进行工业实验等等。
---- 宝钢在配矿上迫切需要解决的问题有如下几点:
---- 1.选用什么矿石,用怎样的比例混匀,才能保证烧结矿的质量?
---- 2. 如何评价各种矿石以及它们对烧结矿有怎样的影响?
---- 3.如何形成多种配矿方案,以应付各种情况?
---- 4.怎样降低配矿成本?
---- 由于宝钢多年来坚持计算机化管理,积累的大量数据,为数据挖掘提供了最
基本的条件。因此,为解决上述问题,宝钢决定采用数据挖掘技术,应用SAS全套
的数据挖掘和数据分析软件产品。
---- 在系统中,宝钢应用SAS的聚类分析技术解决配矿方案分类和矿石分类的问题
;采用SAS神经元网络来探索配矿规律,建立配矿模型;应用SAS全面的数据分析技
术,对配矿方案整体优化,寻求配矿方案中“足够优”的答案。
---- 整个配矿系统由转换和编辑、矿石评价和分类、训练、方案预测、方案优化
和回归分析等模块组成。数据转换和数据编辑模块用来将多种异构的数据源转换为
SAS格式;矿石评价和分类模块用来进行聚类分析和综合评价矿石;利用训练模块
训练形成各种配矿模型,而方案预测模块根据需求调用相应的模型对新方案进行质
量预测;方案优化模块利用配矿模型产生优化的配矿方案。
二、铁路春运客运研究
---- 解放后,中国铁路总量虽然增长迅速,但运力仍然无法满足中国人口流动需
要。尤其是在春运期间,如何对现有运力进行更加合理的调度、寻找春运期间影响
客运量的主要因素及制定合理对策等是铁路部门迫切需要解决的问题。
---- 1998年铁道部应用SAS数据分析预测和数据挖掘工具,对春运期间的铁路客流
量进行了分析和研究,目的是对全国铁路客运总量进行分析和预测,同时对北京、
上海、广州、南京及西安等大城市的铁路客运总量进行分别预测,挖掘春运期间影
响铁路客运总量的关键因素。本次数据挖掘和分析的数据包括:1995、1996和
1997年全年的客运数据,以及1998年截止到最新日期能够得到的数据,客运数据每
天都在以超过40MB的容量进行增加。所有铁路客运数据都存储在Sybase数据库中,
运行在IBM的RISC/6000硬件平台之上。
---- 在本次研究过程中,试验了如下几种方法,并对这几种方法进行了比较。
采用SAS/ETS软件对铁路客运数据进行分析。应用SAS/ETS提供的时间序列模型和分
析方法对数据进行处理,寻找影响铁路客运总量的因素,并对将来的铁路客运总量
进行较为准确的预测。经试验发现,这种分析方法能够在一定程度上对中国每年及
每个时期的客运数据进行预测,但是,仅用此法并不足以很好地解决春运期间对铁
路客运数据的预测和分析。
应用SAS/EM软件工具对得到的数据进行处理。在对多样化的数据进行清洗和处理的
基础上,应用SAS/EM软件中提供的决策树工具对加工后的数据进行挖掘操作。通过
在客户端应用该软件,实时地改变解释变量的组合。结果发现:农历天的偏移量、
民工返潮及一些其他关键性因素和春运期间铁路客运总量有很大关系。这就为在预
测过程中对模型进行优化,消除突发性因素对铁路客运总量预测和分析结果的影响
提供了很好支持。
根据运输局专家的意见对春运进行研究。多年工作使运输专家们积累起丰富的经验
。根据他们的经验以及对中国铁路春运情况的了解,纠正数据分析和预测过程中产
生的偏差,提高数据挖掘软件的效率,使包含丰富数据模型工具和分析方法的软件
功能得到最大限度的发挥。本次研究使铁路部门发现了春运期间影响中国铁路客运
运输的一些关键因素,为铁路部门在春运期间合理地调配全国的铁路运力和安排相
关车次提供了决策支持。
三、数据挖掘在AutoTrader.com站点访问量分析中的应用
---- 美国亚特兰大的AutoTrader.com是世界上最大的汽车超级站点,站点上提供
非常丰富的二手汽车及其他交通工具信息。每天有许多用户访问该站点,寻求有用
的信息。
---- 由于决策者需要从多角度和层次来对客户访问站点的情况进行分析和管理,
所以他们需要知道:什么样的客户访问这个站点、客户喜欢怎样的站点访问路径来
获得所需信息、各个站点层次访问量如何、同一位客户访问站点的频率、客户经常
重复进行怎样的购买行为、哪位老客户介绍来了新客户以及经介绍来的新客户和不
是经介绍来的新客户购买习惯有什么不同等等。最后,AutoTrader.com 决定用相
关的分析和数据挖掘工具对用户的网络点击流进行分析,从而决定自己是否需要根
据客户的不同喜好开设特定服务区。
---- AutoTrader.com的数据存放在有4个处理器的Sun Microsystems 4000服务器
上,选用了SAS的分析和数据挖掘软件,因为它们具有应用开发、信息和图形展现
、Web发布及SAS/SPDS等方面集成的能力,使得AutoTrader.com对站点下一年度的
访问流量可以进行预测。另外,由于它们可以很好地支持大数据量,AutoTrader.
com将不会为逐渐增长的数据量而担心。
---- 不仅如此,AutoTrader.com还自己定制了应用系统,它每天凌晨2点应用系统
访问日志文件中的数据,对数据自动解压与分析,还自动生成包含访问统计量和图
表的网页,并在第二天早晨自动送到决策人员的桌面机上。这样,人们可以对这些
报表进行操作,以报表或3D图表的形式进行浏览与观察。
---- (作者地址:北京市海淀区花园路4号通恒大厦203室,100088)
--
我挖,我挖,我挖挖挖。。。。。。。
哎呀,我挖到金子了???????
且慢,请先鉴定一下是否为真金!!!
热烈欢迎大家到数据挖掘版(DataMining)光临指导。
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.204.36.15]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -