📄 10.txt
字号:
发信人: ccipt (北方的狼), 信区: DataMining
标 题: 数据挖掘过程模型
发信站: 南京大学小百合站 (Mon Aug 27 10:04:24 2001)
1. 引言
2. 数据挖掘和数据挖掘过程
3. 数据挖掘过程模型5A
4. 数据挖掘过程模型CRISP-DM
5. 开发和应用数据挖掘系统
6. 结束语
关键词:数据挖掘过程,数据挖掘过程模型,数据挖掘系统,CRISP-DM
摘要: 数据挖掘技术目前在国内正逐渐实用起来。本质上,数据挖掘过程模型是为应用数
据挖掘技术提供一种系统化的技术实施方法。由于数据挖掘的应用领域极其广泛、应用问
题的类型也较多,因此,为了成功的应用数据挖掘技术,围绕数据挖掘过程需要涉及:问
题的理解,数据的理解、收集和准备,建立数据挖掘模型,评价所建的模型,应用所建的
模型等一系列任务。这里,数据挖掘系统应该提供支持所有这些任务的必要手段和功能,
并最大限度地为用户使用这些功能提供方便的接口、选择和操作。许多数据挖掘系统的开
发商为其用户提出了一些应用数据挖掘技术的“过程参考模型”,如5A、SEMMA。同时,一
些区域组织和跨国集团/公司鉴于数据挖掘技术在商业上的应用前景,也积极支持和推进数
据挖掘过程标准的研究,如欧洲委员会和相关行业的四个大公司支持的数据挖掘特别兴趣
小组提出了“数据挖掘交叉行业标准过程”(CRISP-DM)。一个专业数据挖掘技术咨询公
司Two Crows还提出了自己的数据挖掘模型。同时各种数据挖掘系统(或软件或工具)正面
向数据挖掘过程所要求的功能和方法而日趋完善。基于国内一些机构和企业正在实用数据
挖掘技术,或者正在开发面向某一应用领域或通用的数据挖掘系统,本文对数据挖掘过程的功能模型5A和方法学模型CRISP-DM作点介绍。
1.引言
从大量数据中挖掘有价信息和知识,以提供决策依据,这在目前已不是不可能,实
施的技术即是数据挖掘(Data Mining)。但由于数据挖掘过程并非简单,且各种数据挖掘
的算法方法所适用的问题及其能力存在差异,因此系统化、规范化数据挖掘过程,以使用
户能成功的应用该技术,并开发出相应的软件系统显得尤为重要。鉴于国内一些机构和企
业正在实用数据挖掘技术,或者正在开发面向某一应用领域或通用的数据挖掘系统,本文
就当前可得的一些数据挖掘过程参考模型作些介绍。
2. 数据挖掘和数据挖掘过程
我们知道,数据挖掘是一个过程,它从大量数据中抽取出有价值的信息或知识。由
于每一种数据挖掘技术方法(算法及技术要求)都有其自身的特点和实现步骤(例如,对
输入/输出数据形式的要求、结构、参数设置、训练、测试和模型评价方式各自有不同的要
求,算法应用/适用领域的含义和能力存在差异);数据挖掘与具体应用问题的密切相关性
(应用数据挖掘所要达到的目标、数据收集完整程度、问题领域专家支持程度、算法选择
等),因此,成功应用数据挖掘技术、以达到目标的过程本身就是一件很复杂的事情。一
般,数据挖掘项目要经历的过程包括:问题的理解,数据的理解、收集和准备、建立数据
挖掘模型、评价所建的模型、应用所建的模型等一系列任务。这里,数据挖掘过程的系统
化、工程化方法学和支持系统(软件或工具)对解决应用问题起着至关重要的作用。为了
抽象系统化方法,人们提出了一些数据挖掘过程的参考模型或标准,如SPSS提出的5A (As
sess-Access-Analyze-Act-Automate), SAS提出的SEMMA (Sample-Explore-Modify-Model
-Assess);数据挖掘特别兴趣小组提出的“数据挖掘交叉行业标准过程”CRISP-DM(CRos
s-Industry Standard Process for Data Mining),以及专业的数据挖掘技术咨询公司Two Crows提出的模型 (阶段包括:Define Business Problem-Build
Data Mining Database-Explore Data-Prepare Data for Modeling-Building Model- Ev
aluation Model-Deploy Model and Result)。在这些模型中,5A强调的是支持数据挖掘过
程的工具应具有的功能和能力,SEMMA强调的是结合其工具的应用方法,CRISP-DM则从方法
学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖
掘系统,Two Crows则是从其自身理解的角度借鉴前述方法,并在其上加以改进而提出的模
型。比较而言,由于5A和CRISP-DM分别从支持功能和方法学角度描述了数据挖掘过程,因
此对介绍数据挖掘过程较为合适。
3. 数据挖掘过程模型5A
5A模型认为任何数据挖掘方法学都由5个基本元素组成,即Assess, Access, Anal
yze, Act, Automate。它们的含义是:
Assess: 正确、彻底的评价任务的需求及数据。
Access: 方便、快速的存取任务所涉及的数据。
Analyze: 适当、完备的分析技术和工具。
Act: 推荐性、有说服力的原型演示。
Automate: 为用户提供最易于使用、最方便的自动化软件。
针对这个过程,5A描述了上述各元素在数据挖掘技术应用中所须完成的任务和应该
提供的支持功能,主要包括:
Assess:
· 按正确的含义理解和设置数据。
· 一旦充分理解了数据的上下文后,就可以正确地收集它并在其上做要求的决策。
· 软件技术方案可以不同,但问题含义相同。要理清含义,必须:
· 将技术与组织的目标、策略和步骤结合起来。
· 世界范围的咨询和培训,目的是使交付高级分析工具给分析员时,他能快速实现。
Access:
· 数据集合(DB,DW,DM)应该完全符合评价的需求和质量。若不充分,须补充附加的数
据。
· 选用的数据挖掘软件,不管是否配在数据集合上,它必须足够灵活的在所要求的数据上
工作,并满足下列存取准则:
· 易于存取和连接各种数据源,包括数据表、公司数据库、数据仓库和其它必要的外部数
据库/源。
· 能直接从ASCII正文、数据表、数据库文件读入数据;直接连接扫描、识别软件。
· 能处理大量(几个GB以上)的数据文件。
Analyze:
· 具备两类分析方法和工具:发现和验证,验证是为了检验发现工具所产生的结果是否合
理。
· 发现方法和工具:genetic algorithms, rule induction, fuzzy logic, data visua
lization, clustering, factor analysis, neural networks, decision trees 等。
· 验证方法和工具:regression, logistic regression, discriminant analysis, for
ecast modeling, structural equation models, ANOVA等。
· 理想的数据挖掘软件应该具备这两类分析方法和工具。同时应该包括下列分析特性:
· 统计过程,范围和深度较强,应包括预测、分段、分类等。
· 集成商业和统计图形功能、具备多种可选的2D/3D图类,能用数据定点模式显示和跟踪
等。
· 辅助分析的模板、过程导引、示范、在线帮助等。能帮助分析员快速选择和获得结果。
· 数据、文件、中间结果管理功能。能合并和分离文件,选择数据子集,能处理数据缺值
、净化,改善数据完整性,支持IF-THEN-ELSE条件操作。
· 数据转换功能。有一组完备的转换函数支持变量/特征和条件的计算,可以重复计算、
编辑原来的变量/特征。
· 可裁减的工作环境。有脚本/宏语言支持的可重复任务的自动化、批处理及其菜单按钮
功能,以支持一般用户快速使用。
· 灵活的动态输出。表结果可以转动和轮换,易于观察数据全貌,易于用鼠标重新组织表
数据,以便于清晰的提交、观察、探索结果数据并做进一步的特殊分析。
· 基于线性回归和ANOVA的预测性建模,相关性、分类分析,预测等基本分析功能。
· 插件/模块功能。可以提供特殊的功能模块,以支持特定的分析。
Act:
· 用大量的列表和图形、与公共办公软件平稳的接口来演示数据挖掘软件的能力。软件应
该提供快速回答用户提问的控制和灵活性,这样才便于用户更好和更快的做决策。
· 数据挖掘软件应该提供下面的演示特性:
· 完好的集成图形功能,以提供专业级的演示。
· OLE 支持,以易于嵌入图表、节省报告时间。
· Internet特性,以易于图表的网上传输和本地察看。
· 演示模板特性,以节省编辑时间。
· 特殊查询功能,以利于快速提供附加的分析能力来响应用户的提问。
· 报告注解功能,以可加入注解或公司Logo到报告中。
Automate:面向用户操作尽可能完善和自动化软件应用过程。
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -