📄 13.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [转载] 数据开采与知识发现综述(二)
发信站: 南京大学小百合站 (Fri Nov 1 22:31:58 2002), 站内信件
【 以下文字转载自 AI 讨论区 】
【 原文由 yinsoft 所发表 】
二、知识发现和数据开采的概念
知识发现是从数据中发现有用知识的整个过程;数据开采是KDD过
程中的一个特定步骤, 它用专门算法从数据中抽取模式(patterns)。
1996年,Fayyad、Piatetsky-Shapiror和Smyt h将KDD过程定义为:从
数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和
最终可理解的。KDD过程可用下图表示。
图1
从图中可见,KDD过程是多个步骤相互连接、反复进行人机交互的
过程。具体包括:
①学习某个应用领域:包括应用中的预先知识和目标。
②建立一个目标数据集:选择一个数据集或在多数据集的子集上
聚焦。
③数据清理和预处理:去除噪声或无关数据,去除空白数据域,考
虑时间顺序和数据变化等。
④数据换算和投影:找到数据的特征表示,用维变换或转换方法减
少有效变量的数目或找到数据的不变式。
⑤选定数据开采功能:决定数据开采的目的。
⑥选定某个数据开采算法:用KDD过程中的准则,选择某个特定数
据开采算法(如汇总、分类、回归、聚类等),用于搜索数据中的模式,
该算法可以是近似的。
⑦数据开采:搜索或产生一个特定的感兴趣的模式或数据集。
⑧解释:解释某个发现的模式,去掉多余的不切题意的模式,转换
成某个有用的模式,以使用户明白。
⑨发现知识:把这些知识结合到运行系统中,获得这些知识的作用
或证明这些知识,用预先、可信的知识检查和解决知识中可能的矛盾
。
需要说明的是,有的论文作者(Cure Hall,1995年)认为,数据开采
和知识发现含义相同, 可表示成KDD/DM。它是一个反复的过程,通常
包含多个相互联系的步骤:预处理、提出假设、选取算法、提取规则
、评价和解释结果、将模式构成知识,最后是应用。
--
欢迎进入—--军事主页
http://202.119.36.47/~sunlight
※ 来源:.南京大学小百合站 dii.nju.edu.cn.[FROM: aiake1.nju.edu.c]
--
※ 转载:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 211.80.38.17]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -