📄 456.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: 漫谈数据挖掘
发信站: 南京大学小百合站 (Fri Apr 19 10:45:27 2002), 站内信件
漫谈数据挖掘技术
在我们已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和
社会。网络之后的下一个技术热点是什么?让我们来看一些身边俯拾即是的现象:
《纽约时报》由60年代的10~20版扩张至现在的100~200版;《北京青年报》也已
是16~40版。现在人均日阅读时间通常
为30~45分钟,只能浏览一份24版的报纸。在商业上,随着数据库技术的迅速发展
以及数据库管理系统的广泛应用,人们积累的数据越来越多,以GB计。这就是所谓
的"数据爆炸但知识贫乏"的现象。大量信息在给人们带来方便的同时也带来了一大堆
问题,人们开始考虑:"如何才能不被信息
淹没,而是从中及时发现有用的知识、提高信息利用率?"面对这一挑战,数据挖掘
(Data Mining)技术应运而生,并显示出强大的生命力。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取
隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。企业数据量
非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有
利于商业运作、提高竞争力的
信息,就像从矿石中淘金一样,数据挖掘也因此而得名。这种新式的商业信息处理技
术,可以按商业既定业务目标,对大量的商业数据进行探索和分析,揭示隐藏的、
未知的或验证已知的规律性,并进一步将其模型化。
从数据到信息的进化过程中,每一步前进都是建立在上一步的基础上的。表中我们可以
看到,第四步进化是革命性的,因为从用户的角度来看,这一阶段的数据库技术已经
可以快速地回答商业上的很多问题了。
进化阶段 商业问题 支持技术 产品厂家 产品特点
数据搜集(60年代) "过去五年中我的总收入是多少?" 计算机、磁带和磁盘
IBM,CDC 提供历史性的、静态的数据信息
数据访问(80年代) "在中国的分部去年三月的销售额是多少?" 关系数据库(R
DBMS),结构化查询语言(SQL),ODBC Oracle、Sybase、Informix、IBM、Mic
rosoft 在记录级提供历史性的、动态数据信息
数据仓库、决策支持(90年代) "在中国的分部去年三月的销售额是多少?据此可得
出什么结论?" 联机分析处理(OLAP)、多维数据库、数据仓库 Pilot、Com
share、Arbor、Cognos、Microstrategy
在各种层次上提供回溯的、动态的数据信息
数据挖掘(正在流行) "下个月上海的销售会怎么样?为什么?" 高级算法、多处
理器计算机、海量数据库 Pilot、Lockheed、IBM、SGI、其他初创公司 提供预测性的
信息
数据挖掘过程
在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目
标是必要的,有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。很多软件
供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指导他们的用户一步步
的进行数据挖掘工作。比如SPSS公
司的5A和SAS公司的SEMMA。
数据挖掘过程模型步骤主要包括:1定义商业问题;2建立数据挖掘模型;3分析数据;
4准备数据;5建立模型;6评价模型;7实施。
1定义商业问题。在开始知识发现之前最先的同时也是最重要的要求就是了解数据和
业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如想提高
电子信箱的利用率时,想做的可能是"提高用户使用率",也可能是"提高一次用户使
用的价值",要解决这两个问题而建立
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -