📄 1.txt
字号:
发信人: ccipt (北方的狼), 信区: DataMining
标 题: Web数据挖掘的难点
发信站: 南京大学小百合站 (Thu Aug 23 14:48:11 2001)
Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点
。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充
分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。相对于Web的
数据而言,传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而We
b上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据
而言。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。
1.异构数据库环境
从数据库研究的角度出发,Web网站上的信息也可以看作一个数据库,一个更大、更复
杂的数据库。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点
之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想要利用这些
数据进行数据挖掘,首先,必须要研究站点之间异构数据的集成问题,只有将这些站点的
数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的
东西。其次,还要解决Web上的数据查询问题,因为如果所需的数据不能很有效地得到,对
这些数据进行分析、集成、处理就无从谈起。
2.半结构化的数据结构
Web上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以
根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站
点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具
有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,这也被称之为
半结构化数据。半结构化是Web上数据的最大特点。
3.解决半结构化的数据源问题
Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题
。解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数
据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所
在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术,即自动地
从现有数据中抽取半结构化模型的技术。面向Web的数据挖掘必须以半结构化模型和半结构
化数据模型抽取技术为前提。
--
※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 202.100.5.132]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -