⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 1.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: zrs (tita), 信区: DataMining
标  题: XML与面向Web的数据挖掘技术1
发信站: 南京大学小百合站 (Thu May  9 09:13:18 2002)

XML与面向Web的数据挖掘技术 

 

2001-12-21· ·徐振航、刘莉芹··Yesky



面向Web的数据挖掘 


  Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究
热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题
。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。相对于
Web的数据而言,传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,
而Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的
数据而言。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。 


  1.异构数据库环境 


  从数据库研究的角度出发,Web网站上的信息也可以看作一个数据库,一个更大、更复
杂的数据库。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点
之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想要利用这些
数据进行数据挖掘,首先,必须要研究站点之间异构数据的集成问题,只有将这些站点的
数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的
东西。其次,还要解决Web上的数据查询问题,因为如果所需的数据不能很有效地得到,对
这些数据进行分析、集成、处理就无从谈起。 


  2.半结构化的数据结构 


  Web上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以
根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站
点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具
有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,这也被称之为
半结构化数据。半结构化是Web上数据的最大特点。 


  3.解决半结构化的数据源问题 


  Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题
。解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数
据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所
在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术,即自动地
从现有数据中抽取半结构化模型的技术。面向Web的数据挖掘必须以半结构化模型和半结构
化数据模型抽取技术为前提。 


XML与Web数据挖掘技术 


  以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的Web
应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型
,可以很容易地将XML的文档描述与关系数据库中的属性一对应起来,实施精确地查询与模
型抽取。 


  1.XML的产生与发展 


  XML(eXtensibleMarkupLanguage)是由万维网协会(W3C)设计,特别为Web应用服务的S
GML(StandardGeneralMarkupLanguage)的一个重要分支。总的来说,XML是一种中介标示
语言(Meta-markupLanguage),可提供描述结构化资料的格式,详细来说,XML是一种类
似于HTML,被设计用来描述数据的语言。XML提供了一种独立的运行程序的方法来共享数据
,它是用来自动描述信息的一种新的标准语言,它能使计算机通信把Internet的功能由信
息传递扩大到人类其他多种多样的活动中去。XML由若干规则组成,这些规则可用于创建标
记语言,并能用一种被称作分析程序的简明程序处理所有新创建的标记语言,正如HTML为
第一个计算机用户阅读Internet文档提供一种显示方式一样,XML也创建了一种任何人都能
读出和写入的世界语。XML解决了HTML不能解决的两个Web问题,即Internet发展速度快而
接入速度慢的问题,以及可利用的信息多,但难以找到自己需要的那部分信息的问题。XM
L能增加结构和语义信息,可使计算机和服务器即时处理多种形式的信息。因此,运用XML
的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少网络业务量。 


 



--

※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 218.0.249.231]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -