⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 8.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: francois (断玉), 信区: DataMining
标  题: 文本挖掘
发信站: 南京大学小百合站 (Thu Dec 20 21:37:34 2001)

                           文本挖掘(《数据挖掘:概念与技术》)


   在Web环境下,大量存在的是各种文档,如电子邮件,新闻,电子出版物等。这些文档
中除了少量的结构内容外,包含了大量的无结构的文本信息。如何分析和处理这些文本信
息一直是人们所关注的问题。信息检索领域已经在这方面进行了多年的研究工作,提出了
很多处理技术。

   将数据挖掘的技术应用到文本处理的领域进行文本挖掘是一个重要的研究课题,目前受
到关注的问题有:


(1)基于关键字的关联分析

    基于关键字的关联分析的目标是找出经常一起出现的关键字或词汇之间的关联或相互
关系。一组经常连续出现或紧密相关的关键字可形成一个词或词组,关联挖掘可以找出复
合关联(compound associate),即领域相关的词或词组,如[Standford University]或
[U.S.,总统,比尔,克林顿],或非复合关联,如[美圆,参股(shares),交易,总额,
佣金,证券]。利用这种词和词组的识别,可以进行更高层次的关联分析,找出词或关键字
间的关联。


(2)文档分类分析

    自动文档分类是一种重要的文本挖掘工作,由于现在存在大量的联机文档,自动对其
分类组织以便于对文档的检索和分析,是至关重要的。文本文档的分类与关系数据的分类
存在本质的区别:关系数据是结构化的:每个元组定义为一组属性值对。例如,元组{sun
ny, warm, dry, not_windy, play_tennis},值“sunny”对应属性weather_outlook,“
warm”对应属性temperature,等等。而文档则不是结构化的,它没有属性值对的结构,与
一组文档相关的关键字并不能用一组属性或维刻化。因此,通常面对关系数据的分类方法
,如决策树分析,并不适用于对文档的分类。

    对文档分类的有效方法是基于关联的分类,它基于一组关联的,经常出现的文本模式
对文档加以分类。基于关联的分类方法处理过程如下:首先,通过简单的信息检索技术和
关联分析技术提出关键字和词汇。其次,使用已经有的词类,如WordNet,或基于专家知识
,或使用某些关键字分类系统,可以生成关键字和词的概念层次。训练集中的文档也可以
分类为类层次结构。然后,词关联挖掘方法可以用于一组发现关联词,它可以最大化地区
分一类文档与另一类文档。这导致了对每一类文档,相关有一组关联规则。这些分类规则
可以基于其出现频率和识别能力,加以排序,并用于对新的文档的分类。此中基于关联的
文档分类方法已经证明是有效的。对Web文档分类,可以利用Web页面的链接信息,帮助文
档类的识别。



--

欢迎光临智能信息检索论坛(http://202.112.116.44)

※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 159.226.251.11]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -