⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 862.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: francois (断玉), 信区: DataMining
标  题: Re: 请教中文文本分类问题
发信站: 南京大学小百合站 (Sat Nov 16 21:45:09 2002)

呵呵,指点谈不上,共同探讨吧


文本分类我原来也做过,不过关注的是基于语义的分类,期望能比基于统计和机器学习的
方法有所改善,想法应该是不错,可惜没能完善就毕业了


你提到在已经得到分类主题词(即你所说的特征词条集)的基础上,进行文本分类是否不
需要分词,而是直接扫描统计?我觉得是可以的,因为传统的方法(先分词,然后对语料
进行统计,根据TFIDF公式抽取出文档的特征词,构造文档的特征向量)和你的方法(根据
主题词典扫描语料,直接根据相应主题词的TF来构造文档的特征向量)在原理上是差不多
的,只是用人工(事先整理好分类主题词典)来代替了机器的统计。


这里主要的问题是你得到的特征词条集的完备性如何?是否能有效涵盖所要分类语料的绝
大部分特征?举个例子来说,对于数据挖掘相关的文档,如果你的特征词条集只包含了“
数据挖掘”而没有“知识发现”的话,就会在生成文档特征向量时造成相应的维度缺失,
从而导致分类性能降低。


而基于统计的方法则可以弥补这个缺点,当然同时也引入另外一个缺点,就是噪声的引入
,会错误地把TFIDF较高但与文档主题无关的词作为特征。也许你以后可以考虑两种方法的
结合吧


【 在 mining 的大作中提到: 】

: 非常感谢你的指点。

: 我因为半道出山做文本分类,所以有很多概念不是很清楚。

: 这是一片关于文本分类的文章,用的方法是K-近邻

: 我在做中文文本分类时,因为很容易能得到特征词条集

: 所以我写了我的方法无需词条切分过程

: 审稿意见认为我这一点上没写清楚,需要补充。

: 而我认为我已知特征词条集合,因此无需分词,直接扫描统计即可

: 不知我的观点对否?

: 请断玉兄继续指点。

: 【 在 francois (断玉) 的大作中提到: 】

: : 觉得你的问题描述有些含糊,也许至少你应该说明一下文章的标题和摘要吧

: : 如果这篇文章是关于文本分类的,那么用的是什么分类方法呢?在此假设你用的是..
: : 计和机器学习的文本分类方法,比如Naive Bayes,KNN,SVM或者Neuron Network

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -