📄 854.txt
字号:
发信人: francois (断玉), 信区: DataMining
标 题: Re: 请教中文文本分类问题
发信站: 南京大学小百合站 (Sat Nov 16 15:04:23 2002)
觉得你的问题描述有些含糊,也许至少你应该说明一下文章的标题和摘要吧
如果这篇文章是关于文本分类的,那么用的是什么分类方法呢?在此假设你用的是基于统
计和机器学习的文本分类方法,比如Naive Bayes,KNN,SVM或者Neuron Network等,它们
都是用特征向量作为文档表达方式(Document Representation),那么分词只是决定了文
档表达的最小单位。
至于为什么用词作为文档表达的基本单位,我想是针对机器学习算法的特点。以字为单位
,由于割裂了文本中的语义,所以无法反映真正的文本特征;以句子为单位,则由于相同
语义可以用不同的句子来表达,变化的数量太多也使得计算机无法处理;
通过分词,以词为单位来表达文档,其实也具有以上两种方法的缺点,但只是一种最佳的
折衷罢了。至于你说的意义,可以说对,但是感觉这种说法太拘泥于技术的层面,换句话
说,就象是说我吃饭是为了吃饱做准备一样(抱歉,如果比喻的不合适,请见谅)。
对于你的第二个问题,应该是可以的。
【 在 mining 的大作中提到: 】
: 审稿意见,必须马上回复,我是半道出山,请大虾帮忙
: 中文文本在处理之前需要进行词条切分,以便获得单个的短语。
: 对于文本分类问题,词条切分的意义是否是:
: 1、为统计特征词条做准备
: 2、为统计词频矩阵做准备
: 如果已知特征词条,是否无需进行词条切分即可统计词频矩阵?
: :
--
欢迎光临智能信息检索论坛
http://202.112.116.44
※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 211.138.108.171]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -