854.txt

来自「This complete matlab for neural network」· 文本代码 · 共 36 行

TXT

36 行

发信人: francois (断玉), 信区: DataMining
标  题: Re: 请教中文文本分类问题
发信站: 南京大学小百合站 (Sat Nov 16 15:04:23 2002)

觉得你的问题描述有些含糊，也许至少你应该说明一下文章的标题和摘要吧

如果这篇文章是关于文本分类的，那么用的是什么分类方法呢？在此假设你用的是基于统
计和机器学习的文本分类方法，比如Naive Bayes，KNN，SVM或者Neuron Network等，它们
都是用特征向量作为文档表达方式（Document Representation），那么分词只是决定了文
档表达的最小单位。


至于为什么用词作为文档表达的基本单位，我想是针对机器学习算法的特点。以字为单位
，由于割裂了文本中的语义，所以无法反映真正的文本特征；以句子为单位，则由于相同
语义可以用不同的句子来表达，变化的数量太多也使得计算机无法处理；


通过分词，以词为单位来表达文档，其实也具有以上两种方法的缺点，但只是一种最佳的
折衷罢了。至于你说的意义，可以说对，但是感觉这种说法太拘泥于技术的层面，换句话
说，就象是说我吃饭是为了吃饱做准备一样（抱歉，如果比喻的不合适，请见谅）。


对于你的第二个问题，应该是可以的。


【 在 mining 的大作中提到: 】

: 审稿意见，必须马上回复，我是半道出山，请大虾帮忙

: 中文文本在处理之前需要进行词条切分，以便获得单个的短语。

: 对于文本分类问题，词条切分的意义是否是：

: 1、为统计特征词条做准备

: 2、为统计词频矩阵做准备

: 如果已知特征词条，是否无需进行词条切分即可统计词频矩阵？

: ：


--

欢迎光临智能信息检索论坛

http://202.112.116.44


※ 来源:．南京大学小百合站 http://bbs.nju.edu.cn [FROM: 211.138.108.171]

854.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 854.txt 源码文件，采用文本编程语言编写，共 36 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?