872.txt

来自「This complete matlab for neural network」· 文本代码 · 共 115 行
TXT
115 行
发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]请教中文文本分类问题
发信站: 南京大学小百合站 (Sun Nov 17 00:27:16 2002), 站内信件

mining (key) 于Sat Nov 16 12:31:47 2002提到：

审稿意见，必须马上回复，我是半道出山，请大虾帮忙
中文文本在处理之前需要进行词条切分，以便获得单个的短语。
对于文本分类问题，词条切分的意义是否是：
1、为统计特征词条做准备
2、为统计词频矩阵做准备
如果已知特征词条，是否无需进行词条切分即可统计词频矩阵？
：


francois (断玉) 于Sat Nov 16 15:04:23 2002)
提到：

觉得你的问题描述有些含糊，也许至少你应该说明一下文章的标题和摘要吧

如果这篇文章是关于文本分类的，那么用的是什么分类方法呢？在此假设你用的是基于统
计和机器学习的文本分类方法，比如Naive Bayes，KNN，SVM或者Neuron Network等，它们
都是用特征向量作为文档表达方式（Document Representation），那么分词只是决定了文
档表达的最小单位。


至于为什么用词作为文档表达的基本单位，我想是针对机器学习算法的特点。以字为单位
，由于割裂了文本中的语义，所以无法反映真正的文本特征；以句子为单位，则由于相同
语义可以用不同的句子来表达，变化的数量太多也使得计算机无法处理；


通过分词，以词为单位来表达文档，其实也具有以上两种方法的缺点，但只是一种最佳的
折衷罢了。至于你说的意义，可以说对，但是感觉这种说法太拘泥于技术的层面，换句话
说，就象是说我吃饭是为了吃饱做准备一样（抱歉，如果比喻的不合适，请见谅）。


对于你的第二个问题，应该是可以的。


【 在 mining 的大作中提到: 】

: 审稿意见，必须马上回复，我是半道出山，请大虾帮忙

: 中文文本在处理之前需要进行词条切分，以便获得单个的短语。

: 对于文本分类问题，词条切分的意义是否是：

: 1、为统计特征词条做准备

: 2、为统计词频矩阵做准备

: 如果已知特征词条，是否无需进行词条切分即可统计词频矩阵？

: ：



mining (key) 于Sat Nov 16 19:51:14 2002提到：

非常感谢你的指点。
我因为半道出山做文本分类，所以有很多概念不是很清楚。
这是一片关于文本分类的文章，用的方法是K-近邻
我在做中文文本分类时，因为很容易能得到特征词条集
所以我写了我的方法无需词条切分过程
审稿意见认为我这一点上没写清楚，需要补充。
而我认为我已知特征词条集合，因此无需分词，直接扫描统计即可
不知我的观点对否？
请断玉兄继续指点。

【 在 francois (断玉) 的大作中提到: 】
: 觉得你的问题描述有些含糊，也许至少你应该说明一下文章的标题和摘要吧
: 如果这篇文章是关于文本分类的，那么用的是什么分类方法呢？在此假设你用的是基于统
: 计和机器学习的文本分类方法，比如Naive Bayes，KNN，SVM或者Neuron Network等，..
: 都是用特征向量作为文档表达方式（Document Representation），那么分词只是决定..
: 档表达的最小单位。
: 
: 至于为什么用词作为文档表达的基本单位，我想是针对机器学习算法的特点。以字为单位
: ，由于割裂了文本中的语义，所以无法反映真正的文本特征；以句子为单位，则由于相同
: 语义可以用不同的句子来表达，变化的数量太多也使得计算机无法处理；
: 
: 通过分词，以词为单位来表达文档，其实也具有以上两种方法的缺点，但只是一种最佳的
: 折衷罢了。至于你说的意义，可以说对，但是感觉这种说法太拘泥于技术的层面，换句话
: 说，就象是说我吃饭是为了吃饱做准备一样（抱歉，如果比喻的不合适，请见谅）。
: 
: 对于你的第二个问题，应该是可以的。
: 
: 【 在 mining 的大作中提到: 】
: (以下引言省略 ... ...)


francois (断玉) 于Sat Nov 16 21:45:09 2002)
提到：

呵呵，指点谈不上，共同探讨吧


文本分类我原来也做过，不过关注的是基于语义的分类，期望能比基于统计和机器学习的
方法有所改善，想法应该是不错，可惜没能完善就毕业了


你提到在已经得到分类主题词（即你所说的特征词条集）的基础上，进行文本分类是否不
需要分词，而是直接扫描统计？我觉得是可以的，因为传统的方法（先分词，然后对语料
进行统计，根据TFIDF公式抽取出文档的特征词，构造文档的特征向量）和你的方法（根据
主题词典扫描语料，直接根据相应主题词的TF来构造文档的特征向量）在原理上是差不多
的，只是用人工（事先整理好分类主题词典）来代替了机器的统计。


这里主要的问题是你得到的特征词条集的完备性如何？是否能有效涵盖所要分类语料的绝
大部分特征？举个例子来说，对于数据挖掘相关的文档，如果你的特征词条集只包含了“
数据挖掘”而没有“知识发现”的话，就会在生成文档特征向量时造成相应的维度缺失，
从而导致分类性能降低。


而基于统计的方法则可以弥补这个缺点，当然同时也引入另外一个缺点，就是噪声的引入
，会错误地把TFIDF较高但与文档主题无关的词作为特征。也许你以后可以考虑两种方法的
结合吧


【 在 mining 的大作中提到: 】

: 非常感谢你的指点。

: 我因为半道出山做文本分类，所以有很多概念不是很清楚。

: 这是一片关于文本分类的文章，用的方法是K-近邻

: 我在做中文文本分类时，因为很容易能得到特征词条集

: 所以我写了我的方法无需词条切分过程

: 审稿意见认为我这一点上没写清楚，需要补充。

: 而我认为我已知特征词条集合，因此无需分词，直接扫描统计即可

: 不知我的观点对否？

: 请断玉兄继续指点。

: 【 在 francois (断玉) 的大作中提到: 】

: (以下引言省略...)
872.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 872.txt 源码文件，采用文本编程语言编写，共 115 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。
虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。
⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?