📄 427.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]我对文本分类问题的几点看法。你一定得看看哟!
发信站: 南京大学小百合站 (Sun Oct 20 23:36:42 2002), 站内信件
WbAI (wbAI) 于Sat Oct 19 14:17:21 2002)
提到:
本人搞了一段文本分类,有以下体会,与大家分享:
(1)影响分类精度的因素:
1.1 特征提取方法:通常DF方法简单易行,且精度较高。但一般人们都采用IG
方法,odds ratio方法效果也非常不错。
1.2 分类器算法:精度最高的普遍认为是支持向量机,但简单VSM和朴素贝叶斯
方法不错,KNN也还行。
1.3 训练例的多少:太多了,特征就多,训练和分类速度都会降低;太少了,
精度会降低;我建议大家应该根据类别多少,决定训练例的多少。
1.4 类别个数的多少:通常类别较多,错误类就高。道理我就不细说了,其实
很简单,如果只有两个类别,新文本的类别可能性只有两种,而对于三个类别,新文本的
类别可能性有三种。。。。。
1.5 训练数据集本身是否有错误,如果训练数据集本身的分类有错误,显然会影
响查准率和查全率
(2)提高分类精度的方法:
2.1 bagging方法
2.2 boosting方法,但对于利用boosting在文本分类上我一直有怀疑
2.4 选择合适的特征子集提取方法,并设定合适的阈值
(3)几个值得商榷的问题
3.1 特征集的提取应该是对于一个类别一个特征集还是对所有类别就一个?
偶认为:特征子集提取应该是对每个类别的特征集进行提取的
各类别特征子集提取后,再求并集,得到所有类别的特征子集(大
特征子集)
3.2 有人认为特征子集是对大特征集进行的。
偶认为:这种观点是错误的
好了,就先写这么多吧,偶得去接个电话,呵呵
就以上问题我希望引起大家的讨论,这是其一,其二,我希望大家有所补充!!!
pxh1018 (耐思) 于Sun Oct 20 11:17:29 2002)
提到:
“对各类别特征子集提取后,再求并集”,如果我有1000个预先定义的类,每个
类的特征值有3000个,假设对他们求并集,所有的类别没有一个特征值存在交集,则求并
集后就有3000000个特征值,并且特征值的数目随着主题类别的增加而增加,所有想问一下
wbAI是怎样解决这个问题的?
mining (key) 于Sun Oct 20 12:55:10 2002提到:
十分欣赏Wbai的这种精神,不怕自己的成果被人剽窃。
mining (key) 于Sun Oct 20 13:01:39 2002提到:
我个人认为:要是你的子类别的特征集完全是正交的话,那你的分类准确度能达到100%.
事实上,你提的这个问题存在的可能性几乎就没有,因为我们的语言还没达到这种丰富程
度。如果真如你所说,根本就没有交集,那你可以进一步精炼你的特征集,让它变得更小
。
不知道Wbai这么认为否。
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -