📄 408.txt
字号:
发信人: mining (key), 信区: DataMining
标 题: Re: 我对文本分类问题的几点看法。你一定得看看哟!
发信站: 南京大学小百合站 (Sun Oct 20 12:55:10 2002), 站内信件
十分欣赏Wbai的这种精神,不怕自己的成果被人剽窃。
【 在 WbAI (wbAI) 的大作中提到: 】
: 本人搞了一段文本分类,有以下体会,与大家分享:
: (1)影响分类精度的因素:
: 1.1 特征提取方法:通常DF方法简单易行,且精度较高。但一般人们都采用IG
: 方法,odds ratio方法效果也非常不错。
: 1.2 分类器算法:精度最高的普遍认为是支持向量机,但简单VSM和朴素贝..
: 方法不错,KNN也还行。
: 1.3 训练例的多少:太多了,特征就多,训练和分类速度都会降低;太少了,
: 精度会降低;我建议大家应该根据类别多少,决定训练例的多少。
: 1.4 类别个数的多少:通常类别较多,错误类就高。道理我就不细说了,其实
: 很简单,如果只有两个类别,新文本的类别可能性只有两种,而对于三个类别,新文本的
: 类别可能性有三种。。。。。
: 1.5 训练数据集本身是否有错误,如果训练数据集本身的分类有错误,显然..
: 响查准率和查全率
: (2)提高分类精度的方法:
: 2.1 bagging方法
: 2.2 boosting方法,但对于利用boosting在文本分类上我一直有怀疑
: 2.3 选举法,即利用几个分类器对新文本类别进行投票
: 2.4 选择合适的特征子集提取方法,并设定合适的阈值
: (3)几个值得商榷的问题
: 3.1 特征集的提取应该是对于一个类别一个特征集还是对所有类别就一个?
: (以下引言省略 ... ...)
--
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.118.237.39]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -