408.txt

来自「This complete matlab for neural network」· 文本代码 · 共 31 行

TXT

31 行

发信人: mining (key), 信区: DataMining
标  题: Re: 我对文本分类问题的几点看法。你一定得看看哟！
发信站: 南京大学小百合站 (Sun Oct 20 12:55:10 2002), 站内信件

十分欣赏Wbai的这种精神，不怕自己的成果被人剽窃。
【 在 WbAI (wbAI) 的大作中提到: 】
:      本人搞了一段文本分类，有以下体会，与大家分享：
:     （1）影响分类精度的因素：
:          1.1  特征提取方法：通常DF方法简单易行，且精度较高。但一般人们都采用IG
: 方法，odds ratio方法效果也非常不错。
:          1.2  分类器算法：精度最高的普遍认为是支持向量机，但简单VSM和朴素贝..
: 方法不错，KNN也还行。
:          1.3  训练例的多少：太多了，特征就多，训练和分类速度都会降低；太少了，
: 精度会降低；我建议大家应该根据类别多少，决定训练例的多少。
:          1.4  类别个数的多少：通常类别较多，错误类就高。道理我就不细说了，其实
: 很简单，如果只有两个类别，新文本的类别可能性只有两种，而对于三个类别，新文本的
: 类别可能性有三种。。。。。
:          1.5 训练数据集本身是否有错误，如果训练数据集本身的分类有错误，显然..
: 响查准率和查全率
:      （2）提高分类精度的方法：
:          2.1 bagging方法
:          2.2 boosting方法，但对于利用boosting在文本分类上我一直有怀疑
:          2.3 选举法，即利用几个分类器对新文本类别进行投票
:          2.4 选择合适的特征子集提取方法，并设定合适的阈值
:      （3）几个值得商榷的问题
:          3.1 特征集的提取应该是对于一个类别一个特征集还是对所有类别就一个？
: (以下引言省略 ... ...)

--
※ 来源:．南京大学小百合站 bbs.nju.edu.cn．[FROM: 202.118.237.39]

408.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 408.txt 源码文件，采用文本编程语言编写，共 31 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?