387.txt

来自「This complete matlab for neural network」· 文本代码 · 共 38 行

TXT

38 行

发信人: WbAI (wbAI), 信区: DataMining
标  题: 我对文本分类问题的几点看法。你一定得看看哟！
发信站: 南京大学小百合站 (Sat Oct 19 14:17:21 2002)

     本人搞了一段文本分类，有以下体会，与大家分享：

    （1）影响分类精度的因素：

         1.1  特征提取方法：通常DF方法简单易行，且精度较高。但一般人们都采用IG
方法，odds ratio方法效果也非常不错。

         1.2  分类器算法：精度最高的普遍认为是支持向量机，但简单VSM和朴素贝叶斯
方法不错，KNN也还行。

         1.3  训练例的多少：太多了，特征就多，训练和分类速度都会降低；太少了，
精度会降低；我建议大家应该根据类别多少，决定训练例的多少。

         1.4  类别个数的多少：通常类别较多，错误类就高。道理我就不细说了，其实
很简单，如果只有两个类别，新文本的类别可能性只有两种，而对于三个类别，新文本的
类别可能性有三种。。。。。

         1.5 训练数据集本身是否有错误，如果训练数据集本身的分类有错误，显然会影
响查准率和查全率

     （2）提高分类精度的方法：

         2.1 bagging方法

         2.2 boosting方法，但对于利用boosting在文本分类上我一直有怀疑

         2.3 选举法，即利用几个分类器对新文本类别进行投票

         2.4 选择合适的特征子集提取方法，并设定合适的阈值

     （3）几个值得商榷的问题

         3.1 特征集的提取应该是对于一个类别一个特征集还是对所有类别就一个？

             偶认为：特征子集提取应该是对每个类别的特征集进行提取的

                     各类别特征子集提取后，再求并集，得到所有类别的特征子集（大
特征子集）

         3.2 有人认为特征子集是对大特征集进行的。

             偶认为：这种观点是错误的

         

      好了，就先写这么多吧，偶得去接个电话，呵呵

      就以上问题我希望引起大家的讨论，这是其一，其二，我希望大家有所补充！！！


--

※ 来源:．南京大学小百合站 http://bbs.nju.edu.cn [FROM: 218.246.96.6]

387.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 387.txt 源码文件，采用文本编程语言编写，共 38 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?