39.txt

来自「This complete matlab for neural network」· 文本代码 · 共 173 行

TXT

173 行

发信人: strawman (独上江楼思渺然), 信区: DataMining
标  题: [合集]郁闷阿，做了成果出来老师不相信
发信站: 南京大学小百合站 (Tue Mar  4 10:27:36 2003)

singhoo (tony) 于Sat Mar  1 22:00:25 2003)
提到：

做了一个特征选择算法，使用NB分类接近90％准确率，
比KDD2002的论文高了近10个百分点，老师硬是不相信！
说是轰动效应，说不可能！


GzLi (笑梨) 于Sat Mar  1 23:47:24 2003)
提到：

检验一下你的测试方法和标准是否一致，
是什么差别引起这么好的结果啊，总结给你们导师看看呗。



singhoo (tony) 于Sat Mar  1 23:56:10 2003)
提到：

试验条件完全一样
1数据集合一样20NG
2训练测试分割一样2:1
3分类器一样
唯一不同的就是特征选择，他们就是说提高这么多不可能！



ihappy (如是我闻) 于Sun Mar  2 00:55:34 2003)
提到：

are you using a cross-validation?

if you only run the program once on a specific train/test split, maybe it
is due to variance of the error rate.



GzLi (笑梨) 于Sun Mar  2 10:14:02 2003)
提到：

特征选择的确是可以提高准确率，10％也是可能的，
但还是要提醒你看清楚你们测试的次数，测试的方法吧。



singhoo (tony) 于Sun Mar  2 12:58:15 2003)
提到：

当然不是一次测试了
每个特征数下都是经过6次以上测试，求平均值的
我不可能把某次最好的结果单独列出来的，这是基本概念



jueww (觉·无我) 于Mon Mar  3 12:23:37 2003)
提到：

如果从80%提高到81%, 是可能的.

如果从80%提高到90%, 是不太可能的. 

是不是你的预处理有什么地方搞错了. 比如有些样本被去掉了.

另外, 单纯NB的精度不太可能做得很高, 如果经过FS的话, 更加不太可能

做高, 本质上NB的方法非常简单. 简单的东西发现不了复杂的模式, 

在实际问题上总会遇到各种各样的局限性 (天下没有免费的午餐).


如果你用了些因子分析/因子提取的方法, 还是有可能的.




lelefei (去上自习吧：（) 于Mon Mar  3 13:32:26 2003)
提到：

我相信你，可惜没用：）

singhoo (tony) 于Mon Mar  3 14:38:35 2003)
提到：

严格按照文本分类的专业术语来说
我这个不是特征选择（feature selection）
而是feature extraction，之所以提高这么多，是因为算法思想
和以前不一样，但是本质目的都是特征维数压缩。

顺便问一下：
ACM SIGMOD DMKD
IEEE ICDM
ECML/PKDD
这几个会议哪个好点？KDD'03已经过期了



lbridge (lbridge) 于Mon Mar  3 17:38:37 2003)
提到：

最最简单的证明方法就是测试！

要想让别人相信你的实验结果，只能通过测试，文本分类的英文测试集是reuters测试集。

北京大学正在搞一个中文网页测试，你可以去参加一下。

我对你的测试结果表示怀疑，因为目前就文本分类而言，最好的分类结果平均也达不到90
%，包括SVM等方法，更不用说NB这么原始的方法了。




singhoo (tony) 于Mon Mar  3 19:44:40 2003)
提到：

~~~~~~~~~~~~~~~~~~~~~~
CMU大学的rainbow系统不知道你用过没有？他在20N上SVM的准确率已经超过90％，
不过一般也就90％多一点，超过91％都是及其困难的


jueww (觉·无我) 于Mon Mar  3 21:50:16 2003)
提到：

我也在做文本分类, 不过是新手, 有机会向您请教一下. :-)

我觉得文本分类太说accuracy, 而是说F1 measure等之类.

不知道你在哪个测试集上做的. 我是在reuters21578上做, 感觉在这种

规范的数据集上提高精度也非常不容易, 另外测试一次的计算时间也太长.

而且感觉NB比不上基于距离的方法, 用在半结构化的文本上, NB的优点可能会

显出一些来. 不知道用特征抽取(应该是term clustering之类吧?)能提高这么多.

我没试过LSI之类, 正想试试看, 你是用LSI吧?




nope (该努力乐) 于Mon Mar  3 22:58:00 2003)

提到：

这因该是svm最成功的应用把




fervvac (高远) 于Tue Mar  4 03:03:41 2003)
提到：

Well, why not try other datasets? As a researcher, one should be 
confident in his own work and also need to push the result to others
once in a while, :D

If your method is really good on many widely-cited datasets, you may 
wish to try top conferences. SIGMOD is of course the most influential
conf. in the Database field. You still have more than half a year to 
polish your ideas. ICDE's deadline is July 2.

However, you might need to have a thorough study of your method if you
want to try top confs. 



lbridge (lbridge) 于Tue Mar  4 08:45:31 2003)
提到：

写论文时最常用的英文分类测试集是reuters，你说自己从80%提到了90%，我还以为你在这
个集合上做的呢。如果你的NB分类方法超过了SVM及类似原理的方法，那才叫牛。在一个S
VM也能达到90%的测试集上NB达到90%，我觉得这不算是把NB从80%提到了90%，表达上不够
准确。应该说明，在某个公开测试集上，他人最好的结果是怎样的，你又是怎样的。

多选择几个公开的测试集，如果能够全面超越他人所做的工作，才能证明自己的结论。




armen (五分钟的傻瓜) 于Tue Mar  4 10:15:18 2003)
提到：

这还不简单，投到国外权威杂志上去

让那些审稿的专家帮你判断真假悟空

如果能发表出来，老师相信不相信也不重要拉，呵呵

39.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 39.txt 源码文件，采用文本编程语言编写，共 173 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?