⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 39.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: strawman (独上江楼思渺然), 信区: DataMining
标  题: [合集]郁闷阿,做了成果出来老师不相信
发信站: 南京大学小百合站 (Tue Mar  4 10:27:36 2003)

singhoo (tony) 于Sat Mar  1 22:00:25 2003)
提到:

做了一个特征选择算法,使用NB分类接近90%准确率,
比KDD2002的论文高了近10个百分点,老师硬是不相信!
说是轰动效应,说不可能!


GzLi (笑梨) 于Sat Mar  1 23:47:24 2003)
提到:

检验一下你的测试方法和标准是否一致,
是什么差别引起这么好的结果啊,总结给你们导师看看呗。



singhoo (tony) 于Sat Mar  1 23:56:10 2003)
提到:

试验条件完全一样
1数据集合一样20NG
2训练测试分割一样2:1
3分类器一样
唯一不同的就是特征选择,他们就是说提高这么多不可能!



ihappy (如是我闻) 于Sun Mar  2 00:55:34 2003)
提到:

are you using a cross-validation?

if you only run the program once on a specific train/test split, maybe it
is due to variance of the error rate.



GzLi (笑梨) 于Sun Mar  2 10:14:02 2003)
提到:

特征选择的确是可以提高准确率,10%也是可能的,
但还是要提醒你看清楚你们测试的次数,测试的方法吧。



singhoo (tony) 于Sun Mar  2 12:58:15 2003)
提到:

当然不是一次测试了
每个特征数下都是经过6次以上测试,求平均值的
我不可能把某次最好的结果单独列出来的,这是基本概念



jueww (觉·无我) 于Mon Mar  3 12:23:37 2003)
提到:

如果从80%提高到81%, 是可能的.

如果从80%提高到90%, 是不太可能的. 

是不是你的预处理有什么地方搞错了. 比如有些样本被去掉了.

另外, 单纯NB的精度不太可能做得很高, 如果经过FS的话, 更加不太可能

做高, 本质上NB的方法非常简单. 简单的东西发现不了复杂的模式, 

在实际问题上总会遇到各种各样的局限性 (天下没有免费的午餐).


如果你用了些因子分析/因子提取的方法, 还是有可能的.




lelefei (去上自习吧:() 于Mon Mar  3 13:32:26 2003)
提到:

我相信你,可惜没用:)

singhoo (tony) 于Mon Mar  3 14:38:35 2003)
提到:

严格按照文本分类的专业术语来说
我这个不是特征选择(feature selection)
而是feature extraction,之所以提高这么多,是因为算法思想
和以前不一样,但是本质目的都是特征维数压缩。

顺便问一下:
ACM SIGMOD DMKD
IEEE ICDM
ECML/PKDD
这几个会议哪个好点?KDD'03已经过期了



lbridge (lbridge) 于Mon Mar  3 17:38:37 2003)
提到:

最最简单的证明方法就是测试!

要想让别人相信你的实验结果,只能通过测试,文本分类的英文测试集是reuters测试集。

北京大学正在搞一个中文网页测试,你可以去参加一下。

我对你的测试结果表示怀疑,因为目前就文本分类而言,最好的分类结果平均也达不到90
%,包括SVM等方法,更不用说NB这么原始的方法了。




singhoo (tony) 于Mon Mar  3 19:44:40 2003)
提到:

~~~~~~~~~~~~~~~~~~~~~~
CMU大学的rainbow系统不知道你用过没有?他在20N上SVM的准确率已经超过90%,
不过一般也就90%多一点,超过91%都是及其困难的


jueww (觉·无我) 于Mon Mar  3 21:50:16 2003)
提到:

我也在做文本分类, 不过是新手, 有机会向您请教一下. :-)

我觉得文本分类太说accuracy, 而是说F1 measure等之类.

不知道你在哪个测试集上做的. 我是在reuters21578上做, 感觉在这种

规范的数据集上提高精度也非常不容易, 另外测试一次的计算时间也太长.

而且感觉NB比不上基于距离的方法, 用在半结构化的文本上, NB的优点可能会

显出一些来. 不知道用特征抽取(应该是term clustering之类吧?)能提高这么多.

我没试过LSI之类, 正想试试看, 你是用LSI吧?




nope (该努力乐) 于Mon Mar  3 22:58:00 2003)

提到:

这因该是svm最成功的应用把




fervvac (高远) 于Tue Mar  4 03:03:41 2003)
提到:

Well, why not try other datasets? As a researcher, one should be 
confident in his own work and also need to push the result to others
once in a while, :D

If your method is really good on many widely-cited datasets, you may 
wish to try top conferences. SIGMOD is of course the most influential
conf. in the Database field. You still have more than half a year to 
polish your ideas. ICDE's deadline is July 2.

However, you might need to have a thorough study of your method if you
want to try top confs. 



lbridge (lbridge) 于Tue Mar  4 08:45:31 2003)
提到:

写论文时最常用的英文分类测试集是reuters,你说自己从80%提到了90%,我还以为你在这
个集合上做的呢。如果你的NB分类方法超过了SVM及类似原理的方法,那才叫牛。在一个S
VM也能达到90%的测试集上NB达到90%,我觉得这不算是把NB从80%提到了90%,表达上不够
准确。应该说明,在某个公开测试集上,他人最好的结果是怎样的,你又是怎样的。

多选择几个公开的测试集,如果能够全面超越他人所做的工作,才能证明自己的结论。




armen (五分钟的傻瓜) 于Tue Mar  4 10:15:18 2003)
提到:

这还不简单,投到国外权威杂志上去

让那些审稿的专家帮你判断真假悟空

如果能发表出来,老师相信不相信也不重要拉,呵呵



⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -