📄 39.txt
字号:
发信人: strawman (独上江楼思渺然), 信区: DataMining
标 题: [合集]郁闷阿,做了成果出来老师不相信
发信站: 南京大学小百合站 (Tue Mar 4 10:27:36 2003)
singhoo (tony) 于Sat Mar 1 22:00:25 2003)
提到:
做了一个特征选择算法,使用NB分类接近90%准确率,
比KDD2002的论文高了近10个百分点,老师硬是不相信!
说是轰动效应,说不可能!
GzLi (笑梨) 于Sat Mar 1 23:47:24 2003)
提到:
检验一下你的测试方法和标准是否一致,
是什么差别引起这么好的结果啊,总结给你们导师看看呗。
singhoo (tony) 于Sat Mar 1 23:56:10 2003)
提到:
试验条件完全一样
1数据集合一样20NG
2训练测试分割一样2:1
3分类器一样
唯一不同的就是特征选择,他们就是说提高这么多不可能!
ihappy (如是我闻) 于Sun Mar 2 00:55:34 2003)
提到:
are you using a cross-validation?
if you only run the program once on a specific train/test split, maybe it
is due to variance of the error rate.
GzLi (笑梨) 于Sun Mar 2 10:14:02 2003)
提到:
特征选择的确是可以提高准确率,10%也是可能的,
但还是要提醒你看清楚你们测试的次数,测试的方法吧。
singhoo (tony) 于Sun Mar 2 12:58:15 2003)
提到:
当然不是一次测试了
每个特征数下都是经过6次以上测试,求平均值的
我不可能把某次最好的结果单独列出来的,这是基本概念
jueww (觉·无我) 于Mon Mar 3 12:23:37 2003)
提到:
如果从80%提高到81%, 是可能的.
如果从80%提高到90%, 是不太可能的.
是不是你的预处理有什么地方搞错了. 比如有些样本被去掉了.
另外, 单纯NB的精度不太可能做得很高, 如果经过FS的话, 更加不太可能
做高, 本质上NB的方法非常简单. 简单的东西发现不了复杂的模式,
在实际问题上总会遇到各种各样的局限性 (天下没有免费的午餐).
如果你用了些因子分析/因子提取的方法, 还是有可能的.
lelefei (去上自习吧:() 于Mon Mar 3 13:32:26 2003)
提到:
我相信你,可惜没用:)
singhoo (tony) 于Mon Mar 3 14:38:35 2003)
提到:
严格按照文本分类的专业术语来说
我这个不是特征选择(feature selection)
而是feature extraction,之所以提高这么多,是因为算法思想
和以前不一样,但是本质目的都是特征维数压缩。
顺便问一下:
ACM SIGMOD DMKD
IEEE ICDM
ECML/PKDD
这几个会议哪个好点?KDD'03已经过期了
lbridge (lbridge) 于Mon Mar 3 17:38:37 2003)
提到:
最最简单的证明方法就是测试!
要想让别人相信你的实验结果,只能通过测试,文本分类的英文测试集是reuters测试集。
北京大学正在搞一个中文网页测试,你可以去参加一下。
我对你的测试结果表示怀疑,因为目前就文本分类而言,最好的分类结果平均也达不到90
%,包括SVM等方法,更不用说NB这么原始的方法了。
singhoo (tony) 于Mon Mar 3 19:44:40 2003)
提到:
~~~~~~~~~~~~~~~~~~~~~~
CMU大学的rainbow系统不知道你用过没有?他在20N上SVM的准确率已经超过90%,
不过一般也就90%多一点,超过91%都是及其困难的
jueww (觉·无我) 于Mon Mar 3 21:50:16 2003)
提到:
我也在做文本分类, 不过是新手, 有机会向您请教一下. :-)
我觉得文本分类太说accuracy, 而是说F1 measure等之类.
不知道你在哪个测试集上做的. 我是在reuters21578上做, 感觉在这种
规范的数据集上提高精度也非常不容易, 另外测试一次的计算时间也太长.
而且感觉NB比不上基于距离的方法, 用在半结构化的文本上, NB的优点可能会
显出一些来. 不知道用特征抽取(应该是term clustering之类吧?)能提高这么多.
我没试过LSI之类, 正想试试看, 你是用LSI吧?
nope (该努力乐) 于Mon Mar 3 22:58:00 2003)
提到:
这因该是svm最成功的应用把
fervvac (高远) 于Tue Mar 4 03:03:41 2003)
提到:
Well, why not try other datasets? As a researcher, one should be
confident in his own work and also need to push the result to others
once in a while, :D
If your method is really good on many widely-cited datasets, you may
wish to try top conferences. SIGMOD is of course the most influential
conf. in the Database field. You still have more than half a year to
polish your ideas. ICDE's deadline is July 2.
However, you might need to have a thorough study of your method if you
want to try top confs.
lbridge (lbridge) 于Tue Mar 4 08:45:31 2003)
提到:
写论文时最常用的英文分类测试集是reuters,你说自己从80%提到了90%,我还以为你在这
个集合上做的呢。如果你的NB分类方法超过了SVM及类似原理的方法,那才叫牛。在一个S
VM也能达到90%的测试集上NB达到90%,我觉得这不算是把NB从80%提到了90%,表达上不够
准确。应该说明,在某个公开测试集上,他人最好的结果是怎样的,你又是怎样的。
多选择几个公开的测试集,如果能够全面超越他人所做的工作,才能证明自己的结论。
armen (五分钟的傻瓜) 于Tue Mar 4 10:15:18 2003)
提到:
这还不简单,投到国外权威杂志上去
让那些审稿的专家帮你判断真假悟空
如果能发表出来,老师相信不相信也不重要拉,呵呵
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -