⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 39.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]关于naive bayes的问题
发信站: 南京大学小百合站 (Sat Sep 21 13:17:26 2002), 站内信件

singhoo (tony) 于Mon Aug 19 16:57:34 2002提到:

打算使用简单Bayes算法作为文本分类器,但是对于文档的特征提取有些疑问
有的使用multinomial模型,即计算词频,不计算文档频率
使用TF/IDF。即计算词频,也计算文档频率
到底使用哪个模型比较好?如果使用TF/IDF,在使用Bayes计算的时候如何使用
TF/IDF得到的权值?THX!


tyqqre (tyqqre) 于Sat Sep 14 22:30:29 2002)
提到:

请问,

有人能不能解释一下multinomial模型的合理性吗?

例如:

在计算后验概率的时候,p(wi|cj)还要nid(即词wi在新文档d中出现的次数)次方,是否
表明如果词wi在新文档d中出现的次数越多,则后验概率越小?因为p(wi|cj)<=1,再来个
次方不就更小了吗?而且nid越大幂值就越小。


楼下的这位朋友的问题也很难找到答案,有人有这方面的资料吗?



sinokdd (KDD in China) 于Sun Sep 15 10:51:07 2002)
提到:


我觉得TF/IDF要好一些,不过这需要你首先有一个很大的文档库,计算其中每个

word的IDF。如果你用word vector表示文档的话,用TF/IDF代替词频即可。

TF/IDF主要是计算词的显著性与否,如果一个词在某个文档中出现的机会和

它在文档库出现的机会相近,则表示这个词在这个文档中是它的普遍用法,

TF?IDF值就会很小。只有当这个词在这个文档中的出现机会比它在文档库

中的机会大时,表示这个词在这个文档中有不平常的用法。

有人用这种方法从文档中提取关键词,效果还可以。

singhoo (tony) 于Mon Sep 16 09:30:51 2002提到:

在计算p(wi|cj)的时候不会nid次方的,是使用训练集中的词频来计算的
在计算p(cj|d)的时候会将p(wi|cj) nid次方,但是这并不失合理性
wi出现次数多,p(wi|cj)变大,次方后p(cj|d)的值究竟变大还是变小无法直接判断
所以应该没有问题吧

关于特征提取,我现在的理解是
使用向量中心距离分类,或者使用tfidf/rocchio分类需要计算TFIDF值
其他分类不需要计算tfidf
以前看一些论文(主要是国内的),上来就是VSM,然后就算TFIDF,也不管需要不需要
但是特征提取都是必须的



tyqqre (tyqqre) 于Mon Sep 16 09:54:09 2002)
提到:


我的理解是:

  由于p(wi|cj)<=1, 所以其nid次方以后,值应该变小。

singhoo (tony) 于Mon Sep 16 10:05:17 2002提到:

但是p(wi|cj)会变大阿
你的前提条件是wi出现多次
本来出现一次p(wi|cj)=0.8,不计算次方
出现2次,p(wi|cj)=0.9,平方后是0.81
变小了吗?



tyqqre (tyqqre) 于Mon Sep 16 10:51:44 2002)
提到:

我的理解是:

p(wi|cj)是在训练例集上求得的,也就是说,只要训练例集不变,这个值应该是固定的。

而÷来了一个需要分类的新文档di

在计算p(cj|di)的时候,nid次方的这个nid是在这个新文档di中wi出现的次数。

所以nid越大,p(wi|cj)的nid次方就越小。


这样能不能说,用这种方法只能比较同一篇文章属于不同类别的概率,

而不能比较不同文章属于同一类别的概率。



singhoo (tony) 于Mon Sep 16 11:20:32 2002提到:

i see
在计算不同文章属于同一类别的概率是,bayes公式有变化
p(cj|di)=p(cjdi)/p(di)中的p(di)不在相等,而在计算同一文档属于不同类别时
p(di)是相等的,所以bayes分类不计算

wi出现次数多,nid次方后是变小,但是p(di)也会变小,两者相除,是可以比较的!



tyqqre (tyqqre) 于Mon Sep 16 17:30:34 2002)
提到:

我还是觉得,这种计算概率的方法还是不能清楚解释某些直观上的情况,不过从文献来看
,这些方法的效果还是很不错的。

还有一个实际应用中的问题,就是将p(wi|ci)连乘的时候,由于p(wi|ci)本身比较小(一
般在千分之几),,有时候就是连乘的结果就是0了,大家是怎么处理这种情况的。



tyqqre (tyqqre) 于Wed Sep 18 21:18:47 2002)
提到:

有人使用naive bayes做文本分类吗?谈谈你们的感受?以及遇到的问题和解决问题的方法
谢谢!



sinokdd (KDD in China) 于Thu Sep 19 12:07:36 2002)
提到:


As I know, SVM is better than NB for text classification.



fervvac (高远) 于Thu Sep 19 12:37:45 2002提到:

But is it true that svm need to tune many parameters?



⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -