📄 939.txt

📁 This complete matlab for neural network

💻 TXT

字号:

发信人: singhoo (tony), 信区: DataMining
标  题: Re: 关于naive bayes的问题
发信站: 南京大学小百合站 (Mon Sep 16 09:30:51 2002), 站内信件

在计算p(wi|cj)的时候不会nid次方的，是使用训练集中的词频来计算的
在计算p(cj|d)的时候会将p(wi|cj) nid次方，但是这并不失合理性
wi出现次数多，p(wi|cj)变大，次方后p(cj|d)的值究竟变大还是变小无法直接判断
所以应该没有问题吧

关于特征提取，我现在的理解是
使用向量中心距离分类，或者使用tfidf/rocchio分类需要计算TFIDF值
其他分类不需要计算tfidf
以前看一些论文（主要是国内的），上来就是VSM,然后就算TFIDF，也不管需要不需要
但是特征提取都是必须的


【 在 tyqqre (tyqqre) 的大作中提到: 】
: 请问，
: 有人能不能解释一下multinomial模型的合理性吗？
: 例如：
: 在计算后验概率的时候，p(wi|cj)还要nid（即词wi在新文档d中出现的次数）次方，是否
: 表明如果词wi在新文档d中出现的次数越多，则后验概率越小？因为p(wi|cj）<=1,再来个
: 次方不就更小了吗？而且nid越大幂值就越小。
: 
: 楼下的这位朋友的问题也很难找到答案，有人有这方面的资料吗？
: 【 在 singhoo 的大作中提到: 】
: : 打算使用简单Bayes算法作为文本分类器，但是对于文档的特征提取有些疑问
: : 有的使用multinomial模型，即计算词频，不计算文档频率
: : 使用TF/IDF。即计算词频，也计算文档频率
: : 到底使用哪个模型比较好？如果使用TF/IDF，在使用Bayes计算的时候如何使用
: : TF/IDF得到的权值？THX!


--
※ 来源:．南京大学小百合站 bbs.nju.edu.cn．[FROM: 202.38.197.76]

⌨️ 快捷键说明

复制代码 Ctrl + C

搜索代码 Ctrl + F

全屏模式 F11

切换主题 Ctrl + Shift + D

显示快捷键 ?

增大字号 Ctrl + =

减小字号 Ctrl + -