📄 911.txt
字号:
发信人: tyqqre (tyqqre), 信区: DataMining
标 题: Re: 有关文本分类特征提取的问题
发信站: 南京大学小百合站 (Fri Sep 13 16:39:33 2002)
看见一个公式:
p(wi|ci)=(ni+1)/(n+|Vocabulary|)
其中:
ni是指类别ci中单词wi出现的文档数
n是指类别ci中所有单词出现的文档总数
|Vocabulary|是指所有的单词数
不知道这样理解对不对?
【 在 singhoo 的大作中提到: 】
: 1+类别ci中词wi出现的次数/类别ci中词总数+类别ci中所有词出现次数只和
: 分子加1和分母加词总数防止出现0概率
--
※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 211.99.42.120]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -