📄 446.txt
字号:
发信人: francois (断玉), 信区: DataMining
标 题: Re: IDF(inverse document frequency)是什么意思
发信站: 南京大学小百合站 (Thu Apr 18 13:12:25 2002)
这个是信息检索中的术语,由于目前常用的检索系统一般采用向量空间模型,即将文档用
词向量来表示,每个独立的词作为一个维,对应该维的权重则常用TFIDF来计算
所谓TFIDF(Term Frequency x Inverse Document Frequency),简单地说,就是用该词
在当前文档中的词频乘以它在整个文档集合中的文档频率(包含了该词的文档个数)的倒
数。
其直观意义是:如果该词在某个文档中出现的次数越多,则它在这个文档中就越重要,更
能反映文档的主题特征;如果该词在很多文档中都出现,则表明它是一个常用词,不能反
映单个文档的主题特征,所以就要降低它的权重。
【 在 intel 的大作中提到: 】
: r.t.
--
欢迎光临智能信息检索论坛
http://202.112.116.44
※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 159.226.251.11]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -