⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 446.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: francois (断玉), 信区: DataMining
标  题: Re: IDF(inverse document frequency)是什么意思
发信站: 南京大学小百合站 (Thu Apr 18 13:12:25 2002)

这个是信息检索中的术语,由于目前常用的检索系统一般采用向量空间模型,即将文档用
词向量来表示,每个独立的词作为一个维,对应该维的权重则常用TFIDF来计算


所谓TFIDF(Term Frequency x Inverse Document Frequency),简单地说,就是用该词
在当前文档中的词频乘以它在整个文档集合中的文档频率(包含了该词的文档个数)的倒
数。


其直观意义是:如果该词在某个文档中出现的次数越多,则它在这个文档中就越重要,更
能反映文档的主题特征;如果该词在很多文档中都出现,则表明它是一个常用词,不能反
映单个文档的主题特征,所以就要降低它的权重。


【 在 intel 的大作中提到: 】

: r.t.


--

欢迎光临智能信息检索论坛

http://202.112.116.44


※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 159.226.251.11]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -