316.txt

来自「This complete matlab for neural network」· 文本代码 · 共 30 行

TXT

30 行

发信人: chdq135 (阿权), 信区: DataMining
标  题: Re: 关于web内容挖掘和文本挖掘
发信站: 南京大学小百合站 (Sat Jul 13 16:56:10 2002), 站内信件

我看到的两篇文章，它是根据经验来人为给予的。
如title》B1》B2》B3等等
好像没有什么其他方法来计算了


【 在 chdq135 (阿权) 的大作中提到: 】
: 在考虑权值的时候，考虑到了不同tag对词的影响。
: title等久大一点
: B1。。。。。
: 【 在 singhoo (tony) 的大作中提到: 】
: : 的确，文本挖掘是处理平面的数据，web挖掘是处理半结构化的数据，这多少有点区..
: : 但是感觉目前搞web内容挖掘的都是按照文本挖掘的方式来处理，首先，用vsm向量空间
: : 模型来表示文档，再利用TF-IDF公式计算权重，然后压缩一下特征向量的维数，最后..
: : 一些分类算法来分类。 
: : 这好像都忽略了web文档半结构化的特点，例如，html文档中<title></title>中的文字
: : 的重要性肯定要比其他文字高，信息量大，还有字体大的文字的重要性，概括性也相对
: : 要高，不知道有没有在web内容挖掘中考虑这些的？
: : 以上只是自己一点思考，欢迎大家来讨论！


--
 知我者谓我心忧 ☆★ ★☆ 不知我者谓我何求?
  忧忧苍天         ★          此何人哉！[0m

※ 来源:．南京大学小百合站 bbs.nju.edu.cn．[FROM: 159.226.100.205]

316.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 316.txt 源码文件，采用文本编程语言编写，共 30 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?