301.txt

来自「This complete matlab for neural network」· 文本代码 · 共 31 行

TXT

31 行

发信人: chdq135 (阿权), 信区: DataMining
标  题: Re: 关于web内容挖掘和文本挖掘
发信站: 南京大学小百合站 (Fri Jul 12 15:15:42 2002), 站内信件

在考虑权值的时候，考虑到了不同tag对词的影响。
title等久大一点
B1。。。。。


【 在 singhoo (tony) 的大作中提到: 】
: 的确，文本挖掘是处理平面的数据，web挖掘是处理半结构化的数据，这多少有点区别，
: 但是感觉目前搞web内容挖掘的都是按照文本挖掘的方式来处理，首先，用vsm向量空间
: 模型来表示文档，再利用TF-IDF公式计算权重，然后压缩一下特征向量的维数，最后使用
: 一些分类算法来分类。 
: 这好像都忽略了web文档半结构化的特点，例如，html文档中<title></title>中的文字
: 的重要性肯定要比其他文字高，信息量大，还有字体大的文字的重要性，概括性也相对
: 要高，不知道有没有在web内容挖掘中考虑这些的？
: 以上只是自己一点思考，欢迎大家来讨论！
: 【 在 singhoo (tony) 的大作中提到: 】
: : 到底有什么区别？感觉文本挖掘相当复杂，涉及大量语言学方面知识
: : web内容挖掘算是文本挖掘的一个子集吗？
: : 还有web挖掘可以实现智能搜索，既搜索到网络上动态网页的内容，请问是如何实现..
: : 请大侠指点一下，thx！


--
 知我者谓我心忧 ☆★ ★☆ 不知我者谓我何求?
  忧忧苍天         ★          此何人哉！[0m

※ 来源:．南京大学小百合站 bbs.nju.edu.cn．[FROM: 159.226.100.201]

301.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 301.txt 源码文件，采用文本编程语言编写，共 31 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?