296.txt

来自「This complete matlab for neural network」· 文本代码 · 共 22 行

TXT

22 行

发信人: singhoo (tony), 信区: DataMining
标  题: Re: 关于web内容挖掘和文本挖掘
发信站: 南京大学小百合站 (Thu Jul 11 20:53:54 2002), 站内信件

的确，文本挖掘是处理平面的数据，web挖掘是处理半结构化的数据，这多少有点区别，
但是感觉目前搞web内容挖掘的都是按照文本挖掘的方式来处理，首先，用vsm向量空间
模型来表示文档，再利用TF-IDF公式计算权重，然后压缩一下特征向量的维数，最后使用
一些分类算法来分类。 
这好像都忽略了web文档半结构化的特点，例如，html文档中<title></title>中的文字
的重要性肯定要比其他文字高，信息量大，还有字体大的文字的重要性，概括性也相对
要高，不知道有没有在web内容挖掘中考虑这些的？
以上只是自己一点思考，欢迎大家来讨论！
【 在 singhoo (tony) 的大作中提到: 】
: 到底有什么区别？感觉文本挖掘相当复杂，涉及大量语言学方面知识
: web内容挖掘算是文本挖掘的一个子集吗？
: 还有web挖掘可以实现智能搜索，既搜索到网络上动态网页的内容，请问是如何实现的？
: 请大侠指点一下，thx！


--
※ 来源:．南京大学小百合站 bbs.nju.edu.cn．[FROM: 202.38.197.76]

296.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 296.txt 源码文件，采用文本编程语言编写，共 22 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?