21.txt

来自「This complete matlab for neural network」· 文本代码 · 共 36 行

TXT

36 行

发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]关于web内容挖掘和文本挖掘
发信站: 南京大学小百合站 (Wed Jul 17 15:39:17 2002), 站内信件

singhoo (tony) 于Thu Jul 11 09:35:59 2002提到：

到底有什么区别？感觉文本挖掘相当复杂，涉及大量语言学方面知识
web内容挖掘算是文本挖掘的一个子集吗？
还有web挖掘可以实现智能搜索，既搜索到网络上动态网页的内容，请问是如何实现的？
请大侠指点一下，thx！


chdq135 (阿权) 于Thu Jul 11 10:54:29 2002提到：

web内容挖掘应该是文本挖掘的一个新的发展，但又不同于文本挖掘。
在过去，文本挖掘的对象是平面的，而web内容挖掘处理的对象则是半结构话
，当然也又非结构化，结构化的内容。
目前文本挖掘主要是基于统计来挖掘的。现在很多人也在研究语义，这主要是基于
ontology来做的。
至于动态网页的内容，我猜测可能是与动态的网站又某种协议，如citesser
也可能是不断用关键字来查询，此时类似于元搜索引擎。
不知对错，仅供参考



mining (key) 于Thu Jul 11 11:04:32 2002提到：

我认为二者的区别不在于问题的本质，而在于研究的对象。
web内容信息绝大部分本身就是文本，只是一种用特殊形式表现的文本。
所以二者在研究方法上不可避免的有相通之处。
目前web内容挖掘的研究主要集中在文本内容，对于声像资料也有人在做，但很少。
web内容挖掘又主要集中在web分类和检索方面这方面的资料在国内外的各种计算机方面的
期刊上都能找到。主要是解决海量文本的检索和利用问题；另一方面有人在利用大量的
web文本提取语义信息。这方面一位华人加拿大学者好像做得不错，在哈工大作了报告。
我个人认为：下一代web内容挖掘的研究可能会集中于面向主题和个性化的信息开发方面
不知道大家的观点如何，欢迎批评指正

21.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 21.txt 源码文件，采用文本编程语言编写，共 36 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?