303.txt

来自「This complete matlab for neural network」· 文本代码 · 共 23 行

TXT

23 行

发信人: singhoo (tony), 信区: DataMining
标  题: Re: 关于web内容挖掘和文本挖掘
发信站: 南京大学小百合站 (Fri Jul 12 16:21:46 2002), 站内信件

有没有什么算法可以参考的？
【 在 chdq135 (阿权) 的大作中提到: 】
: 在考虑权值的时候，考虑到了不同tag对词的影响。
: title等久大一点
: B1。。。。。
: 【 在 singhoo (tony) 的大作中提到: 】
: : 的确，文本挖掘是处理平面的数据，web挖掘是处理半结构化的数据，这多少有点区..
: : 但是感觉目前搞web内容挖掘的都是按照文本挖掘的方式来处理，首先，用vsm向量空间
: : 模型来表示文档，再利用TF-IDF公式计算权重，然后压缩一下特征向量的维数，最后..
: : 一些分类算法来分类。 
: : 这好像都忽略了web文档半结构化的特点，例如，html文档中<title></title>中的文字
: : 的重要性肯定要比其他文字高，信息量大，还有字体大的文字的重要性，概括性也相对
: : 要高，不知道有没有在web内容挖掘中考虑这些的？
: : 以上只是自己一点思考，欢迎大家来讨论！


--
※ 来源:．南京大学小百合站 bbs.nju.edu.cn．[FROM: 202.38.197.76]

303.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 303.txt 源码文件，采用文本编程语言编写，共 23 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?