📄 316.txt
字号:
发信人: chdq135 (阿权), 信区: DataMining
标 题: Re: 关于web内容挖掘和文本挖掘
发信站: 南京大学小百合站 (Sat Jul 13 16:56:10 2002), 站内信件
我看到的两篇文章,它是根据经验来人为给予的。
如title》B1》B2》B3等等
好像没有什么其他方法来计算了
【 在 chdq135 (阿权) 的大作中提到: 】
: 在考虑权值的时候,考虑到了不同tag对词的影响。
: title等久大一点
: B1。。。。。
: 【 在 singhoo (tony) 的大作中提到: 】
: : 的确,文本挖掘是处理平面的数据,web挖掘是处理半结构化的数据,这多少有点区..
: : 但是感觉目前搞web内容挖掘的都是按照文本挖掘的方式来处理,首先,用vsm向量空间
: : 模型来表示文档,再利用TF-IDF公式计算权重,然后压缩一下特征向量的维数,最后..
: : 一些分类算法来分类。
: : 这好像都忽略了web文档半结构化的特点,例如,html文档中<title></title>中的文字
: : 的重要性肯定要比其他文字高,信息量大,还有字体大的文字的重要性,概括性也相对
: : 要高,不知道有没有在web内容挖掘中考虑这些的?
: : 以上只是自己一点思考,欢迎大家来讨论!
--
知我者谓我心忧 ☆★ ★☆ 不知我者谓我何求?
忧忧苍天 ★ 此何人哉![0m
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 159.226.100.205]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -