📄 871.txt
字号:
发信人: singhoo (tony), 信区: DataMining
标 题: Re: 各位大虾,进来讨论一下!
发信站: 南京大学小百合站 (Tue Sep 10 13:18:33 2002), 站内信件
典型的新闻web页面超连接是很丰富的,一般下面都有
相关新闻连接(例如sina),对分类很有意义,当然还有
一些噪音连接,包含广告,投票,版权什么
【 在 sinokdd (KDD in China) 的大作中提到: 】
:
: 【 在 chdq135 的大作中提到: 】
: : 尽管在国外已经做了不少,但是中文方面还是不够。
: : 如果作中文呢?中文发展情况怎样?
: : 就我所致,也是用字、词结合的方法(统计),结合元数据,一起来提高
: : 分类性能。
: : 请大侠点评点评!
:
: 仅供参考
: 我觉得单纯提取基于字词的特征,和现在通用的英文的WWW文本分类区别
: 不大,我认为如果你能够根据汉语的一些特点提取出一些英文没有
: 的特征,也许会对分类有帮助,比如汉语不同的语气。我的建议是你可以
: 看看汉语语言学方面的文章,看看他们的研究结果能否被你所用。
:
: 建立一个中文的新闻分类数据集是个好事,但我觉得新闻更像纯文本,因为
: 其中的连接并不多,这好像少了一些WWW的味道。
--
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.38.240.195]
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -