⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 871.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: singhoo (tony), 信区: DataMining
标  题: Re: 各位大虾,进来讨论一下!
发信站: 南京大学小百合站 (Tue Sep 10 13:18:33 2002), 站内信件

典型的新闻web页面超连接是很丰富的,一般下面都有
相关新闻连接(例如sina),对分类很有意义,当然还有
一些噪音连接,包含广告,投票,版权什么



【 在 sinokdd (KDD in China) 的大作中提到: 】
: 
: 【 在 chdq135 的大作中提到: 】
: : 尽管在国外已经做了不少,但是中文方面还是不够。
: : 如果作中文呢?中文发展情况怎样?
: : 就我所致,也是用字、词结合的方法(统计),结合元数据,一起来提高
: : 分类性能。
: : 请大侠点评点评!
: 
: 仅供参考
: 我觉得单纯提取基于字词的特征,和现在通用的英文的WWW文本分类区别
: 不大,我认为如果你能够根据汉语的一些特点提取出一些英文没有
: 的特征,也许会对分类有帮助,比如汉语不同的语气。我的建议是你可以
: 看看汉语语言学方面的文章,看看他们的研究结果能否被你所用。
: 
: 建立一个中文的新闻分类数据集是个好事,但我觉得新闻更像纯文本,因为
: 其中的连接并不多,这好像少了一些WWW的味道。


--
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.38.240.195]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -