📄 22.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]各位大虾,进来讨论一下!
发信站: 南京大学小百合站 (Wed Sep 11 12:46:51 2002), 站内信件
singhoo (tony) 于Mon Sep 9 23:53:01 2002提到:
我准备做web文本分类方面的研究(硕士),看了2个月论文,本来打算做个
原形系统,实现别人的算法,但是偶实验室一老师从美国回来,说别人都有
现成的系统,这样做没有意义!要做一些算法改进和创新
搞的我现在很慌张,只好重做打算
1:根据目前我的理解,做www文本分类,在机器学习(分类)算法上很难有突破
无论是naive bayes,KNN还是SVM都比较成熟,我目前也没有能力去做这个
算法的改进,所以想在特征提取算法/层次分类/使用超连接上做点研究,
2:另外,我打算建立自己的数据集(中文新闻web),目前国内好像没有公开的
web训练集,这样应该有点意义吧,不过国外的论文一般都使用几个常用的数据
集,我这样的数据集能被承认吗?
3:做算法研究,而且时间有限,我不想花时间编程实现分类器(NB,KNN,SVM等)
有源代码可用吗?我研究了rainbow系统,但是它集成了文档统计模型,特征
提取,而且不能处理中文,很难用.大家做算法研究有什么经验和好的方式?
在对文档建模(编程实现)后,得到词,词频,文档频等数据后,可以matlab仿真吗?
希望大家讨论一下,给点建设性意见!THX
sinokdd (KDD in China) 于Tue Sep 10 07:30:25 2002)
提到:
【 在 singhoo 的大作中提到: 】
: 我准备做web文本分类方面的研究(硕士),看了2个月论文,本来打算做个
: 原形系统,实现别人的算法,但是偶实验室一老师从美国回来,说别人都有
: 现成的系统,这样做没有意义!要做一些算法改进和创新
I think two months' reading is not a short period, you should know
that some people have implemented such systems.
: 搞的我现在很慌张,只好重做打算
: 1:根据目前我的理解,做www文本分类,在机器学习(分类)算法上很难有突破
: 无论是naive bayes,KNN还是SVM都比较成熟,我目前也没有能力去做这个
: 算法的改进,所以想在特征提取算法/层次分类/使用超连接上做点研究,
As I know, one people in CMU has done this, he uses bag of word to
represent the web page, but give weight for each word, for example,
word in title head, hyperlink has more weight.
: 2:另外,我打算建立自己的数据集(中文新闻web),目前国内好像没有公开的
: web训练集,这样应该有点意义吧,不过国外的论文一般都使用几个常用的数据
: 集,我这样的数据集能被承认吗?
It is a good idea. If you can make it publicable, and people may be
interested in it. And I think if you can take advantage of some
special characteristics of Chinese to improve the precision, that
may be interesting.
: 3:做算法研究,而且时间有限,我不想花时间编程实现分类器(NB,KNN,SVM等)
: 有源代码可用吗?
You can download most of such systems from Internet, try
www.kdnuggets.com or search google.
chdq135 (阿权) 于Tue Sep 10 08:44:47 2002提到:
尽管在国外已经做了不少,但是中文方面还是不够。
如果作中文呢?中文发展情况怎样?
就我所致,也是用字、词结合的方法(统计),结合元数据,一起来提高
分类性能。
请大侠点评点评!
【 在 sinokdd (KDD in China) 的大作中提到: 】
:
: 【 在 singhoo 的大作中提到: 】
: I think two months' reading is not a short period, you should know
: that some people have implemented such systems.
:
:
: As I know, one people in CMU has done this, he uses bag of word to
: represent the web page, but give weight for each word, for example,
: word in title head, hyperlink has more weight.
:
: (以下引言省略 ... ...)
sinokdd (KDD in China) 于Tue Sep 10 12:48:31 2002)
提到:
【 在 chdq135 的大作中提到: 】
: 尽管在国外已经做了不少,但是中文方面还是不够。
: 如果作中文呢?中文发展情况怎样?
: 就我所致,也是用字、词结合的方法(统计),结合元数据,一起来提高
: 分类性能。
: 请大侠点评点评!
仅供参考
我觉得单纯提取基于字词的特征,和现在通用的英文的WWW文本分类区别
不大,我认为如果你能够根据汉语的一些特点提取出一些英文没有
的特征,也许会对分类有帮助,比如汉语不同的语气。我的建议是你可以
看看汉语语言学方面的文章,看看他们的研究结果能否被你所用。
建立一个中文的新闻分类数据集是个好事,但我觉得新闻更像纯文本,因为
其中的连接并不多,这好像少了一些WWW的味道。
singhoo (tony) 于Tue Sep 10 13:18:33 2002提到:
典型的新闻web页面超连接是很丰富的,一般下面都有
相关新闻连接(例如sina),对分类很有意义,当然还有
一些噪音连接,包含广告,投票,版权什么
【 在 sinokdd (KDD in China) 的大作中提到: 】
:
: 【 在 chdq135 的大作中提到: 】
:
: 仅供参考
: 我觉得单纯提取基于字词的特征,和现在通用的英文的WWW文本分类区别
: 不大,我认为如果你能够根据汉语的一些特点提取出一些英文没有
: 的特征,也许会对分类有帮助,比如汉语不同的语气。我的建议是你可以
: 看看汉语语言学方面的文章,看看他们的研究结果能否被你所用。
:
: 建立一个中文的新闻分类数据集是个好事,但我觉得新闻更像纯文本,因为
: 其中的连接并不多,这好像少了一些WWW的味道。
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -