⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 14.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]有没有人对web mining和$联接分析有兴趣?
发信站: 南京大学小百合站 (Fri May 31 19:22:58 2002), 站内信件

laoxier (无有子) 于Mon May 27 13:23:54 2002提到:

一起探讨一下!。
最近看了很多这方面的文章,觉得很有意思。
hits,pagerank算法已经在google等应用的很好了。
像在这个方向找点可以做的东西,不知道有没有同道?


jimo (寂寞) 于Mon May 27 14:15:07 2002提到:

呵呵
google 也用了hits?



chdq135 (阿权) 于Mon May 27 14:57:11 2002提到:

我目前正在研究超链分析以及基于超链分析的网站结构挖掘等问题
如一个项目WEBSOM,别人的,很不错。


explorer (时刻准备着) 于Mon May 27 19:35:59 2002提到:

主要是pagerank,hits也用到了。


explorer (时刻准备着) 于Mon May 27 19:38:56 2002提到:

我也很感兴趣,但是发现晚了很多,98年就提出来了,4年过去了,在这方面没有大的
进展,2001年有文章说基于连接的分析不比内容的好多少。
信心降了一半。


chdq135 (阿权) 于Mon May 27 20:13:48 2002提到:

中国历来是跟着别人走,叫“攻关”麻
但是,总不能消化它。还是南京大学的张福炎好,不追求最新
但求能够做点是在事情!
尽管不新,但是可以做很多事情,国外也还在做这方面的事情和项目。
单独的超链分析是不行的,但是可以揭示很多问题。如果结合文本分析和
用户使用情况分析,提出“web挖掘引擎”还是可行的



explorer (时刻准备着) 于Mon May 27 21:29:20 2002提到:

google是连接和文本结合的,纯粹的连接是不行。
google关键技术有pagerank,indexer,sorter,同义词汇表,crawler等。
在这方面都没法和他比,google最近又提供专家回答问题,是活生生的专家回答你。
yahoo雇了100多个职业编辑做网页分类,国内步他们后成都不可能。
感觉在用户接口界面方面还可以做点工作,很多搜索引擎的界面很简单,有提高的
空间。
~~~~~~~~~数据哪里来,自己搜集或是买。
信息检索越来越多的需要人工的干预,这个成本太大了,没有财力雇很多人的。
不知道数据挖掘怎么样。
欢迎继续探讨,explorer@mes.nju.edu.cn



chdq135 (阿权) 于Tue May 28 08:55:48 2002提到:

其实也不竟然。PageRank的超链分析是与用户的查询无关的。它是将所有的
超链每隔一段时间就更新一次,需要一天左右。
而HITS是与用户查询相关的,既是,它所有的链接都是从文字内容上可能
相关的链接,然后计算超链。实时的
其实用户的使用情况数据,可以从两个方面获取,一个是服务器端的日志,一个是用户
端的
cookie或其他什么程序之类。自己搜集不大可能,除非自己有网站,要与网站的网管练
中国人穷,就寄希望于技术了。但是中国的人力也很便宜,说不准中国1000个人的工资
也敢不上
Yahoo的10个人的工资了。
呵呵,该死的网络



laoxier (无有子) 于Tue May 28 12:17:09 2002提到:

呵呵,看来还是有很多人感兴趣的啊。
大家好像兴趣都在于信息获取方面
我想有没有可能利用web的连接结构进行知识发现?

现在搜索引擎艘获得是相关的信息。能不能做一个知识搜索引擎?
感觉现在数据挖掘中的智能性不强啊 。

看了一片2000年的文章利用连接来发现缩写词的含义的。
还听说有用连接来做作者和著作发现的。
呵呵,不知道还能做别的什么啊。思考中。。。。


laoxier (无有子) 于Tue May 28 12:23:12 2002提到:

去年的sigkdd关于kdd发展方向的报告上提到了连接分析的重要性。
而且很多文章都说是刚刚起步的一个研究阿。
我想web的连接是一个独特的而且是丰富的资源。不利用太可惜了
也许不一定只用在搜索引擎上吧。
对于复杂网络的结构研究也有很好的帮助。
人的智能的一个特点就是联想,是否能从互联网上获得智能呢?



boo (boo) 于Tue May 28 23:25:58 2002提到:

超链分析这么多年研究的已经很多了,今年就我看到的只有WWW11上一篇
Stanford的主题敏感PageRank。其实我看这个算法有点问题,至少不能
解决多语言问题。


boo (boo) 于Tue May 28 23:28:01 2002提到:

其实这些工作国内都可以做,只是要做好做精就不容易了。至少我们
实验室已经完成了PageRank的重写和算法改进;英文的全文indexer的也
刚完成;用Java实现了一个分布式的Web Crawler。

如果要为了创新而创新,那什么都做不了了。



boo (boo) 于Tue May 28 23:29:33 2002提到:

应该叫做bootstrap技术,不过这篇文章似乎和link analysis没多大
关系。主要是抽取


boo (boo) 于Tue May 28 23:29:56 2002提到:

确实还有好多事情可以去做的。


boy (刘芳百是) 于Wed May 29 09:09:25 2002提到:

你是那个学校的?和我们小组做的东西很相近嘛。
我最近作了一个超链语义分类的毕业论文,不知道
有没有人做这方面的东西



chdq135 (阿权) 于Wed May 29 10:17:54 2002提到:

其实早就有人研究,只不过那是的环境是超文本,在本地
而现在是基于Web。它的思想还是Memx的思想。
另外,它还借鉴了social network思想和科学引分析思想



⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -