📄 14.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]有没有人对web mining和$联接分析有兴趣？
发信站: 南京大学小百合站 (Fri May 31 19:22:58 2002), 站内信件

laoxier (无有子) 于Mon May 27 13:23:54 2002提到：

一起探讨一下！。
最近看了很多这方面的文章，觉得很有意思。
hits，pagerank算法已经在google等应用的很好了。
像在这个方向找点可以做的东西，不知道有没有同道？


jimo (寂寞) 于Mon May 27 14:15:07 2002提到：

呵呵
google 也用了hits？



chdq135 (阿权) 于Mon May 27 14:57:11 2002提到：

我目前正在研究超链分析以及基于超链分析的网站结构挖掘等问题
如一个项目WEBSOM，别人的，很不错。


explorer (时刻准备着) 于Mon May 27 19:35:59 2002提到：

主要是pagerank，hits也用到了。


explorer (时刻准备着) 于Mon May 27 19:38:56 2002提到：

我也很感兴趣，但是发现晚了很多，98年就提出来了，4年过去了，在这方面没有大的
进展，2001年有文章说基于连接的分析不比内容的好多少。
信心降了一半。


chdq135 (阿权) 于Mon May 27 20:13:48 2002提到：

中国历来是跟着别人走，叫“攻关”麻
但是，总不能消化它。还是南京大学的张福炎好，不追求最新
但求能够做点是在事情！
尽管不新，但是可以做很多事情，国外也还在做这方面的事情和项目。
单独的超链分析是不行的，但是可以揭示很多问题。如果结合文本分析和
用户使用情况分析，提出“web挖掘引擎”还是可行的



explorer (时刻准备着) 于Mon May 27 21:29:20 2002提到：

google是连接和文本结合的，纯粹的连接是不行。
google关键技术有pagerank，indexer，sorter，同义词汇表，crawler等。
在这方面都没法和他比，google最近又提供专家回答问题，是活生生的专家回答你。
yahoo雇了100多个职业编辑做网页分类，国内步他们后成都不可能。
感觉在用户接口界面方面还可以做点工作，很多搜索引擎的界面很简单，有提高的
空间。
～～～～～～～～～数据哪里来，自己搜集或是买。
信息检索越来越多的需要人工的干预，这个成本太大了，没有财力雇很多人的。
不知道数据挖掘怎么样。
欢迎继续探讨，explorer@mes.nju.edu.cn



chdq135 (阿权) 于Tue May 28 08:55:48 2002提到：

其实也不竟然。PageRank的超链分析是与用户的查询无关的。它是将所有的
超链每隔一段时间就更新一次，需要一天左右。
而HITS是与用户查询相关的，既是，它所有的链接都是从文字内容上可能
相关的链接，然后计算超链。实时的
其实用户的使用情况数据，可以从两个方面获取，一个是服务器端的日志，一个是用户
端的
cookie或其他什么程序之类。自己搜集不大可能，除非自己有网站，要与网站的网管练
习
中国人穷，就寄希望于技术了。但是中国的人力也很便宜，说不准中国1000个人的工资
也敢不上
Yahoo的10个人的工资了。
呵呵，该死的网络



laoxier (无有子) 于Tue May 28 12:17:09 2002提到：

呵呵，看来还是有很多人感兴趣的啊。
大家好像兴趣都在于信息获取方面
我想有没有可能利用web的连接结构进行知识发现？

现在搜索引擎艘获得是相关的信息。能不能做一个知识搜索引擎？
感觉现在数据挖掘中的智能性不强啊 。

看了一片2000年的文章利用连接来发现缩写词的含义的。
还听说有用连接来做作者和著作发现的。
呵呵，不知道还能做别的什么啊。思考中。。。。


laoxier (无有子) 于Tue May 28 12:23:12 2002提到：

去年的sigkdd关于kdd发展方向的报告上提到了连接分析的重要性。
而且很多文章都说是刚刚起步的一个研究阿。
我想web的连接是一个独特的而且是丰富的资源。不利用太可惜了
也许不一定只用在搜索引擎上吧。
对于复杂网络的结构研究也有很好的帮助。
人的智能的一个特点就是联想，是否能从互联网上获得智能呢？



boo (boo) 于Tue May 28 23:25:58 2002提到：

超链分析这么多年研究的已经很多了，今年就我看到的只有WWW11上一篇
Stanford的主题敏感PageRank。其实我看这个算法有点问题，至少不能
解决多语言问题。


boo (boo) 于Tue May 28 23:28:01 2002提到：

其实这些工作国内都可以做，只是要做好做精就不容易了。至少我们
实验室已经完成了PageRank的重写和算法改进；英文的全文indexer的也
刚完成；用Java实现了一个分布式的Web Crawler。

如果要为了创新而创新，那什么都做不了了。



boo (boo) 于Tue May 28 23:29:33 2002提到：

应该叫做bootstrap技术，不过这篇文章似乎和link analysis没多大
关系。主要是抽取


boo (boo) 于Tue May 28 23:29:56 2002提到：

确实还有好多事情可以去做的。


boy (刘芳百是) 于Wed May 29 09:09:25 2002提到：

你是那个学校的？和我们小组做的东西很相近嘛。
我最近作了一个超链语义分类的毕业论文，不知道
有没有人做这方面的东西



chdq135 (阿权) 于Wed May 29 10:17:54 2002提到：

其实早就有人研究，只不过那是的环境是超文本，在本地
而现在是基于Web。它的思想还是Memx的思想。
另外，它还借鉴了social network思想和科学引分析思想
⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -