📄 2.txt
字号:
发信人: yaomc (白头翁&山东大汉), 信区: DataMining
标 题: [合集]搜索引擎的原理是怎么样的啊?
发信站: 南京大学小百合站 (Thu Nov 29 10:04:03 2001), 站内信件
feckless (小白合) 于Mon Sep 17 17:27:02 2001提到:
如何将网页和ftp的内容找出来放到数据库中啊?
ashun (阿顺) 于Mon Sep 17 20:39:21 2001)
提到:
大致的原理是由其核心,即Robot,在网上进行漫游并收集它所能得到的信息,(所以有
时也被称为“spider”或“wanderer”)。Robot沿着www文件间的链接在网上漫游,通过
分析web页面中所包含的超链接,下载一个又一个web文档,从而自动遍历整个www的超链接
结构,记录URL、文件的概要、关键字或索引等。其漫游的结果是形成一个很大的本地数据
库。目前比较成熟的搜索引擎有InfoSeek的UltraSeek,AltaVista的Scooter,Excite的A
rchiText等。
一般①采用多线程技术,每个线程分别与一个服务器通信,以提高效率;②对访问加以
控制,通过评价页面与所要挖掘信息的相关程度来决定是否采集该页面。
ccipt (北方的狼) 于Tue Sep 18 11:45:57 2001)
提到:
张卫丰,徐宝文。Web搜索引擎框架研究。计算机研究与发展,Mar 2000,37(3),pp.376-
378
Arvind Arasu, Junghoo Cho, Hector Garcia-Molina, Andreas Paepcke and Sriram Ra
ghavan. Searching the Web. To appear in the inaugural issue of the ACM Transac
tions on Internet Technologies (TOIT), June 2001.
roamingo (漫步鸥) 于Tue Sep 18 16:35:04 2001提到:
google应该代表了目前分布式全文搜索引擎的最高技术(4位数的Linux节点,
1.3 billion pages, 特别是PageRank技术, 使得结果排序非常精确).
介绍它的基本结构的文章:
Sergey Brin, Lawrence Page. The anatomy of a large-scale hypertextual
Web search engine. In Proc. WWW7, pp. 107-117, Brisbane, Australia, 1998.
http://www-db.stanford.edu/~sergey/
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -