2.txt

来自「This complete matlab for neural network」· 文本代码 · 共 48 行

TXT

48 行

发信人: yaomc (白头翁&山东大汉), 信区: DataMining
标  题: [合集]搜索引擎的原理是怎么样的啊?
发信站: 南京大学小百合站 (Thu Nov 29 10:04:03 2001), 站内信件

feckless (小白合) 于Mon Sep 17 17:27:02 2001提到：

如何将网页和ftp的内容找出来放到数据库中啊?


ashun (阿顺) 于Mon Sep 17 20:39:21 2001)
提到：

  大致的原理是由其核心，即Robot，在网上进行漫游并收集它所能得到的信息，（所以有
时也被称为“spider”或“wanderer”）。Robot沿着www文件间的链接在网上漫游，通过
分析web页面中所包含的超链接，下载一个又一个web文档，从而自动遍历整个www的超链接
结构，记录URL、文件的概要、关键字或索引等。其漫游的结果是形成一个很大的本地数据
库。目前比较成熟的搜索引擎有InfoSeek的UltraSeek，AltaVista的Scooter，Excite的A
rchiText等。

  一般①采用多线程技术，每个线程分别与一个服务器通信，以提高效率；②对访问加以
控制，通过评价页面与所要挖掘信息的相关程度来决定是否采集该页面。



ccipt (北方的狼) 于Tue Sep 18 11:45:57 2001)
提到：

张卫丰，徐宝文。Web搜索引擎框架研究。计算机研究与发展，Mar 2000，37(3),pp.376-
378


Arvind Arasu, Junghoo Cho, Hector Garcia-Molina, Andreas Paepcke and Sriram Ra
ghavan. Searching the Web. To appear in the inaugural issue of the ACM Transac
tions on Internet Technologies (TOIT), June 2001.




roamingo (漫步鸥) 于Tue Sep 18 16:35:04 2001提到：

google应该代表了目前分布式全文搜索引擎的最高技术(4位数的Linux节点, 
1.3 billion pages, 特别是PageRank技术, 使得结果排序非常精确). 
介绍它的基本结构的文章:

Sergey Brin, Lawrence Page. The anatomy of a large-scale hypertextual
Web search engine. In Proc. WWW7, pp. 107-117, Brisbane, Australia, 1998.

http://www-db.stanford.edu/~sergey/

2.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 2.txt 源码文件，采用文本编程语言编写，共 48 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?