📄 test_input.txt

📁 这是一个小的中文术语提取工具
💻 TXT
📖 第 1 页 / 共 5 页
字号:
方法，结合这种新思路所实现的垂直搜索引擎较普通的垂直搜索引擎在精度和效
率上都有较大的改进。
1.2通用搜索引擎
1.2.1搜索引擎的发展历史
在互联网发展初期，网站相对较少，信息查找比较容易。然而伴随互联网爆
炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大
众信息检索需求的专业搜索网站便应运而生了。
现代意义上的搜索引擎的祖先，是1990年由蒙特利尔大学学生 AlanEmtage
发明的Archie。虽然当时  WbrldWideWeb还未出现，但网络中文件传输还是相当
频繁的，而且由于大量的文件散布在各个分散的FTP主机中，查询起来非常不便，
因此 AlanEmtage想到了开发一个可以以文件名查找文件的系统，于是便有了
Arehie。浙江大学硕士学位论文第l章绪论
户Jchie工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网
上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。由于Archie
深受用户欢迎，受其启发，美国内华达  SystemComputingservices大学于 1993年
开发了另一个与之非常相似的搜索工具，不过此时的搜索工具除了索引文件外，
己能检索网页。
最早现代意义上的搜索引擎出现于1994年7月。当时 MichaelMauldin将John
Leavitt的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的Lycos。同年4
月，斯坦福(stanford)大学的两名博士生， DavidFifo和美籍华人杨致远(Gerry
、乞ng)共同创办了超级目录索引丫乞hoo，并成功地使搜索引擎的概念深入人心。
从此搜索引擎进入了高速发展时期。
1.2.2搜索引擎的分类
搜索引擎按其工作方式主要可分为三种，分别是目录式搜索引擎、基于网络
蜘蛛全文搜索引擎和元搜索引擎。
l)目录式搜索引擎目录式搜索引擎的典型代表是、乞hoo，它们主要依靠人
工维护网站索引。基于目录的搜索引擎通过人工浏览各站点的信息，按照一定的
分类规则或分类体系，对网站进行分类。一般来说，它们具有结构清晰、错误较
少，比较符合人们的阅读习惯的优点，而缺点是工作人员多、整理周期长，速度
慢、人工干预成分多，不能适应M触b资源的规模发展，另外如果查找的信息没有
对应的分类项，则无法进行搜索。
2)基于网络蜘蛛的全文搜索引擎网络蜘蛛是指可以在W七b上漫游并按照
一定规则自动从Web下载网页的计算机程序，对应的同义词有机器人(Robot)、爬
行器(C~ler)，漫游者邝厄nderer)等。本论文统一采用“网络蜘蛛”来代表该类计算
机程序。基于网络蜘蛛的搜索引擎的全部工作基本上由程序自动完成，人工参与
成分很少。它通过网络蜘蛛在网上自动爬行，将搜索到的网页自动地加入到本地
索引数据库中，用户可以很快从索引数据库查到更新后的信息。它的优势在于自
动化程度高、维护费用低，更强调技术上的创新和提高，也更适合于开展研究工
作，因而成为当前研究的热点。常用的基于网络蜘蛛的搜索引擎有AltaVista，
Infoseek，Google等。
3)元搜索引擎元搜索引擎是一种通过调用其它独立搜索引擎而完成搜索
服务的搜索引擎，是用户同时使用多个独立搜索引擎进行网络搜索的中介。用户
只需递交一次检索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独
立搜索引擎，并将所有查询结果集中起来以整体统一的格式呈现到用户面前。元
搜索引擎通过综合利用多个搜索引擎的搜索服务，可以在一定程度上弥补单个搜
索引擎的不足，但是元搜索引擎的出现，并不能使搜索引擎技术得到气的飞跃，浙江大学硕士学位论文第】章绪论
它们仅仅只是提供了搜索结果的重新组织。典型的元搜索引擎有MetaCrawler，
Byteseareh等。
1.2.3搜索引擎组成及工作原理
目前流行的搜索引擎关注广大用户的搜索需求，不对人群需求进行划分，因
而也被称之为通用搜索引擎，下面介绍通用搜索引擎的组成和一般性原理。
搜索引擎系统一般由网络蜘蛛、分词器、索引器、查询器几部分组成[21，28]。
网络蜘蛛负责网页信息的抓取工作，一般情况下分词器和索引器一起使用，它们
负责将抓取的网页内容进行分词处理并自动进行标引，建立索引数据库。查询器
根据用户查询条件检索索引数据库并对检索结果进行排序和集合运算，如并集、
交集运算，再提取网页简单摘要信息反馈给查询用户。
以Google为例，搜索引擎从功能上可分为三大部分:web页搜索、标引入
库和用户查询。
l)从/eb页搜索W七b页搜索部分主要负责网页的抓取，由URL服务器、网
络蜘蛛、存储器、分析器和URL解析器组成，网络蜘蛛是该部分的核心。
2)标引入库标引入库主要负责对网页内容进行分析，对文档进行索引并
存储到数据库里，由标引器和分类器组成。
3)用户查询用户查询主要负责分析用户输入的检索表达式，匹配相关文
档，把检索结果返回给用户，由查询器和PageR田Ik值评定器组成，其中网页等
级的计算是该部分的核心。
Google搜索引擎的体系结构如图1一1所示:山江人学硕士学位论文第l章绪论
忿忿布霄                                      霄霄霄霄霄霄                                .................锚库 索索索引库库库‘‘                                ‘‘‘‘‘‘
傲傲~牢挤              )))))))))))))))))))))))))))))))))))骊            骊骊骊藕藕.痛 痛藕      藕.扩 扩          扩
巨巨二三了{二二又二:兰二二三了二二                    
图1一1通用搜索引擎体系结构
搜索引擎的主要工作流程是:首先从网络蜘蛛开始，按深度优先或广度优先
算法，抓取URL服务器上所指定的网页，将抓取的网页存入文档数据库。一般
在存入文档数据库之前进行一定的压缩处理，并将当前页上的所含超链接存入到
URL服务器中。
在进行抓取的同时，分词器和索引器将已经抓取的网页文档进行分词处理，
并按词在网页中出现的位置和频率计算权值，然后将分词结果存入索引数据库。
用户提交查询时，查询器首先对用户输入的信息进行分词处理，并检索出所
有包含检索词的记录，通过计算网页权重和级别对查询结果进行排序，最后从文
档数据库中提取各网页的摘要信息反馈给查询用户。
1.2.4现有的通用搜索引擎的局限性
通用搜索引擎的出现很大程度上解决了人们在互联网上查找信息的困难，但
在使用中也面临着如下问题:
l)覆盖率低基于研触b的自身特点，大量的数据分布在数以亿计页面的互
联网上，检索起来困难重重。单个搜索引擎的覆盖率一般都低于30%，很难索引
所有的W七b资源。
2)时效性差互联网信息呈指数增长，大量信息的存活期却在缩短，这导
致搜索引擎的时效性很难保证，返回结果中存在大量无效或过时的链接。浙江大学硕士学位论文第1章绪论
3)易导致迷航经典的信息检索界认为用户很难简单地用关键字来忠实表
达他所真正需要检索的内容，甚至根本就不知道要找什么东西，即所谓“迷航”。
表达的困难将导致检索结果的不理想，而且如何将结果表达成用户容易理解和使
用的方式也是一个难题。
4)结果不准确一次搜索的结果可能有成千上万条，而在这过于庞大的信
息中，有用信息只是其中的小部分，可谓“冰山一角”，并且常常发生收到和下载
的信息难以消化的情况，即所谓的“认知过载”。
5)过于死板现有的搜索引擎多采用关键词的机械式匹配。没有对用户的
输入进行语义理解，这种方式的固有缺点是参与匹配的只有字符的外在表现形
式，而非它们所表达的概念。因此，经常出现答非所问、检索不全的结果。
1.2.5搜索引擎的发展趋势
正在发展的第三代搜索引擎以智能化、个性化和专业化为目标，力争为用户
提供更快更准的查询结果。下面介绍第三代搜索引擎技术的研究热点。
l)多媒体搜索引擎随着宽带技术的发展，未来的互联网是多媒体数据的
时代。音频、视频和图像将取代文本成为互联网上主要的信息载体。开发基于内
容检索的多媒体搜索引擎是一个新的发展方向。
2)个性化搜索引擎个性化搜索能够满足用户的个体信息需求，通过长期
观察用户的搜索行为，从中识别用户的信息需求偏好，并且能够根据用户对搜索
结果的评价，自觉调整搜索策略，使得对于同一检索请求，不同用户能够得到最
贴近自己需要的信息。个性化搜索引擎的核心是根据用户信息以及通过跟踪分析
用户的搜索行为来提高搜索引擎查准率。
3)智能化搜索引擎传统的搜索引擎对要检索的信息采用机械式匹配来
实现，缺乏知识处理能力和理解能力，智能化搜索引擎把信息检索从目前基于关
键词的层面提高到基于知识(或概念)的层面。智能搜索引擎对知识有一定的理
解与处理能力，能够实现智能分词技术、同义词技术、概念搜索、短语识别以及
机器翻译技术等。它允许用户采用自然语言进行信息检索，为他们提供更方便、
更确切的搜索服务。
4)垂直搜索引擎目前，大多数搜索引擎在满足搜索全面性要求的同时难
以兼顾专业性的需求。垂直搜索引擎面向特定领域，专注于自己的特长，保证了
对该领域信息的完全收录与及时更新。与通用搜索引擎不同，垂直搜索的目标是
尽可能多的搜集与该主题相关的网页。专业网络蜘蛛抓取到的网页如果与预定义
主题相关，就做进一步的处理;如果不相关，则抛弃该网页。这样处理的结果是，
系统最终只索引了W七b上所有网页的一部分，也就是与预定义主题相关的网页。
这样处理的好处是可以节省大量的存储空间和具有较高的更新频率。在较短的时浙江大学硕士学位论文第l章绪论
间内就可以把主题领域内的网页全部更新一遍，这样能够跟上W七b上网页变化。
而且对用户而言，如果她对该主题感兴趣，那么系统在该领域的信息是最详尽的。
垂直搜索引擎也是本文的研究重点。
1.3垂直搜索引擎
垂直搜索引擎，即专业或主题搜索引擎，就是专为查询某一领域或主题的信
息而产生的查询工具，它专门收录某一主题的信息，对解决该领域内的实际查询
问题要比通用搜索引擎有效得多。如果用户想获得某一专业的信息，就可使用垂
直搜索引擎。
1.3.1垂直搜索引擎的优势
通用搜索引擎的弊端在网络信息的急剧膨胀下突显起来，搜索越来越难以控
制，用户需求和市场服务间的巨大反差产生了强大的“搜索噪音，，人们呼唤更有
针对性的搜索引擎，垂直搜索引擎应运而生。
垂直搜索引擎的网络蜘蛛只抓取特定主题的信息，按预先己经定义好的专题
有选择地收集网页。由于所收集的李科领域小，信息量相对较少，更新及时，因
而有效地解决了通用搜索引擎的弊端。
由于垂直搜索引擎只涉及一个或几个领域，词汇和用语“一词(一语)多意”的
可能性降低，而且可以利用专业词表进行规范和控制，大大提高查全率和查准率。
这种高度目标化、专业化的搜索引擎的优势在于针对性强，对特定范围的网
络信息的覆盖率相对较高，有明确的检索目标定位，有效地弥补了综合性搜索引
擎对专门领域及特定主题信息覆盖率过低的问题。
1.3.2专业网络蜘蛛
页面抓取是搜索引擎工作流程中的第一步，通常是由网络蜘蛛完成的。当前
的网络蜘蛛主要有两点不足:
”web页面覆盖率不够高
2)web页面更新不及时
专业网络蜘蛛(FocusedC~ler)是垂直搜索引擎的重要组成部分，它在搜
索Intemet时会对URL进行主题识别，判断是否符合特定领域的网站，从而大大
缩小抓取范围。
通用网络蜘蛛的目标是要发现和下载尽可能多的网页，以使搜索引擎能回答
更多的用户查询，因此在网络蜘蛛技术上采用了宽度优先或深度优优先的搜索策
略，使网络蜘蛛有更广的覆盖面。
然而，专业网络的目标是在尽可能少地遍历从七b的前提下，却尽可能多地发浙江大学硕士学位论文第l章绪论
现与主题相关的网页。因而，专业网络蜘蛛往往采用‘，  BestFirst”策略，即更高主
题相关度的网页优先下载。为了实现“ BestFirst”策略，需要将待下载的URL根据
主题相关度进行排序，因此，需要预测待下载URL的主题相关度，即在不下载
网页的前提下，通过己知的信息来预测URL所指向的网页与主题的相关度，本
文第三章提出的主题相关度预测算法具有较高的准确率。
1.3.3研究现状
目前在国内外，有关新一代搜索引擎的研究正在成为一个热点，下面介绍一
下具有代表性的系统。
 1)SciruS是面向科技文献的一个垂直搜索引擎，它的信息源主要包括网页
和期刊两部分。它首先对网络中所搜索到的结果进行过滤，然后只列出包含有科
学信息的成分，方便了科研人员的使用。
2)Berkeley的FoeuS。 dProjeCt系统通过两个程序来指导爬行器，一个是
分类器，用来计算下载文档与预定主题的相关度，另一个程序是净化器，用来确
定那些指向很多相关资源的页面。
3)基于概念搜索的 AskJeeveS搜索引擎，它将用户提问转化为系统已知的
问题，在对提问进行结构和内容分析之后，或直接给出问题的答案，或引导用户
⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -