⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 test_input.txt

📁 这是一个小的中文术语提取工具
💻 TXT
📖 第 1 页 / 共 5 页
字号:
加介次掌
硕士学位论文
论文题目垂直搜索引擎若干关键技术的研究
作者姓名王晓伟
指导教师林怀忠副教授
学科(专业)计算机应用技术
所在学院计算机科学与技术学院
提交日期二00七年五月ADissertationsubmittedtoZhejiang
    UniversityfortheDegreeof
  MasterofEngineering
    ResearchonKeyTechniquesof
  VerticalSearchEngine
Author:
SuPervisor:
Major:
 WangXiaowei
  Assoc.Prof.LinHuaizhong
ComPuterAPPlieation
College
  ZhejiangUniversity,
  ofComPuterScienee
Hangzhou, P.R.China,  310027
May,2007浙江大学硕士学位论文摘要
摘要
随着Intemet的飞速发展,W七b的信息量越来越大,通用搜索引擎将面临信
息采集、存储等方面更大的挑战。此外,由于通用搜索引擎面向所有的用户,力
争在返回结果上做到面面俱到,包罗万象的结果显然不能满足用户精确搜索的需
求。因此,面向专业领域的搜索引擎即垂直搜索引擎应运而生。
与通用搜索引擎不同,垂直搜索引擎的网络蜘蛛只采集Web中的部分信息。
通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行(Crawling)时
避开了大量主题无关的区域。由于只采集主题相关的网页,垂直搜索引擎在查询
的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测
有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的
覆盖率和效率。
本文提出了基于主题的自适应的分词技术,使用候选词典和专业词库来指导
分词和歧义消除,能有效地提高专业领域中分词的查全率和查准率。
本文还提出了基于父网页的主题相关度预测算法(CPAP)、基于链入网页的
主题相关度预测算法(CPAH)和TPR主题预测算法。C队P利用了锚文本和父
网页的主题相关度等信息进行预测;CPAH在预测主题相关度时综合考虑了链接
的数量和质量;TPR算法则将网页的主题相关性和权威性相结合,从而有效地防
止了“主题漂流”现象。
为了解决普通隧道技术随着探索半径的增大,主题无关网页呈指数级增加的
问题,本文提出了稀疏隧道技术,稀疏隧道技术使专业网络蜘蛛在整个W七b中拉
网式地探索未知网页,从而实现“疏而不漏”地挖掘新的WebC。~unity。
最后是系统的设计与实现,在上述理论分析的基础上提出了系统的设计思
想,并介绍了系统的体系结构和具体实现技术。
关键词垂直搜索引擎,中文分词,网络蜘蛛,隧道技术,主题相关度预测
2浙江大学硕士学位论文AbstraCt
AbstraCt
          TheraPidgrowthoftheInternetPosesunPreeedentedsealingehallengesfor
general一   Purposesearehengines.Inaddition,general一   PurposesearchenginesProvide
   serviceforallusers,        50theresultsfromthemaretooexhaustive.Thousandsof
        irrelativeresultsobviouslydonotmeetPreeisesearchneeds.Therefore,Vertical
         SearehEnginewhiehProvidesservieeinasinglefieldemerged.
      Ratherthaneolleetingandindexingallaeeessiblew七     bdoetunentstobeableto
   answerallPossiblequeries,         afoeusederawleranalyzesitscrawlboundarytofindthe
          linksthatarelikelytobemostrelevantforthecra、vl,    andavoidsirrelevantregionsof
thew七     b.AsonlyrelatedPagesarecrawled,     aeeuracyandeffieieneyofvertiealsearch
   engineshaveimProvedremarkably.Currently,    aeeuraeyofChineseWbrd
        SeglnentationandCorrelationPredictionarestilltobeimProved,  searehstrategyof
             FocusedCrawlerhasyettobefurtherimProvedtoenhancesearehengineeoverageand
effieieney.
   InChineseW6rdSegmentation,     thisPaperPresentsnewalgorithxnnamed
         AdaptiveChineseWbrdSegmentationbasedonThemewhiehuseCandidate
        dictionaryandProfessionaldietionarytoguideseglnentationandambiguity
           elimination.ItProvedtobeeffeetiveinraisingPrecisionoftheProfessionalword
segmentation.
   InCorrelationPredietionAlgorithm,      threemodelsarePresentedinthisPager:
     CorrelationPredictionAlgorithmBasedonFather(CPAP), CorrelationPredietion
       AlgorithmBasedonHyPerlink(CPAH)andTPRCorrelationPredictionAlgorithm.
             TheanchortextandCorrelationofFatherPagesareinvolvedintheCPAPmodel:
          CPAHmodelealeulateseorrelationbythequantityandqualityofPages:TPR
       algorithmeombinestheeorrelationandauthorityofPages,  therebyiteffectively
Prevent’ .themedrift,,Phenomenon.
 Inthew七  bSearchStrategy,        thisPaperPresentsasParsetunnelingtechnology.it
        effeetivelyaddressedtheexPoneniialinereasingProblemwithoriginaltunneling
     teehnology.SParsetunnelingteehnologyexPloretheentire节  /ebsParsely, therebyit
       greatlyimProvedtheProbabilityofdiscoveringnewwebconununities.
          FinallythedesignandtherealiZationofthesystemareintrodueed, includingthe
   systemstructureandmethod.
   KeywordsVertiealSearehEngine,Chinese认  /OrdSegmentation, FoeusedCrawler,
Tunneling, CorrelationPredietion
穷浙江大学硕士学位论文目录
目录
摘要.........................................................................................................................……i
Abstract.............................................................................……,.............................……11
第1章绪论.....................................................……,..............................................……l
1.1背景..................................……,................................……,.....................……,....……1
1.2通用搜索引擎................................................................................................……1
1.2.1搜索引擎的发展历史..…,..........……,......................................................……1
1.2.2搜索引擎的分类.....................................................................................……2
1.2.3搜索引擎组成及工作原理.....................................................................……3
 1.2.4现有的通用搜索引擎的局限性.............................................................……4
1.2.5搜索引擎的发展趋势.............................................................................……5
1.3垂直搜索引擎................................................................................................……6
1.3.1垂直搜索引擎的优势.............................................................................……6
1.3.2专业网络蜘蛛.........................................................................................……6
1.3.3研究现状.......……,...................................................................................……7
1.4本文的工作和组织........................................................................................……8
第2章相关技术的研究现状............................................................................……10
2.1中文分词技术.…,.........................................................................................……10
2.1.1基于字符串匹配的分词方法.......................……,....……,......................……10
 2.1.2基于统计的分词方法...........................................................................……12
2.1.3基于理解的分词方法...........................................................................……14
2.2主题判别的研究现状..................................................................................……14
2.2.1布尔模型..…,.......……‘.......……,................……,......................................……14
2.2.2向量空间模型.......................................................................................……巧
2.3基于链接的分析技术....................................……,.......................................……16
 2.3.1PageRank算法................……,.……,........................................................……16
 2.3.2HITS算法..............................................................................................……19
 2.3.3PageRank和HITS算法比较................................................................……20
2.4本章小节......................................................................................................……20
第3章中文分词和主题预测算法....................................................................……21
3.1基于主题的自适应的分词方法..................................................................……21
3.1.1候选词典.............……,......................................................……,........……,..…21
3.1.2Aging技术.............................................................................................……22
必浙江大学硕士学位论文目录
3.1.3基于主题的自适应分词算法...............................................................……23
3.2基于 WebCommunity的URL主题相关度预测.......................................……24
3.2.1基于父网页的主题相关度预测......................................……,,.............……25
3.2.2基于链入网页的主题相关度预测.......................................................……27
 3.2.3TPR主题相关度预测算法................................................……,.............……28
3.3本章小结......................................................................................................……33
第4章基于稀疏隧道技术的专业网络蜘蛛....................................................……35
4.1专业网络蜘蛛................................……,.....................................................·.……35
4,1.1专业网络蜘蛛的工作原理...................................................................……35
4.1.2专业网络蜘蛛存在的问题...................……,.........................................……36
4.2隧道技术..........……,..........................……,....................................................……38
4.2.1隧道技术分析...........................................................................·......·····……38
4.2.2隧道技术的优点...................................................··...···························……39
4.3稀疏隧道技术.................................................................................······..·····……39
  4.3.1webCO~unity黑名单.....................................................................·..……40
4.3.2稀疏探索...............................................................................................……41
4.3.3稀疏隧道技术的流程...........................................................................……41
4.3.4策略的比较...........................................................................··.·············……42
第5章系统设计与实现....................................................................................……45
5.1设计思想......................................................................................................……45
5.2体系结构...................................................................................................……,二45
5.2.lu砒服务器..........................................................................……,.....·····……46
5.2.2网络蜘蛛...............................................................................................……46
5.2.3主题判别器................................................................................·····...···……47
5.2.4U甩提取器...........................................................................................……48
5.2.5主题预测器...........................................................................................……49
第6章总结与展望...............................................................................·············……50
6.1总结..............................................................................................................……50
6.2展望..............................................................................................................……50
参考文献..............................................................................................................……51
致谢......................................................................................................................……54
言浙江大学硕士学位论文第l章绪论
第1章绪论
1.1背景
随着玩temet的飞速发展,Web的信息量越来越大,人们往往需要借助搜索
引擎来帮助他们寻找特定领域的资料,然而现有的搜索引擎如Google、百度等,
都不是专门为搜索特定领域资料而设计的,这些搜索引擎面向所有的用户,力争
在返回结果上做到面面俱到。因此,真正需要的资料往往淹没在大量的无用的信
息中,在这种情况之下,面向特定专业的搜索引擎,即垂直搜索引擎应运而生。
垂直搜索引擎也叫专业搜索引擎,是相对通用搜索引擎的覆盖率过低、查询不准
确、更新不及时等缺点提出来的新的搜索引擎服务模式,它通过针对某一特定领
域、某一特定人群或某一特定需求而提供有一定价值的信息和相关服务,其特点
是“专、精、深”,且具有行业色彩。
目前因特网上的可索引到的网页数量已超过110亿页【l],还有相当大的一部
分网页无法被搜索引擎索引到,即使是世界上最大的搜索引擎Google也只能索引
到整个Web的30一40%,更新这些索引的时间从几周到几个月不等。这种挑战不
是来自互联网本身,而是来自一个简单的哲学道理:我们没有办法让一台机器存
储整个互联网的信息,垂直搜索引擎是在这样的背景下提出来的一种顺应历史潮
流的解决方案。
本文在这种背景下,结合近年来比较热门的FocusedC~ling[2]的研究成果,
对垂直搜索引擎中的中文分词和精确爬行(C~ling)技术提出了新的思路和解决

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -