📄 test_input.txt
字号:
tx,:(y)=尸(z/y)一尸(y/x)
占’(尸(:/夕))+占’(尸(夕zx))
(2.3)
式中:尸伽火少—y关于x的条件概率;
尸助夕—z关于y的条件概率;
占,(尸(z/y))—z关于y方差;
占2(p。/x))—y关于x方差。浙江大学硕士学位论文第2章相关技术的研究现状
从t测试的定义,可知:
(1)t测试>0时,字y有与后继字符z相连的趋势,
(2)t测试=O时,不反映任何趋势;
(3)t测试<o时,字y有与前趋字符x相连的趋势,
值越大,相连趋势越强:
值越小,相连趋势越强。
2.1.3基于理解的分词方法
基于理解的分词方法是通过计算机模拟人对句子的理解,达到识别词的效
果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信
息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控
部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义
信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需
要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种
语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试
验阶段。
2.2主题判别的研究现状
垂直搜索引擎与通用搜索引擎最大的区别在于垂直搜索引擎是面向某个领
域的,因而垂直搜索引擎的网络蜘蛛只采集与主题相关的网页,与主题无关的网
页将被丢弃,我们将此类网络蜘蛛称为专业网络蜘蛛 (FocusedCrawler)。
专业网络蜘蛛将网页下载到本地后,需要使用基于内容的主题判别方法计算
该网页的主题相关度值,主题相关度低于某一阀值的网页被丢弃。主题相关度的
计算方法有布尔模型和空间向量模型。
2.2.1布尔模型
在主题判别时,布尔模型是最容易实现的。在布尔模型中,一个文档通过一
个关键词集合来表示。同时,某个主题也以关键词集合的形式来表示。在判断文
档与某主题的相关度的过程中,相当于是计算两个关键词集合的交集。对基于布
尔模型的主题判别模型来说,交集中含有的元素越多,则认为与主题的相关度就
越高。可以用文档D与主题关键词集合T之间交集元素的个数占集合T的比例来
代表文档D的主题相关度sim(D),公式表示如下:
Sim(D)=!}DnT}}
}}T!}
(2.4)
布尔模型的主要缺陷在于每个关键的权重都是一样的,它不支持设定关键词浙江大学硕士学位论文第2章相关技术的研究现状
的相对重要性,但是其优点也较为明显,它易于实现,计算代价较小。
2.2.2向量空间模型
该模型由salton等人在 1968年提出【13],该模型中的主题主关键词和文档关
键词均通过向量来表示。文档向量是一个n元组,其中,每一个坐标值代表了相
应关键词的权重。权重越大,对应的关键词对于该文档就越重要。主题关键词向
量和文档向量类似,主题关键词向量中的权重表示对应关键词相对于该主题而言
的重要性。
对于关键词权重的设定,通常是基于词在文档中的出现频率,目前有许多计
算关键词权重的方法,Salton等在文献中给出了如下的计算公式【13]:
对于关键词t,其在文档i中的权重定义为:
环勺ight(r,介19(N/n,)
t口
艺(办,)’(19(N/n*))’
(2.5)
其中,弄为关键词t在文档i中出现的频率,N为信息库中文档的数目;n,为
整个文档信息库中包含词条t的文档的个数;ti为文档i中所有关键词的个数。
从公式 (2.5)可以得到,一个关键词在文档中出现的次数越多,其权重就越大;
一个关键词在整个信息库中出现的频率越少,其在出现的文档中的权重也越大。
经过公式(2.5)处理,一个文本可以表示为:D二D(t:,wl;tz,wZ;.…tn,琳)的形式,
即关键词众的权重为wk。
在向量空间模型中,为了简化分析,减小计算量,通常忽略关键词在文本中
出现的先后次序,从而一个文本可以表示成经过关键词权重处理后的向量空间中
的一个向量。在获得了文档向量和主题向量后,就可以计算出文档向量与主题向
量之间的相似度,即主题相关度,主题相关度是通过向量间的内积计算得出:
”
S‘m(D)一艺从*几
k=l
(2.6)
或者用向量夹角余弦表示:
Sim(D)=cono=
艺D‘*Ti
矛=l
、人艺娜)(i、’
(2.7)
矛=l,二l沥江大学硕士学位论文第2章相关技术的研究现状
其中,T为主题向量。
向量空间模型可以很好地运用到主题判别中,向量空间模型使得对关键词中
的权重赋值成为可能,从而弥补了布尔逻辑模型将所有关键词视为相同权重的缺
陷。
2.3基于链接的分析技术
2.3.1PageRank算法
PageRank超链接分析算法由斯坦福大学博士研究生 sergeyBrin和La~nce
Page提出并实现【91,是Google搜索引擎的核心技术之一,主要用于对搜索结果
的排序上,PageRank值越高的网页将越靠前显示。Google最初只是一个搜索引
擎的原型系统,如今已经发展成为世界上市场占有率最高的搜索引擎之一。根据
Google创始人 Lawrencepage和 sergeyBrin在他们作为斯坦福大学研究生时的文
章,可以了解到PageRank的基本原理。
.PageRank的基本原理
PageRank算法主要基于以下假设:一个网页被其它网页链接的次数越多,则
它可能是越重要的;一个网页虽然没有被多次引用,但是被重要的网页链接,则
它也可能是很重要的;一个网页的重要性平均地传递到它所链接的网页。
根据这个思想,可以得出页面A的PageRank值PR(A)的计算公式为:
PR(A)一上亘2+J宁丝玉二2N廿C(不) (2.8)
式中:PR(A)—页面A的PageRal正值;
PR口刁—页面Ti的PageRank值,页面Ti链向页面A;
C了卿—页面Ti链出的链接数量;
d—阻尼系数,d=o~1,实际应用时设0.85;
N—互联网上所有网页的数量。
LawrencePage和 SergeyBrin提出了用户浏览Web行为的随机冲浪模型,
来解释上述公式。他们把用户点击链接的行为,视为一种不关心内容的随机行为。
而用户点击页面内的链接的概率,完全由页面上链接数量的多少决定的,这也是
公式 (2.8)中 PR(Ti)/C(Ti)的原因。一个页面通过随机冲浪到达的概率就是链入它的
别的页面上的链接的被点击概率的和。阻尼系数d的引入,是因为用户不可能无
限的点击链接,常常因劳累而随机跳入另一个页面。d可以视为用户无限点击下
去的概率,(l一d)加则就是页面本身所具有的PageRank值。PageRank值代表浙江大学硕士学位论文第2章相关技术的研究现状
了该页面被点击的概率,所有页面的PageRank值之和为1。
.PageRank的计算方法
下面举例介绍PageRank的计算方法。为简单起见,我们假设Web中有三张
网页,分别是网页A、B、C,它们之间的链接关系如图2一2所示,根据公式 (2.8)
可得出如图2一3的方程组(设d=0.85):
图2一ZW七b拓扑结构图
PR(A)=(l, 0.85)/3+0.85PR(C)
PR(B)=(l一 0.85)/3+0.85(PR(A)/2)
PR(C)=(l一 0.85)/3+0.85(PR(A)/2+PR(B))
Rank方程组
解三元一次方程组得:
PR(A)=0.3877897117
PR(B)=0.2148106275
PR(C)=0.3973996608
有 :pR(A)+pR(B)+pR(C)=l。
在网页数量比较少的情况下,PageRank方程组可以解出,而面对互联网上成
亿的网页,再解方程是不太现实的。在实际运用中,Googl。采用一种近似的迭代
的方法计算网页的PageRallk值的,也就是先给每个网页一个初始值,然后利用
公式 (2.8),循环进行有限次迭代计算得到近似的PageRank值。
在迭代的过程中,每个网页的PageRank值的和是收敛于1。所以每个页面的
平均PageRank值是l入,N为网页总数,因而令PageRank的初值为1加。
表2一1展示了PageRank迭代计算过程,可以从表中看出当迭代计算到45次
以后,PageRallk值已经收敛了。浙江大学硕士学位论文第2章相关技术的研究现状
表2一 1PageRank的迭代计算过程
迭代次数
0
PR(A)
0.3333333333
0.3333333333
0.4537500000
0.3513958333
0.3948963542
0.3948963542
PR(B)
0.3333333333
0.1916666667
0.1916666667
0.2428437500
0.1993432292
0.2178309505
PR(C)
0.3333333333
0.4750000000
0.3545833333
0.4057604167
0.4057604167
0.3872726953
1勺‘,J
0.3877897116
0.3877897116
0.3877897118
0.3877897116
0.3877897117
0.3877897117
0.2148106276
0.2148106274
0.2148106274
0.2148106275
0.2148106275
0.2148106275
0.3973996607
0.3973996609
0.3973996608
0.3973996608
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -