基于层次分析法的网页排序技术论文

更新时间：2025-04-05 21:45:20 编辑：www.wenshu999.com

　　1概要

　　经过多年的探索发展，向量空间模型、语言模型、布尔模型、链接分析算法、相关性排序模型等都曾或正被应用到搜索引擎中。目前用得比较多的排序算法是在链接分析算法的基础上加入更多的排序因素：关键词在网页中出现的位置、点击次数和网页被引用次数等。这些方法最大的不足是不同用户搜索得到的网页结果排序是一样。

　　2层次分析法

　　2.1层次分析法原理

　　层次分析法(AHP)，其主要思想是通过对复杂系统的有关要素及其相互关系进行分析，将其简化为有序的递阶层次结构，使这些要素归类到不同的层次，形成一个多层次的分析结构模型，最终把系统分析转化为确定最低层( 决策方案) 相对于最高层( 总目标) 的相对重要性权值的问题。

　　AHP 使用时先将问题中的因素划分到不同层次中，利用一致矩阵法确定各层次因素间的权重，经过归一化得出由同层次因素对于上一层次某因素的相对重要性的权值所组成的矩阵。然后计算某层次所有因素对最高层相对重要性的权值。两次相对重要性权值计算都需进行一致性检验。

　　AHP 实现网页排序的原理是以网页和搜索关键词之间的相关度为最高层，点击次数、词频、词位置、引用次数、浏览时间和用户个人信息作为中间层，搜索的结果网页为最底层。通过结合搜索和层次分析法排序完成搜索任务。

　　2.2基于层次分析的网页排序

　　首先对用户提交的关键词进行同义词查询，基于关键词及其同义词进行扩展查询，查询返回关键词在页面中的位置、浏览平均时间、点击率、被引用次数等信息，然后对返回的结果页面结合AHP 分析得出相关性排序网页，最终向用户反馈排序结果。

　　假设用户提交关键词后得到5 个页面，为得到的页面创建SearchedPage 实例。该实例有以下字段：id( 页面在DB 中的编号),relevance( 关键词与页面的相关程度),hitWeight( 页面被点击次数权重，/100),refWeight( 页面被引用次数权重),posWeight( 关键词位置权重，根据关键词第一次出现的位置判断，标题部分取20，正文按每10% 减1，正文前10% 取10),freWeight( 关键词频率权重，*100),readTWeight( 页面平均浏览时间权重，*100),cusWeight( 用户个性化相关权重，页面类别与用户爱好匹配取3，否则取1),synWeight( 词义距离权值，取值0-5，直接匹配取0)。假设这5个页面：(hitWeight,refWeight,posWeight,freWeight,readTWeight,cusWeight,synWeight)

　　5 个页面取值分别为：P1(9.6,24,20,0.93,2.7,1,1),P2(3.1,7,9,0.2,1.76,1,1),P3(8.2,13,10,0.98,0.84,3,1),P4(9.7,8,10,1.15,0.79,1,0),P5(5.4,36,20,0.81,0.8,3,2)。利用AHP 求解relevance。

　　根据中间层因素对relevance 取值的影响程度，建立比较矩阵T，其中t12 = 1/3 表示作者认为关键词在页面中的位置比其出现频率更重要。

　　通过计算，得比较矩阵T 的.最大特征根λ = 7.3，相应特征变量为W=(0.11,0.34,0.05,0.24,0.10,0.08,0.09)T，一致性检验指标CI = (λ- n)/(n - 1) = 0.05,n = 7。查表知随机一致性指标为RI=1.32，一致性比率CR=CI/RI=0.038<0.1，通过一致性检验。

　　根据SearchedPage 属性值，构建P1 到P5 实例对freWeight 等指标的判断矩阵。

　　因为篇幅有限，本文不列出K2—K10，只给出K2—K10 比较矩阵的最大特征值λi(i=1,2,3,??,7) 与对应的特征向量Wi(i=1,2,3,??,7)。

　　λ1=10.04 W1=(0.14,0.05,0.16,0.14,0.12)

　　λ2=10.86 W2=(0.13,0.02,0.08,0.10,0.17)

　　λ3=10.09 W3=(0.17,0.03,0.14,0.17,0.11)

　　λ4=10.11 W4=(0.19,0.07,0.07,0.05,0.04)

　　λ5=10.12 W5=(0.12,0.03,0.08,0.04,0.25)

　　λ6=10.01 W6=(0.03,0.04,0.19,0.03,0.18)

　　λ7=10.29 W7=(0.11,0.03,0.12,0.13,0.07)

　　算出K1—K10 最大特征值、特征向量对应的CI、CR 知通过一致性检验，层次总排序一致性比率：CR=(t1CI1+t2CI2+L+a7CI7)/(a1RI1+a2RI2+L+a7RI7)，其中：(t1,t2,t3,t4,t5,t6,t7)T=(0.11,0.34,0.05,0.24,0.10,0.08,0.09)T，算得CR = 0.032，CR<0.1 通过检验。

　　因此，通过同义词和个性化搜索后得到SearchedPage 的5 个实例P1、P2、P3、P4、P5 排序为P1、P5、P3、P4、P2。

　　3结语

　　基于层次分析的搜索排序技术可以较好的解决传统的同义词扩展方式又会带来更多的查询结果难以合理排序的问题，并有利于提高搜索的精确率和覆盖率。