当前位置: 首页 > 专利查询>清华大学专利>正文

一种网络关键资源页面的自动定位方法技术

技术编号:2918475 阅读:245 留言:0更新日期:2012-04-11 18:40
一种网络关键资源页面的自动定位方法,属于互联网信息处理领域,其特征在于:它首先从多家搜索引擎用户查询点击信息记录中筛选出具有时效性和代表性的查询主题词,提取出其对应的用户点击结果页面和结果页面的“用户点击率”,得到查询主题集合、关键资源页面候选集和“用户点击分布”;随后对多家搜索引擎的用户查询点击信息记录上得到的“用户点击分布”进行融合,利用“查询可信度”信息得到融合后的“用户点击分布”;最后根据融合后的“用户点击分布”对关键资源页面候选集中的页面进行判定,得到主题相关的关键资源页面。该方法具有计算机自动,准确客观和迅速定位的优点。

【技术实现步骤摘要】

本专利技术属于互联网信息处理领域,特别是涉及一种基于用户行为分析、挖掘的网络关键资源页面定位的自动化处理方法。
技术介绍
搜索引擎是以一定的策略搜集互联网上的信息,在对信息进行组织和处理后为用户提供网络信息服务的计算机系统,它包括计算机网络、计算机硬件系统以及在硬件系统上运行的软件程序三个部分。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。 目前,通用搜索引擎包含信息搜集、信息整理和用户查询三部分。搜索引擎通过被称为网络爬行器的工具进行信息搜索,用索引器对抓取的信息进行整理,进而使用查询器进行用户查询,并返回相关结果列表,提供相关信息以满足用户的查询需求。 从使用者的角度看,搜索引擎提供一个包含搜索框的页面,用户在搜索框输入能反映自己查询需求的关键词,通过浏览器提交给搜索引擎后,搜索引擎返回和用户输入的内容相关的搜索结果信息列表,用户进行点击查找所需要的信息。 网络关键资源页面可以理解为是关于查询主题权威可信,且对用户获取信息最有用的页面。根据文本检索会议TREC(Text Retrieval Conference)网络信息检索部分的权威定义,关键资源页面应当是某个关键站点的入口页面,此站点提供了关于某个主题的可靠信息(这里的入口页面不一定是通常意义上的“主页”,它可能是大规模站点的接入页面,也可能是某个子站点或者某一类页面集合的接入页面)。因此,关键资源页面之所以关键,是因为它提供给用户一个源于某个主题的可靠信息入口。用户通过关键资源页面,可以比较快捷的查找到所需要的信息。同时,某个主题的关键资源页面数要比其相关页面数少得多(相关页面动辄成百上千,而关键资源页面往往只有几个到十几个),这也方便用户将注意力集中到少数一些与自己的查询主题最贴切的页面上。 当前网络信息检索中超过80%的检索需求可以用关键资源查找技术加以实现,在这一大部分检索需求中,只有关键资源页面是查询用户所需要的结果。因此,自动准确地查找某一查询主题下的关键资源对于网络信息检索工具提高其信息收集的有效性十分重要,其定位技术也成为了网络信息检索研究和应用中的重点考察问题之一。反映在国际信息检索研究最高水平的美国计算机学会情报检索专业组SIGIR(International ACM SIGIR Conference onResearch and Development in Information Retrieval)会议上,关键资源查找技术无论从论文数目还是质量来看,一直都是近年讨论的热点。查找关键资源,是当前网络信息检索的发展热点,也已经获得了一些卓有成效的理论研究和实验结果。但总的来说,关键资源定位技术研究的发展还停留在一个比较低的水平上,作为评价标准的前十位结果检索精度(Precision at 10documents,P@10)一直在20%左右徘徊,而表现网络数据不同于普通数据的许多查询无关特征也没有得到充分的考察。 关键资源定位技术按照出发点不同,通常可分为两大类,第一类是从页面角度出发,根据页面特征判断该页面是否为关键资源,如文本内容、超链接关系等。这一类关键资源页面也通常也被称为高质量页面,若其与某查询主题相关时,也被称为检索目标页面;另一类是从需求出发,根据给定的查询主题,从大量的页面中,筛选出该主题相关的页面。两类不同的定位方式有着不同定位方法和应用环境。 第一类主题无关的关键资源定位技术可以通过相关的页面质量评估方式来对页面进行评级,判定是否为关键资源页面,现有的技术主要基于页面之间的超链接关系以及一些页面自身的特征来实现页面的质量评估,已有的技术主要有PageRank、Hits等算法技术。该类技术可应用于搜索引擎的分级索引,检索结果排序等相关环境中,用来提高搜索引擎的检索速度和精确性。 另一类主题相关的定位技术由于直接从用户需求出发,关键资源页面和主题相关联,能大量减少和给定主题无关的页面,大幅度的提高存储页面的有效性和存储资源的利用率。主题相关的关键资源定位技术有很多需求强烈的实际应用,如根据查询主题和关键资源页面架构Web的目录式搜索;对查询主题进行答案标注,进而实现对搜索引擎的评价;应用于返回的查询结果中,提高查询精度等,这些需求和应用都无法通过第一类技术来完成和实现,其关键资源页面必须和特定的主题相关联。 已有的主题相关的网络关键资源页面判定基本上都是对给定的主题,用人工的方式去判断某一个页面是否是该主题下的关键资源,需要大量的人力劳动。美国国家技术研究所(NIST)组织的文本检索会议(TREC)经过多年积累,提出了能减少人力劳动的技术,其核心被称为结果池过滤技术(Pooling)。但无论怎样,已有主题相关的网络关键资源定位技术其缺点是明显的,尽管手工标注的工作量被大大减少,但大规模的主题相关的关键资源页面的定位仍然难以操作和实现,而且手工标注带来的员工主观影响也很难避免。特别对于大规模、实时(语料规模超过10亿页面,每天或每几天都有大量的查询主题)的网络信息检索的应用和分析是远远不够的。另外,一般的搜索过程本身可以看作一种定位方式,但搜索引擎返回的结果页面过多,检索精度低,用户满意度不高。 在实际商用搜索引擎中,用户对查询返回结果会按照自己的理解和满意程度进行点击,很容易对用户的该点击行为进行记录,该用户查询点击信息记录通常也被称为搜索引擎日志。查询记录点击信息不但体现了用户的查询兴趣,也包含了用户对查询结果挑选和判断。因此,从用户的查询点击信息中筛选相关的查询主题是可行的,已有统计研究表明,在日常的用户搜索中,查询最频繁的1%的查询词占了70%以上的查询次数,因此只要对用户点击信息进行统计,找出那些常用的用户查询,则能代表大多数用户查询需求,分析其相关用户点击行为就能对该主题下的关键资源页面进行有效的自动定位。
技术实现思路
本专利技术的目的是针对已有方法的不足,提出了基于用户行为分析的网络关键资源定位方法。该方法利用已有的在多家搜索引擎上的用户查询及其点击行为,从宏观统计角度出发,提取用户关心的查询主题,并分析关键资源页面的用户点击分布特征,挑选出对应的关键资源页面。由于分析过程融合了多家搜索引擎的用户行为,能够避免因单个搜索引擎索引数据规模和检索策略给关键资源定位时所带来的偏向性和不足,在一定程度上保证了网络关键资源定位的查全率和准确性。另外,由于挑选查询主题和关键资源页面的定位过程是由计算机自动完成,因此可以及时、准确、客观的反映查询主题和关键资源页面的时效性和准确性。 该方法的具体内容描述如下 1.利用用户的查询频率、结果点击等信息,自动筛选出具有时效性,能够反映大部分用户的查询需求,且能够被较准确标注的查询主题; 2.根据不同搜索引擎上的用户行为,分别计算各个查询主题对应的被点击页面及其点击率,得到该查询主题下所有被点击页面及其点击率所组成的关键资源页面候选集和查询用户点击分布; 3.利用融合方法,由多个搜索引擎上的用户点击分布得到各查询主题的整体查询用户点击分布特征; 4.根据融合后各个主题的查询点击分布特征,筛选对应的关键资源页面。 本专利技术的特征在于 它是在计算机上完成的,依次含有如下步骤(步骤1和2分本文档来自技高网
...

【技术保护点】
一种网络关键资源页面的自动定位方法,其特征在于该方法依次含有以下内容:步骤(1).计算机按以下步骤在各个搜索引擎系统的搜索引擎用户日志上筛选查询主题:步骤(1.1).数据预处理,其步骤如下:步骤(1.1.1).计算机通过搜索 引擎网络服务器搜索用户日志,并把该服务器记录的编码格式转换成国家标准汉字编码GBK格式;步骤(1.1.2).去除步骤(1.1.1)所述用户日志中除了下述内容项之外的信息,所述下述内容项包括:用户提交的查询Query(以下简称Q)、对 应于这个查询用户点击的结果地址URL、以及由搜索引擎系统自动分配的用户标识号ID,并把得到的日志整理成包含以上内容项的字符串形式;步骤(1.1.3).利用字符串匹配方法过滤步骤(1.1.2)得到的用户查询中的噪声信息,仅保留直接反映 搜索引擎普通用户查询需求与行为的内容项;步骤(1.2).挑选查询主题集合S,若:某个查询Q在用户日志中被不同的用户来查询的次数小于20次,则排除在集合S之外;否则,把该查询主题放入该查询主题集合S中;步骤(2).对每 个查询Q,按以下步骤提取查询用户点击率:步骤(2.1).按以下公式计算各查询Q的查询用户点击率:查询用户点击率=查询Q的用户点击查询结果URL的次数/查询Q用户的总点击次数,该查询用户点击率在0到1之间:对查询Q,其 各用户点击的结果页面URL的用户点击率之总和为1;步骤(2.2).生成查询Q的关键资源页面候选集:若:某页面对应的用户点击率小于0.05,则剔除该页面;否则,把该页面加入到该查询Q对应的关键资源页面候选集中;步骤(2 .3).生成查询Q的用户点击率分布:对于查询Q,统计其页面候选集中的页面和对应的用户点击率,得到与该查询Q对应的用户点击率分布;步骤(3).多搜索引擎日志的查询Q的用户点击率分布的融合,其步骤如下:步骤(3.1).按 下式计算单搜索引擎用户日志对查询Q的查询可信度信息:搜索引擎用户日志SE↓[j]上的查询可信度为:SE↓[j]查询可信度=log(SE↓[j]中查询Q的总用户数)/*log(SE↓[i]中查询Q的总用户数),i=1,2,…j ,…I,该SE↓[j]查询可信度在0到1之间;步骤(3.2).多搜索引擎用户日志的融合:融合后的对于查询Q的点击结果页面CRP...

【技术特征摘要】

【专利技术属性】
技术研发人员:岑荣伟刘奕群张敏金奕江马少平
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1