【技术实现步骤摘要】
本专利技术涉及搜索引擎
,特别是涉及一种搜索引擎动态摘要提取方法。
技术介绍
在网络信息极大丰富的今天,为了快速而准确的找到所需的信息,搜索引擎应运而生,成为现代网络的重要工具。虽然现代搜索引擎提供了较准确的结果排序,然而时常会有一些靠前的结果并不是用户所需要的,出现这样的情况一是搜索引擎是基于全文索引技术提供服务的,只要文档中包含查询词就会返回的,所以很大可能存在与用户查询需求不相关的文档,二是因为查询词未必可以完全展现用户的意图。因此,用户会通过阅读摘要来判定链接的价值。那么摘要的好坏直接影响到用户对链接价值判定的准确性,摘要的质量也成为用户选择搜索引擎的标准之一。综上可知摘要对于搜索引擎有着重要的意义,其意义就在于对用户判断链接价值时所起到的指导性作用。好的摘要应当做到不对用户产生误导,这种误导主要有两种情况:类型一:原本与用户查询较相关的链接,用户阅读摘要后感觉不相关,从而忽略该链接。类型二:原本与用户查询不相关的链接,用户阅读摘要后感觉相关,从而点击链接阅读原文。目前在摘要方面已有不少研究。Tombros等人在1998年得出结论以查询为中心的动态 ...
【技术保护点】
一种搜索引擎动态摘要提取方法,其特征在于,所述方法包括以下步骤: 获取用户输入的查询词; 根据所述查询词,截取摘要候选段落; 获取所述候选段落的段权值; 选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要。
【技术特征摘要】
1、一种搜索引擎动态摘要提取方法,其特征在于,所述方法包括以下步骤:获取用户输入的查询词;根据所述查询词,截取摘要候选段落;获取所述候选段落的段权值;选取段权值最高的预先设定个数的候选段落,并将选择的候选段落合并生成摘要。2、如权利要求1所述的搜索引擎动态摘要提取方法,其特征在于,在所述截取摘要候选段落的步骤中,具体包括:从所述查询词在文中的位置开始向两边延伸;根据向前阈值、终结标点集或上一段的结尾,获取所述候选段落的起始位置;根据所述起始位置和候选段落长度的设定值,获取所述候选段落的初始结束位置;根据所述初始结束位置、向前、向后阈值和终结标点集,获取所述候选段落的结束位置。3、如权利要求2所述的搜索引擎动态摘要提取方法,其特征在于,所述获取候选段落的起始位置的步骤,具体包括:在所述查询词在文中的位置向前延伸的长度大于所述向前阈值时、或找到所述终结标点集中的终结标点时、或达到上一段的结尾时的位置为所述候选段落的起始位置。4、如权利要求2或3所述的搜索引擎动态摘要提取方法,其特征在于,所述初始结束位置为所述起始位置和候选段落长度的设定值之和。5、如权利要求4所述的搜索引擎动态摘要提取方法,其特征在于,所述获取候选段落的结束位置的步骤,具体包括:在所述查询词在文中的位置向后延伸的长度大于所述向后阈值时、或从所述初始结束位置向前向后调整找到所述终结标点...
【专利技术属性】
技术研发人员:闫宏飞,树柏涵,李晓明,
申请(专利权)人:北京大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。