获取与目标文档章节相匹配的候选文档章节的方法与设备技术

技术编号:7044687 阅读:316 留言:0更新日期:2012-04-11 18:40
本发明专利技术的目的是提供一种用于获取与目标文档章节相匹配的候选文档章节的方法与设备,通过获取待匹配的目标文档章节;根据所述目标文档章节的章节标题信息,确定所述目标文档章节的章节标识信息;根据所述章节标识信息进行匹配查询,以获得与所述目标文档章节相对应的一个或多个候选文档章节。与现有技术相比,本发明专利技术提高了用户的文档访问效率,并提升了用户的使用体验。进一步地,本发明专利技术还可以根据所获得的候选文档章节相对该目标文档章节的匹配度,将候选文档章节提供给用户,从而进一步地提高用户的文档访问效率,并提升了用户的使用体验。

【技术实现步骤摘要】

本专利技术涉及网络搜索
,尤其涉及一种用于获取与目标文档章节相匹配的候选文档章节的技术。
技术介绍
随着网络应用的普及,越来越多的用户依赖网络进行网络文档的阅读,譬如,用户可通过网络获取《自然语言处理》中关于“隐马尔科夫链模型”的相关章节。然而,实际网络应用中,由于网络传播的开放性特点,同一份网络文档的某个章节可能为多个站点所转载,而且该章节在这些站点上的转载质量可能千差万别。例如,有些站点在该章节中插入广告性内容,不仅增加了用户的访问流量,也影响了用户的阅读体验;甚至在有些站点中,对应该章节的页面存在空章、图片章或死链等问题,这都严重影响了用户阅读的连贯性,也降低了用户的使用体验。因此,如何为目标文档章节匹配相对应的候选文档章节,以提高用户的文档访问效率,并提升用户的使用体验,成为本领域技术人员亟需解决的一个问题。
技术实现思路
本专利技术的目的是提供一种用于获取与目标文档章节相匹配的候选文档章节的方法与设备。根据本专利技术的一个方面,提供了一种由计算机实现的用于获取与目标文档章节相匹配的候选文档章节的方法,其中,该方法包括a获取待匹配的目标文档章节;b根据所述目标文档章节的章节标题信息,确定所述目标文档章节的章节标识信息;c根据所述章节标识信息进行匹配查询,以获得与所述目标文档章节相对应的一个或多个候选文档章节。根据本专利技术的另一方面,还提供了一种用于获取与目标文档章节相匹配的候选文档章节的章节匹配设备,其中,该设备包括章节获取装置,用于获取待匹配的目标文档章节;标识确定装置,用于根据所述目标文档章节的章节标题信息,确定所述目标文档章节的章节标识信息;章节匹配装置,用于根据所述章节标识信息进行匹配查询,以获得与所述目标文档章节相对应的一个或多个候选文档章节。与现有技术相比,本专利技术通过待匹配的目标文档章节的章节标题信息,确定所述目标文档章节的章节标识信息,并据此进行匹配查询,以获得与所述目标文档章节相对应的一个或多个候选文档章节,从而提高了用户的文档访问效率,并提升了用户的使用体验。 进一步地,本专利技术还可以根据所获得的候选文档章节相对该目标文档章节的匹配度,将候选文档章节提供给用户,从而进一步地提高用户的文档访问效率,并提升了用户的使用体验。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显图1示出根据本专利技术一个方面的用于获取与目标文档章节相匹配的候选文档章节的设备示意图;图2示出根据本专利技术一个优选实施例的用于获取与目标文档章节相匹配的候选文档章节的设备示意图;图3示出根据本专利技术另一个方面的用于获取与目标文档章节相匹配的候选文档章节的方法流程图;图4示出根据本专利技术一个优选实施例的用于获取与目标文档章节相匹配的候选文档章节的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。 具体实施例方式下面结合附图对本专利技术作进一步详细描述。图1示出根据本专利技术一个方面的用于获取与目标文档章节相匹配的候选文档章节的设备示意图;章节匹配设备1包括章节获取装置101、标识确定装置102和章节匹配装置 103。章节匹配设备1包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述章节匹配设备仅为举例,其他现有的或今后可能出现的章节匹配设备如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。章节获取装置101获取待匹配的目标文档章节。具体地,章节获取装置101例如通过在章节信息库中随机地或顺序地获取文档章节,以作为待匹配的目标文档章节;或者,通过与搜索引擎等第三方设备的交互,获取所述搜索引擎等第三方设备所提供的文档章节, 以作为待匹配的目标文档章节;或者,通过页面分析器等,检测文档的各个文档章节,从中检测出有问题的章节,例如空章、图片章、所对应的链接为死链的章节等,以作为待匹配的目标文档章节。在此,空章例如章节内容为空、或章节有效文字信息小于预定阈值的章节; 图片章例如章节内容或章节主题内容为图片的章节;死链例如点击该死链后跳转到目录页或其他不相关网页的链接。在此,章节信息库中存储有大量文档章节及其与文档、章节标识信息等的映射关系,该章节信息库既可以位于章节匹配设备1中,也可以位于与该章节匹配设备1相连接的第三方设备中。本领域技术人员应能理解上述获取待匹配的目标文档章节的方式仅为举例,其他现有的或今后可能出现的获取待匹配的目标文档章节的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。标识确定装置102根据所述目标文档章节的章节标题信息,确定所述目标文档章节的章节标识信息。具体地,标识确定装置102确定目标文档章节的章节标识信息的方式包括但不限于1)根据章节获取装置101所获取的待匹配的目标文档章节,从该目标文档章节中提取出章节标题信息,将所述章节标题信息作为该目标文档章节的章节标识信息。2)根据章节获取装置101所获取的待匹配的目标文档章节,从该目标文档章节中提取出章节标题信息,通过对该章节标题信息进行去除标题序号信息、去除标题后缀信息、 去除符号字符以及所述符号字符所涵括的文字信息等预处理操作,获得预处理操作后的章节标题信息,并将该预处理后的章节标题信息作为该目标文档章节的章节标识信息。本领域技术人员应能理解上述确定章节标识信息的方式仅为举例,其他现有的或今后可能出现的确定章节标识信息的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。章节匹配装置103根据所述章节标识信息进行匹配查询,以获得与所述目标文档章节相对应的一个或多个候选文档章节。具体地,章节匹配装置103通过匹配查询,获得所述一个或多个候选文档章节的方式包括但不限于1)根据标识确定装置102所确定的目标文档章节的章节标识信息,在章节信息库中进行匹配查询,或者,在搜索索引库中进行在线匹配查询,以获得所述一个或多个候选文档章节。例如,章节获取装置101获取到待匹配的目标文档章节为“明朝那些事儿一** 在线书库”的第六章;标识确定装置102将该目标文档章节的章节标题信息“第六章霸业的开始”作为该目标文档章节的章节标识信息;章节匹配装置103根据该章节标识信息“第六章霸业的开始”,在章节信息库中进行匹配查询,或者,在搜索索引库中进行在线匹配查询, 获得与该目标文档章节相对应的多个候选文档章节“明朝那些事儿连载读书**网”的第六章、“明朝那些事」L历史文化读书频道**网”的第六章等。2)根据标识确定装置102所确定的目标文档章节的章节标识信息,结合该目标文档章节所对应的目标文档的文档标识信息,在章节信息库中进行匹配查询,或者,在搜索索引库中进行在线匹配查询,以获得所述一个或多个候选文档章节。该文档标识信息诸如文档名称、作者名称或文档内容标记等可用于标识文档的信息。例如,假设章节获取装置101 所获取到的待匹配的目标文档章节的章节标题信息只包括了标题序号信息,如获取到待匹配的目标文档章节为“明朝那些事儿一**在线书库本文档来自技高网...

【技术保护点】
1.一种由计算机实现的用于获取与目标文档章节相匹配的候选文档章节的方法,其中,该方法包括:a获取待匹配的目标文档章节;b根据所述目标文档章节的章节标题信息,确定所述目标文档章节的章节标识信息;c根据所述章节标识信息进行匹配查询,以获得与所述目标文档章节相对应的一个或多个候选文档章节。

【技术特征摘要】

【专利技术属性】
技术研发人员:林帆洪庚伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1