基于人工智能的搜索结果摘要的生成方法及装置制造方法及图纸

技术编号:14836701 阅读:89 留言:0更新日期:2017-03-17 04:07
本发明专利技术提供一种基于人工智能的搜索结果摘要的生成方法及装置。本发明专利技术实施例通过根据所获取的搜索关键词,获得至少一个页面,进而对搜索关键词和至少一个页面中每个页面进行分词处理,获得至少一个第一分词结果和至少一个第二分词结果,并根据至少一个第一分词结果中每个第一分词结果,与,每个页面的至少一个第二分词结果中每个第二分词结果,获得每个页面的与每个第一分词结果最相似的第二分词结果,以作为每个页面的特征数据,使得能够根据每个页面的特征数据,获得每个页面的摘要,并输出包含每个页面的摘要的搜索结果,由于不再完全依赖于搜索关键词在页面中的位置周围的内容,而是依赖每个页面中与搜索关键词相似的内容来生成摘要,充分利用了页面全文的内容,从而提高了摘要的质量。

【技术实现步骤摘要】

本专利技术涉及互联网技术,尤其涉及一种基于人工智能的搜索结果摘要的生成方法及装置
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供搜索服务,将用户搜索相关的信息展示给用户的系统。据国家统计局的报道,中国网民人数已经超过了4亿,这个数据意味着中国已经超过美国成为世界上第一大网民国,且中国的网站总数量已经超过了200万。因此,如何利用搜索服务最大限度满足用户需求,对于互联网企业而言,始终是一个重要的课题。为了增强搜索引擎所提供的搜索结果的展示效果,在搜索结果中,除了页面的标题和页面的统一资源定位符(UniformResourceLocator,URL)之外,还可以进一步包括一段来自页面的摘要。通常,搜索引擎可以采用动态摘要生成方式,即根据搜索关键词在页面中的位置,提取出周围的内容即片段例如,不完整的句子等来,在输出时将搜索关键词进行高亮显示。然而,现有的摘要完全依赖于搜索关键词在页面中的位置周围的内容,可能会导致摘要的质量的降低。
技术实现思路
本专利技术的多个方面提供一种基于人工智能的搜索结果摘要的生成方法及装置,用以提高摘要的质量。本专利技术的一方面,提供一种搜索结果摘要的生成方法,包括:获取搜索关键词;根据所述搜索关键词,获得至少一个页面;对所述搜索关键词进行分词处理,获得至少一个第一分词结果;以及对所述至少一个页面中每个页面进行分词处理,获得至少一个第二分词结果;根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据;根据所述每个页面的特征数据,获得所述每个页面的摘要;输出包含所述每个页面的摘要的搜索结果。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据,包括:根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量;根据所述每个页面的所述至少一个第二分词结果中每个第二分词结果,利用所述神经网络,获得所述每个第二分词结果的空间向量;根据所述每个第一分词结果的空间向量与所述每个第二分词结果的空间向量,计算所述每个第一分词结果与所述每个第二分词结果之间的相似度;将所述每个页面的与所述每个第一分词结果之间的相似度最大的第二分词结果,作为所述每个页面的特征数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量,包括:将所述至少一个第一分词结果中每个第一分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第一分词结果的正向空间向量表示;将所述至少一个第一分词结果中每个第一分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第一分词结果的逆向空间向量表示;根据所述每个第一分词结果的正向空间向量表示和所述每个第一分词结果的逆向空间向量表示,获得所述每个第一分词结果的空间向量。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个页面的所述至少一个第二分词结果中每个第二分词结果,利用所述神经网络,获得所述每个第二分词结果的空间向量,包括:将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第二分词结果的正向空间向量表示;将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第二分词结果的逆向空间向量表示;根据所述每个第二分词结果的正向空间向量表示和所述每个第二分词结果的逆向空间向量表示,获得所述每个第二分词结果的空间向量。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量之前,还包括:根据用户历史行为数据,获得同一个搜索关键词所对应的正例样本和负例样本;将同一个搜索关键词所对应的正例样本与负例样本两两组合,组成配对样本,以作为训练数据;利用所述训练数据,构建所述神经网络。本专利技术的另一方面,提供一种搜索结果摘要的生成装置,包括:获取单元,用于获取搜索关键词;匹配单元,用于根据所述搜索关键词,获得至少一个页面;预处理单元,用于对所述搜索关键词进行分词处理,获得至少一个第一分词结果;以及对所述至少一个页面中每个页面进行分词处理,获得至少一个第二分词结果;特征单元,用于根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据;摘要单元,用于根据所述每个页面的特征数据,获得所述每个页面的摘要;输出单元,用于输出包含所述每个页面的摘要的搜索结果。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,具体用于根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量;根据所述每个页面的所述至少一个第二分词结果中每个第二分词结果,利用所述神经网络,获得所述每个第二分词结果的空间向量;根据所述每个第一分词结果的空间向量与所述每个第二分词结果的空间向量,计算所述每个第一分词结果与所述每个第二分词结果之间的相似度;以及将所述每个页面的与所述每个第一分词结果之间的相似度最大的第二分词结果,作为所述每个页面的特征数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,具体用于将所述至少一个第一分词结果中每个第一分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第一分词结果的正向空间向量表示;将所述至少一个第一分词结果中每个第一分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第一分词结果的逆向空间向量表示;以及根据所述每个第一分词结果的正向空间向量表示和所述每个第一分词结果的逆向空间向量表示,获得所述每个第一分词结果的空间向量。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,具体用于将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第二分词结果的正向空间向量表示;将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照逆向顺序依次输入所述神经网络,获得所本文档来自技高网...
基于人工智能的搜索结果摘要的生成方法及装置

【技术保护点】
一种搜索结果摘要的生成方法,其特征在于,包括:获取搜索关键词;根据所述搜索关键词,获得至少一个页面;对所述搜索关键词进行分词处理,获得至少一个第一分词结果;以及对所述至少一个页面中每个页面进行分词处理,获得至少一个第二分词结果;根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据;根据所述每个页面的特征数据,获得所述每个页面的摘要;输出包含所述每个页面的摘要的搜索结果。

【技术特征摘要】
1.一种搜索结果摘要的生成方法,其特征在于,包括:获取搜索关键词;根据所述搜索关键词,获得至少一个页面;对所述搜索关键词进行分词处理,获得至少一个第一分词结果;以及对所述至少一个页面中每个页面进行分词处理,获得至少一个第二分词结果;根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据;根据所述每个页面的特征数据,获得所述每个页面的摘要;输出包含所述每个页面的摘要的搜索结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据,包括:根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量;根据所述每个页面的所述至少一个第二分词结果中每个第二分词结果,利用所述神经网络,获得所述每个第二分词结果的空间向量;根据所述每个第一分词结果的空间向量与所述每个第二分词结果的空间向量,计算所述每个第一分词结果与所述每个第二分词结果之间的相似度;将所述每个页面的与所述每个第一分词结果之间的相似度最大的第二分词结果,作为所述每个页面的特征数据。3.根据权利要求2所述的方法,其特征在于,所述根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量,包括:将所述至少一个第一分词结果中每个第一分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第一分词结果的正向空间向量表示;将所述至少一个第一分词结果中每个第一分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第一分词结果的逆向空间向量表示;根据所述每个第一分词结果的正向空间向量表示和所述每个第一分词结果的逆向空间向量表示,获得所述每个第一分词结果的空间向量。4.根据权利要求2所述的方法,其特征在于,所述根据所述每个页面的所述至少一个第二分词结果中每个第二分词结果,利用所述神经网络,获得所述每个第二分词结果的空间向量,包括:将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第二分词结果的正向空间向量表示;将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第二分词结果的逆向空间向量表示;根据所述每个第二分词结果的正向空间向量表示和所述每个第二分词结果的逆向空间向量表示,获得所述每个第二分词结果的空间向量。5.根据权利要求2~4任一权利要求所述的方法,其特征在于,所述根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量之前,还包括:根据...

【专利技术属性】
技术研发人员:朱曼瑜张军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1