基于神经网络的搜索方法、设备及存储介质技术

技术编号:18940804 阅读:29 留言:0更新日期:2018-09-15 11:07
本发明专利技术实施例提供一种基于神经网络的搜索方法、设备及存储介质,该搜索方法包括:通过获取搜索对象及与该搜索对象匹配的多个文档,根据每个文档对应的第一神经网络向量,确定每个文档的内容校验值;根据每个文档的内容校验值、搜索结果的开始位置和结束位置、开始位置对应的概率值和结束位置对应的概率值,确定每个文档中各片段对应的参考值;根据多个文档中各片段对应的参考值,确定最大参考值对应的片段为目标搜索结果。由于每个文档的内容校验值均可以反映该文档作为搜索结果时其他文档对其的支持程度,即该文档作为搜索结果可以获得其他文档的支持校验,因此,根据内容校验值所确定的目标搜索结果的可靠性较高。

Search method, equipment and storage medium based on Neural Network

The embodiment of the invention provides a neural network-based search method, device and storage medium. The search method includes: determining the content check value of each document according to the first neural network vector corresponding to each document by acquiring a search object and a plurality of documents matching the search object; and determining the content check value of each document according to the contents of each document; Content check value, search results start and end position, start position corresponding to the probability value and end position corresponding to the probability value of each document segment to determine the corresponding reference value; according to the corresponding reference value of each segment in multiple documents, determine the maximum reference value corresponding to the segment as the target search results. Since the content check value of each document can reflect the degree of support of other documents when the document is used as a search result, that is, the document can get the support check of other documents as a search result, the reliability of the target search results determined by the content check value is higher.

【技术实现步骤摘要】
基于神经网络的搜索方法、设备及存储介质
本专利技术实施例涉及搜索技术,尤其涉及一种基于神经网络的搜索方法、设备及存储介质。
技术介绍
随着搜索技术的快速发展,用户越来越多地使用搜索引擎来进行结果搜索。通常情况下,用户在搜索栏输入关键字并触发搜索;搜索引擎返回与该关键字匹配的结果。其中,关键字可以是文字、词汇或文本等。在相关技术中,搜索引擎通过将与关键字相关的多篇文档拼接成一篇文档;然后,采用神经网络技术,直接定位该拼接文档中的某一连续文字片段,作为最接近的结果。然而,上述搜索方法倾向在拼接文档中查找一个表面文字意义上最像答案的文字片段作为最接近的搜索结果,该搜索结果的可靠性较差。
技术实现思路
本专利技术实施例提供一种基于神经网络的搜索方法、设备及存储介质,可以有效提高搜索结果的可靠性。第一方面,本专利技术实施例提供一种基于神经网络的搜索方法,包括:获取搜索对象及与该搜索对象匹配的多个文档;根据每个文档对应的第一神经网络向量,确定每个文档的内容校验值,第一神经网络向量中的元素用于表征文档中的单元与搜索对象中的单元的相关性,内容校验值用于表示每个文档作为搜索结果时其他文档对文档的支持程度;根据每个文档的内容校验值、搜索结果的开始位置和结束位置、开始位置对应的概率值和结束位置对应的概率值,确定每个文档中各片段对应的参考值,每一开始位置及其对应的结束位置确定一片段,参考值用于表示片段作为搜索结果的可能性;根据多个文档中各片段对应的参考值,确定最大参考值对应的片段为目标搜索结果。在一种可能的设计中,上述根据每个文档对应的第一神经网络向量,确定每个文档的内容校验值,可以包括:根据每个文档对应的第一神经网络向量,确定文档中各单元作为搜索结果的概率;根据每个文档对应的第二神经网络向量、该文档中各单元作为搜索结果的概率与其他文档中各单元作为搜索结果的概率,确定每个文档的内容校验值,第二神经网络向量中的元素用于表征文档中的单元,例如为一一维向量等。在一种可能的设计中,上述根据每个文档对应的第一神经网络向量,确定文档中各单元作为搜索结果的概率,可以包括:将第i个文档中第k个单元在对应第一神经网络向量中的元素值与一神经网络参数作为任一第一函数的因变量,得到该第一函数输出的第一值,该第一函数可以包括输出为第一预设范围的神经元函数;将第一值和另一神经网络参数作为任一输出为第二预设范围的第二函数的因变量,得到该第二函数输出的第二值,作为第i文档中第k个单元作为搜索结果的概率。其中,i取值为1~N中任一整数值,N为所述多个文档的个数;k取值为1~M中任一整数值,M为第i个文档中的单元个数,不同文档对应的M值相同或不同。在一种可能的设计中,上述根据每个文档对应的第二神经网络向量、该文档中各单元作为搜索结果的概率与其他文档中各单元作为搜索结果的概率,确定每个文档的内容校验值,可以包括:根据每个文档对应的第二神经网络向量和该文档中各单元作为搜索结果的概率,得到每个文档作为搜索结果的第三神经网络向量;根据所有文档作为搜索结果的第三神经网络向量,得到每个文档的内容校验值。在一种可能的设计中,上述根据每个文档对应的第二神经网络向量和该文档中各单元作为搜索结果的概率,得到每个文档作为搜索结果的第三神经网络向量,可以包括:将第i个文档中第k个单元在第i个文档对应的第二神经网络向量中的元素值与第i文档中第k个单元作为搜索结果的概率相乘,得到第一结果,其中,该元素值可以为一维向量,k取值为1~M中任一整数值,M为第i个文档中的单元个数,不同文档对应的M值可以相同或不同,i取值为1~N中任一整数值,N为上述多个文档的个数;累加第i个文档中每个单元对应的第一结果,并将累加得到的结果除以M,得到第i个文档作为搜索结果的第三神经网络向量。在一种可能的设计中,上述根据所有文档作为搜索结果的第三神经网络向量,得到每个文档的内容校验值,可以包括以下步骤:根据第i个文档作为搜索结果的第三神经网络向量和第j个文档作为搜索结果的第三神经网络向量,得到每个文档对第j个文档作为搜索结果的支持权重值,j取值为1~N中任一整数值;对所述支持权重值进行归一化处理;将第j个文档作为搜索结果的第三神经网络向量与其对应的归一化处理得到的结果相乘,得到第j个文档对应的结果;累加每个文档对应的结果,获得校验后的第四神经网络向量;将第四神经网络向量、第i个文档作为搜索结果的第三神经网络向量进行内积;将内积得到的结果与所述第四神经网络向量、第i个文档作为搜索结果的第三神经网络向量进行向量合并,并与一神经网络参数相乘,得到第i个文档对应的一数值;对所有文档对应的该数值进行归一化处理,得到每个文档的内容校验值。在一种可能的设计中,上述根据每个文档的内容校验值、搜索结果的开始位置和结束位置、开始位置对应的概率值和结束位置对应的概率值,确定每个文档中各片段对应的参考值,可以包括:根据每个文档的内容校验值、该文档中各单元作为搜索结果的概率、搜索结果的开始位置和结束位置、开始位置对应的概率值和结束位置对应的概率值,得到每个文档中各片段对应的参考值。在一种可能的设计中,上述根据每个文档的内容校验值、搜索结果的开始位置和结束位置、开始位置对应的概率值和结束位置对应的概率值,确定每个文档中各片段对应的参考值之前,还可以包括:根据文档对应的第一神经网络向量,得到该文档中搜索结果的开始位置和结束位置、开始位置对应的概率值和结束位置对应的概率值。在一种可能的设计中,上述根据每个文档对应的第一神经网络向量,确定每个文档的内容校验值之前,还可以包括:切分每个文档;根据切分后的每个文档,得到每个文档对应的第二神经网络向量,第二神经网络向量中的元素用于表征该文档中的单元;根据每个文档对应的第二神经网络向量和搜索对象,得到每个文档对应的第一神经网络向量。第二方面,本专利技术实施例提供一种一种基于神经网络的搜索设备,包括:获取模块,用于获取搜索对象及与所述搜索对象匹配的多个文档;第一处理模块,用于根据每个所述文档对应的第一神经网络向量,确定每个所述文档的内容校验值,所述第一神经网络向量中的元素用于表征所述文档中的单元与所述搜索对象中的单元的相关性,所述内容校验值用于表示每个所述文档作为搜索结果时其他文档对所述文档的支持程度;第二处理模块,用于根据每个所述文档的内容校验值、搜索结果的开始位置和结束位置、所述开始位置对应的概率值和所述结束位置对应的概率值,确定每个所述文档中各片段对应的参考值,每一开始位置及其对应的结束位置确定一片段,所述参考值用于表示片段作为搜索结果的可能性;第三处理模块,用于根据多个所述文档中各片段对应的参考值,确定最大参考值对应的片段为目标搜索结果。在一种可能的设计中,上述第一处理模块可以包括:第一处理子模块,用于根据每个所述文档对应的第一神经网络向量,确定所述文档中各单元作为搜索结果的概率;第二处理子模块,用于根据每个所述文档对应的第二神经网络向量、所述文档中各单元作为搜索结果的概率与其他文档中各单元作为搜索结果的概率,确定每个所述文档的内容校验值,所述第二神经网络向量中的元素用于表征所述文档中的单元。在一种可能的设计中,上述第一处理子模块可具体用于:将第i个文档中第k个单元在对应第一神经网络向量中的元素值与一神经本文档来自技高网...

【技术保护点】
1.一种基于神经网络的搜索方法,其特征在于,包括:获取搜索对象及与所述搜索对象匹配的多个文档;根据每个所述文档对应的第一神经网络向量,确定每个所述文档的内容校验值,所述第一神经网络向量中的元素用于表征所述文档中的单元与所述搜索对象中的单元的相关性,所述内容校验值用于表示每个所述文档作为搜索结果时其他文档对所述文档的支持程度;根据每个所述文档的内容校验值、搜索结果的开始位置和结束位置、所述开始位置对应的概率值和所述结束位置对应的概率值,确定每个所述文档中各片段对应的参考值,每一开始位置及其对应的结束位置确定一片段,所述参考值用于表示片段作为搜索结果的可能性;根据多个所述文档中各片段对应的参考值,确定最大参考值对应的片段为目标搜索结果。

【技术特征摘要】
1.一种基于神经网络的搜索方法,其特征在于,包括:获取搜索对象及与所述搜索对象匹配的多个文档;根据每个所述文档对应的第一神经网络向量,确定每个所述文档的内容校验值,所述第一神经网络向量中的元素用于表征所述文档中的单元与所述搜索对象中的单元的相关性,所述内容校验值用于表示每个所述文档作为搜索结果时其他文档对所述文档的支持程度;根据每个所述文档的内容校验值、搜索结果的开始位置和结束位置、所述开始位置对应的概率值和所述结束位置对应的概率值,确定每个所述文档中各片段对应的参考值,每一开始位置及其对应的结束位置确定一片段,所述参考值用于表示片段作为搜索结果的可能性;根据多个所述文档中各片段对应的参考值,确定最大参考值对应的片段为目标搜索结果。2.根据权利要求1所述的基于神经网络的搜索方法,其特征在于,所述根据每个所述文档对应的第一神经网络向量,确定每个所述文档的内容校验值,包括:根据每个所述文档对应的第一神经网络向量,确定所述文档中各单元作为搜索结果的概率;根据每个所述文档对应的第二神经网络向量、所述文档中各单元作为搜索结果的概率与其他文档中各单元作为搜索结果的概率,确定每个所述文档的内容校验值,所述第二神经网络向量中的元素用于表征所述文档中的单元。3.根据权利要求2所述的基于神经网络的搜索方法,其特征在于,所述根据每个所述文档对应的第一神经网络向量,确定所述文档中各单元作为搜索结果的概率,包括:将第i个文档中第k个单元在对应第一神经网络向量中的元素值与一神经网络参数作为任一第一函数的因变量,得到所述第一函数输出的第一值,所述第一函数包括输出为第一预设范围的神经元函数;将所述第一值和另一神经网络参数作为任一输出为第二预设范围的第二函数的因变量,得到所述第二函数输出的第二值,作为第i文档中第k个单元作为搜索结果的概率;其中,i取值为1~N中任一整数值,N为所述多个文档的个数;k取值为1~M中任一整数值,M为第i个文档中的单元个数,不同文档对应的M值相同或不同。4.根据权利要求2所述的基于神经网络的搜索方法,其特征在于,所述根据每个所述文档对应的第二神经网络向量、所述文档中各单元作为搜索结果的概率与其他文档中各单元作为搜索结果的概率,确定每个所述文档的内容校验值,包括:根据每个所述文档对应的第二神经网络向量和所述文档中各单元作为搜索结果的概率,得到每个所述文档作为搜索结果的第三神经网络向量;根据所有所述文档作为搜索结果的第三神经网络向量,得到每个所述文档的内容校验值。5.根据权利要求4所述的基于神经网络的搜索方法,其特征在于,所述根据每个所述文档对应的第二神经网络向量和所述文档中各单元作为搜索结果的概率,得到每个所述文档作为搜索结果的第三神经网络向量,包括:将第i个文档中第k个单元在第i个文档对应的第二神经网络向量中的元素值与第i文档中第k个单元作为搜索结果的概率相乘,得到第一结果,其中,所述元素值为一维向量,k取值为1~M中任一整数值,M为第i个文档中的单元个数,不同文档对应的M值可以相同或不同,i取值为1~N中任一整数值,N为所述多个文档的个数;累加第i个文档中每个单元对应的第一结果,并将累加得到的结果除以M,得到第i个文档作为搜索结果的第三神经网络向量。6.根据权利要求5所述的基于神经网络的搜索方法,其特征在于,所述根据所有所述文档作为搜索结果的第三神经网络向量,得到每个所述文档的内容校验值,包括:根据第i个文档作为搜索结果的第三神经网络向量和第j个文档作为搜索结果的第三神经网络向量,得到每个文档对第j个文档作为搜索结果的支持权重值,j取值为1~N中任一整数值;对所述支持权重值进行归一化处理;将第j个文档作为搜索结果的第三神经网络向量与其对应的归一化处理得到的结果相乘,得到第j个文档对应的结果;累加每个文档对应的结果,获得校验后的第四神经网络向量;将第四神经网络向量、第i个文档作为搜索结果的第三神经网络向量进行内积;将内积得到的结果与所述第四神经网络向量、第i个文档作为搜索结果的第三神经网络向量进行向量合并,并与一神经网络参数相乘,得到第i个文档对应的一数值;对所有文档对应的该数值进行归一化处理,得到每个文档的内容校验值。7.根据权利要求2所述的基于神经网络的搜索方法,其特征在于,所述根据每个所述文档的内容校验值、搜索结果的开始位置和结束位置、所述开始位置对应的概率值和所述结束位置对应的概率值,确定每个所述文档中各片段对应的参考值,包括:根据每个所述文档的内容校验值、所述文档中各单元作为搜索结果的概率、搜索结果的开始位置和结束位置、所述开始位置对应的概率值和所述结束位置对应的概率值,得到每个所述文档中各片段对应的参考值。8.根据权利要求1至7任一所述的基于神经网络的搜索方法,其特征在于,所述根据每个所述文档的内容校验值、搜索结果的开始位置和结束位置、所述开始位置对应的概率值和所述结束位置对应的概率值,确定每个所述文档中各片段对应的参考值之前,还包括:根据所述文档对应的第一神经网络向量,得到所述文档中搜索结果的开始位置和结束位置、所述开始位置对应的概率值和所述结束位置对应的概率值。9.根据权利要求1至7任一所述的基于神经网络的搜索方法,其特征在于,所述根据每个所述文档对应的第一神经网络向量,确定每个所述文档的内容校验值之前,还包括:切分每个所述文档;根据切分后的每个文档,得到每个所述文档对应的第二神经网络向量,所述第二神经网络向量中的元素用于表征所述文档中的单元;根据每个所述文档对应的第二神经网络向量和所述搜索对象,得到每个所述文档对应的第一神经网络向量。10.一种基于神经网络的搜索设备,其特征在于,包括:获取模块,用于获取搜索对象及与所述搜索对象匹配的多个文档;第一处理模块,用于...

【专利技术属性】
技术研发人员:刘凯吕雅娟吴甜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1