信息处理方法和装置制造方法及图纸

技术编号:16837609 阅读:25 留言:0更新日期:2017-12-19 20:03
本申请实施例公开了信息处理方法和装置。该方法的一具体实施方式包括:获取与用户输入的搜索语句相关的搜索结果集合;对搜索语句进行句法分析,生成第一句法树,并对搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度,其中,语义匹配模型用于确定句法树之间的相似度;基于搜索语句与搜索结果集合中的各搜索结果的相似度,对搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给用户。该实施方式可以提高搜索结果与搜索语句的匹配度,从而更加满足用户需求。

Information processing methods and devices

An information processing method and device are disclosed in the present application embodiment. One embodiment of the method includes: obtaining user input and search statements related set of search results; of syntactic parsing of the search statement, generating a first syntax tree, and each set of search results in search results of syntactic parsing, syntax tree generated second sets; the first syntactic tree and second syntax tree based on set. In the matching model of semantic similarity, pre training, search and calculation statement set of search results in the search results, the semantic matching model is used to determine the similarity between the syntactic tree; similarity search statement with the search results in the collection of the search results based on the set of search results in search results are sorted and the sorted set of search results to users. The implementation method can improve the matching between search results and search statements, so as to meet the needs of users.

【技术实现步骤摘要】
信息处理方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及信息处理方法和装置。
技术介绍
随着互联网的快速发展,网络上的信息资源不断丰富,信息数据量也在飞速增长。在当今社会,通过搜索引擎来查找所需信息已成为现代人的主要信息获取方式。因此,搜索引擎在当今的主要发展方向是提升搜索的相关性,为用户提供更加便捷而有效的查询服务。
技术实现思路
本申请实施例的目的在于提出一种改进的信息处理方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请实施例提供了一种信息生成处理方法,该方法包括:获取与用户输入的搜索语句相关的搜索结果集合;对搜索语句进行句法分析,生成第一句法树,并对搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度,其中,语义匹配模型用于确定句法树之间的相似度;基于搜索语句与搜索结果集合中的各搜索结果的相似度,对搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给用户。在一些实施例中,基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度,包括:生成位于第一句法树的各叶子节点的词的目标词向量;基于第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成搜索语句的语义特征;对于第二句法树集合中的每个第二句法树,生成位于该第二句法树的各叶子节点的词的目标词向量,基于目标模型函数和该第二句法树中各词的目标词向量,生成该第二句法树对应的搜索结果的语义特征;计算搜索语句的语义特征与搜索结果集合中的各搜索结果的语义特征的相似度。在一些实施例中,基于第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成搜索语句的语义特征,包括:对于第一句法树中的每个叶子节点,响应于确定该叶子节点不是根节点,将位于该叶子节点的词的目标词向量作为语义匹配模型中的目标模型函数的参数,生成该叶子节点对应的子节点的节点函数;基于子节点的节点函数生成节点语义向量;确定子节点是否为根节点,响应于确定子节点不是根节点,执行如下步骤:将子节点的节点语义向量作为目标模型函数的参数,生成子节点对应的父节点的节点函数,基于父节点的节点函数生成节点语义向量,确定父节点是否为根节点,响应于确定父节点为根节点,基于父节点的节点函数和节点语义向量,生成搜索语句的语义特征;响应于确定父节点不是根节点,将父节点作为子节点,继续执行步骤。在一些实施例中,第一句法树中的各节点包含语义标签,其中,语义标签用于表征各词之间的语义关系;确定子节点是否为根节点,包括:确定子节点的语义标签是否与预设语义标签相匹配;若匹配,则确定子节点为根节点,若不匹配,则确定子节点不是根节点。在一些实施例中,方法还包括生成语义匹配模型的步骤,生成语义匹配模型的步骤包括:基于递归神经网络建立训练模型;获取样本搜索语句和与样本搜索语句相关的样本搜索结果集合,其中,样本搜索结果集合中包含被查阅的样本搜索结果和未被查阅的样本搜索结果;对样本搜索语句和样本搜索结果集合进行句法分析,分别生成第三句法树和第四句法树集合;基于第三句法树和第四句法树集合,对训练模型进行训练,得到语义匹配模型。在一些实施例中,基于第三句法树和第四句法树集合,对训练模型进行训练,包括:生成位于第三句法树的各叶子节点的词的初始词向量,并生成位于第四句法树集合中各第四句法树的叶子节点的词的初始词向量;执行如下训练步骤:基于训练模型中的初始模型函数、第三句法树中各词的初始词向量和各第四句法树中各词的初始词向量,生成样本搜索语句、被查阅的样本搜索结果和未被查阅的样本搜索结果的语义特征,分别计算样本搜索语句的语义特征与被查阅的样本搜索结果的语义特征、未被查阅的样本搜索结果的语义特征的相似度,并分别作为第一相似度和第二相似度,确定第一相似度与第二相似度之间的差值是否满足预设条件,响应于确定差值满足预设条件,将初始模型函数和初始词向量分别作为目标模型函数目标词向量;响应于确定差值不满足预设条件,更新训练模型中的初始模型函数和各词的初始词向量,将更新后的初始模型函数和更新后的各初始词向量分别作为初始模型函数和各词的初始词向量,继续执行训练步骤。在一些实施例中,更新训练模型中的初始模型函数和各词的初始词向量,包括:基于反传算法BPTS,更新训练模型中的初始模型函数和各词的初始词向量。在一些实施例中,获取与用户输入的搜索语句相关的搜索结果集合之前,方法还包括:接收用户输入的搜索语音;对搜索语音进行识别,生成搜索语句。第二方面,本申请实施例提供了一种信息处理装置,该装置包括:获取单元,配置用于获取与用户输入的搜索语句相关的搜索结果集合;分析单元,配置用于对搜索语句进行句法分析,生成第一句法树,并对搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;计算单元,配置用于基于第一句法树和第二句法树集合,在预先训练的语义匹配模型中,计算搜索语句与搜索结果集合中的各搜索结果的相似度,其中,语义匹配模型用于确定句法树之间的相似度;推送单元,配置用于基于搜索语句与搜索结果集合中的各搜索结果的相似度,对搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给用户。在一些实施例中,计算单元包括:第一生成子单元,配置用于生成位于第一句法树的各叶子节点的词的目标词向量;第二生成子单元,配置用于基于第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成搜索语句的语义特征;第三生成子单元,配置用于对于第二句法树集合中的每个第二句法树,生成位于该第二句法树的各叶子节点的词的目标词向量,基于目标模型函数和该第二句法树中各词的目标词向量,生成该第二句法树对应的搜索结果的语义特征;计算子单元,配置用于计算搜索语句的语义特征与搜索结果集合中的各搜索结果的语义特征的相似度。在一些实施例中,第二生成子单元进一步配置用于:对于第一句法树中的每个叶子节点,响应于确定该叶子节点不是根节点,将位于该叶子节点的词的目标词向量作为语义匹配模型中的目标模型函数的参数,生成该叶子节点对应的子节点的节点函数;基于子节点的节点函数生成节点语义向量;确定子节点是否为根节点,响应于确定子节点不是根节点,执行如下步骤:将子节点的节点语义向量作为目标模型函数的参数,生成子节点对应的父节点的节点函数,基于父节点的节点函数生成节点语义向量,确定父节点是否为根节点,响应于确定父节点为根节点,基于父节点的节点函数和节点语义向量,生成搜索语句的语义特征;响应于确定父节点不是根节点,将父节点作为子节点,继续执行上述步骤。在一些实施例中,第一句法树中的各节点包含语义标签,其中,语义标签用于表征各词之间的语义关系;第二生成子单元还配置用于:确定子节点的语义标签是否与预设语义标签相匹配;若匹配,则确定子节点为根节点,若不匹配,则确定子节点不是根节点。在一些实施例中,装置还包括生成语义匹配模型的生成单元,生成单元包括:建立子单元,配置用于基于递归神经网络建立训练模型;获取子单元,配置用于获取样本搜索语句和与样本搜索语句相关的样本搜索结果集合,其中,样本搜索结果集合中包含被查本文档来自技高网...
信息处理方法和装置

【技术保护点】
一种信息处理方法,其特征在于,所述方法包括:获取与用户输入的搜索语句相关的搜索结果集合;对所述搜索语句进行句法分析,生成第一句法树,并对所述搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;基于所述第一句法树和所述第二句法树集合,在预先训练的语义匹配模型中,计算所述搜索语句与所述搜索结果集合中的各搜索结果的相似度,其中,所述语义匹配模型用于确定句法树之间的相似度;基于所述搜索语句与所述搜索结果集合中的各搜索结果的相似度,对所述搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给所述用户。

【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:获取与用户输入的搜索语句相关的搜索结果集合;对所述搜索语句进行句法分析,生成第一句法树,并对所述搜索结果集合中的各搜索结果进行句法分析,生成第二句法树集合;基于所述第一句法树和所述第二句法树集合,在预先训练的语义匹配模型中,计算所述搜索语句与所述搜索结果集合中的各搜索结果的相似度,其中,所述语义匹配模型用于确定句法树之间的相似度;基于所述搜索语句与所述搜索结果集合中的各搜索结果的相似度,对所述搜索结果集合中的各搜索结果进行排序,并将排序后的搜索结果集合推送给所述用户。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一句法树和所述第二句法树集合,在预先训练的语义匹配模型中,计算所述搜索语句与所述搜索结果集合中的各搜索结果的相似度,包括:生成位于所述第一句法树的各叶子节点的词的目标词向量;基于所述第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成所述搜索语句的语义特征;对于所述第二句法树集合中的每个第二句法树,生成位于该第二句法树的各叶子节点的词的目标词向量,基于所述目标模型函数和该第二句法树中各词的目标词向量,生成该第二句法树对应的搜索结果的语义特征;计算所述搜索语句的语义特征与所述搜索结果集合中的各搜索结果的语义特征的相似度。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一句法树中各词的目标词向量和语义匹配模型中的目标模型函数,生成所述搜索语句的语义特征,包括:对于所述第一句法树中的每个叶子节点,响应于确定该叶子节点不是根节点,将位于该叶子节点的词的目标词向量作为语义匹配模型中的目标模型函数的参数,生成该叶子节点对应的子节点的节点函数;基于子节点的节点函数生成节点语义向量;确定子节点是否为根节点,响应于确定子节点不是根节点,执行如下步骤:将子节点的节点语义向量作为所述目标模型函数的参数,生成子节点对应的父节点的节点函数,基于父节点的节点函数生成节点语义向量,确定父节点是否为根节点,响应于确定父节点为根节点,基于父节点的节点函数和节点语义向量,生成所述搜索语句的语义特征;响应于确定父节点不是根节点,将父节点作为子节点,继续执行所述步骤。4.根据权利要求3所述的方法,其特征在于,所述第一句法树中的各节点包含语义标签,所述语义标签用于表征各词之间的语义关系;所述确定子节点是否为根节点,包括:确定子节点的语义标签是否与预设语义标签相匹配;若匹配,则确定子节点为根节点,若不匹配,则确定子节点不是根节点。5.根据权利要求2所述的方法,其特征在于,所述方法还包括生成语义匹配模型的步骤,所述生成语义匹配模型的步骤包括:基于递归神经网络建立训练模型;获取样本搜索语句和与所述样本搜索语句相关的样本搜索结果集合,其中,所述样本搜索结果集合中包含被查阅的样本搜索结果和未被查阅的样本搜索结果;对所述样本搜索语句和所述样本搜索结果集合进行句法分析,分别生成第三句法树和第四句法树集合;基于所述第三句法树和所述第四句法树集合,对所述训练模型进行训练,得到语义匹配模型。6.根据权利要求5所述的方法,其特征在于,所述基于所述第三句法树和所述第四句法树集合,对所述训练模型进行训练,包括:生成位于所述第三句法树的各叶子节点的词的初始词向量,并生成位于所述第四句法树集合中各第四句法树的叶子节点的词的初始词向量;执行如下训练步骤:基于所述训练模型中的初始模型函数、所述第三句法树中各词的初始词向量和各第四句法树中各词的初始词向量,生成所述样本搜索语句、被查阅的样本搜索结果和未被查阅的样本搜索结果的语义特征,分别计算所述样本搜索语句的语义特征与被查阅的样本搜索结果的语义特征、未被查阅的样本搜索结果的语义特征的相似度,并分别作为第一相似度和第二相似度,确定第一相似度与第二相似度之间的差值是否满足预设条件,响应于确定差值满足预设条件,将初始模型函数和初始词向量分别作为目标模型函数目标词向量;响应于确定差值不满足预设条件,更新所述训练模型中的初始模型函数和各词的初始词向...

【专利技术属性】
技术研发人员:王硕寰孙宇于佃海
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1