对搜索条目进行排序的方法及系统技术方案

技术编号:11415196 阅读:74 留言:0更新日期:2015-05-06 15:04
本发明专利技术提供一种对搜索条目进行排序的方法及系统,所述方法包括:通过神经网络将查询文本按照语序表示成向量;根据所述表示出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数;根据所述计算出的排序分数对所述搜索条目进行排序。通过采用本发明专利技术可以兼顾一词多义与近义词的匹配以及词的语序来进行搜索排序,能够给出更为准确的排序结果。

【技术实现步骤摘要】
对搜索条目进行排序的方法及系统
本专利技术涉及通信领域,更为具体而言,涉及对搜索条目进行排序的方法及系统。
技术介绍
针对用户所输入的查询文本,给用户返回排序的搜索结果是搜索引擎系统的基础。其中计算用户输入的查询文本与待排序的搜索条目之间的排序分数是搜索引擎系统的核心问题。传统的计算查询文本与搜索条目之间的排序分数的方法是通过计算查询文本与搜索条目这两个字符串中所包含的词完全匹配上的程度,即这两个文本串的相似度,来计算查询文本与搜索条目之间的排序分数。但是这种基于词的字面上的匹配程度来计算排序分数的方法,并没有能考察到词的一词多义以及近似词的匹配,也没有考察到词的顺序问题。近年来,随着深度学习技术的发展,出现了利用DNN(DeepNeuralNetwork,深度神经网络)技术来学习词的向量表示(把词表示为一个实数组成的向量),通过计算由词向量组成的查询文本与搜索条目之间的相似度来计算查询文本与搜索条目之间的排序分数的方法。这种方法一般通过一个FeedForwardNeuralNetwork(前馈神经网络)来把查询文本与搜索条目中的词都映射到一个低维的向量空间当中;简单的把查询文本中的所有词的词向量相加得到查询文本的向量表示,把搜索条目中的所有的词的词向量也相加得到搜索条目的向量表示,通过计算这两个向量表示之间的相似度来作为查询文本与搜索条目之间的排序分数。这种方法虽然从一定程度上解决了传统方法当中的一词多义与近义词的问题,但是,因为忽略了词在查询文本与搜索条目当中的位置信息,因此不能解决查询文本与搜索条目中的词的顺序不同所带来的差异,例如:查询文本1:“我爱百度”与查询文本2:“百度爱我”两个查询文本的向量表示是一样的,因此会针对同样的搜素条目,给出同样的排序分数。
技术实现思路
为有效地解决上述技术问题,本专利技术提供了一种对搜索条目进行排序的方法及系统。一方面,本专利技术的实施方式提供了一种对搜索条目进行排序的方法,所述方法包括:通过神经网络将查询文本按照语序表示成向量;根据所述表示出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数;根据所述计算出的排序分数对所述搜索条目进行排序。另一方面,本专利技术的实施方式还提供了一种对搜索条目进行排序的系统,所述系统包括:表示模块,用于通过神经网络将查询文本按照语序表示成向量;计算模块,用于根据所述表示模块所表述出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数;排序模块,用于根据所述计算模块所计算出的排序分数对所述搜索条目进行排序。实施本专利技术提供的对搜索条目进行排序的方法及系统可以兼顾一词多义与近义词的匹配以及词的语序来进行搜索排序,能够给出更为准确的排序结果。附图说明图1是根据本专利技术实施方式的一种对搜索条目进行排序的方法的流程图;图2示出了图1所示的步骤S110的一种实施方式;图3示出了图1所示的步骤S120的一种实施方式;图4是根据本专利技术实施方式的另一种对搜索条目进行排序的方法的框架图;图5是根据本专利技术实施方式的神经网络中的编码网络的结构示意图;图6是根据本专利技术实施方式的神经网络中的解码网络的结构示意图;图7是根据本专利技术实施方式的一种对搜索条目进行排序的系统的结构示意图;图8示出了图7所示的表示模块110的一种实施方式。具体实施方式为使本专利技术的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述。图1是根据本专利技术实施方式的一种对搜索条目进行排序的方法的流程图。参见图1,所述方法包括:S110:通过神经网络将查询文本按照语序表示成向量。其中,神经网络又称人工神经网络,是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型,可以用电子线路来实现,也可以用计算机程序来模拟,是人工智能研究的一种方法。S120:根据所述表示出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数。S130:根据所述计算出的排序分数对所述搜索条目进行排序。在上述实施方式中,通过将查询文本按照语序表示成向量可以实现兼顾一词多义与近义词的匹配以及词的语序来进行搜索排序,能够给出更为准确的排序结果。在本专利技术的实施方式中,在执行步骤S110前,可以预先训练出所述神经网络的模型参数,具体地,可以通过以下方式实现,首选获取训练数据,其次根据所述获取的训练数据通过损失函数训练出所述模型参数。其中,在本专利技术的实施方式中,所述训练数据可以包括:查询文本以及所述查询文本所对应的搜索条目;所述损失函数是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数,示例性地,在本专利技术的实施方式中,可以采用损失函数中的对数损失函数,当然,本专利技术不限于此,本领域的技术人员可以根据实际需要采用损失函数中的0-1损失函数、平方损失函数、绝对损失函数等。在本专利技术的一种优选的实施方式,在训练出所述神经网络的模型参数的过程中,还可以通过SGD(StochasticGradientDescent,随机梯度下降)算法以及反向传播算法对所述模型参数进行优化。其中,SGD算法的思想是通过计算某一组训练数据的梯度(模型参数的偏导数),来迭代更新随机初始化过的参数;更新的方法是每次让参数减去所设置的一个学习率(learningrate)乘以计算出的梯度,从而在多次迭代之后可以让神经网络根据模型参数所计算出的值,与实际值之间的差在所定义的损失函数上最小化。反向传播算法是一种有效的计算梯度的方法。如图2所示,所述步骤S110可以通过以下步骤实现:S111:按照语序将所述查询文本的词序列中的各词输入到所述神经网络的编码网络。S112:根据所述语序将所述输入的各词循环映射到一个向量空间。S113:将所述循环映射结束时所得到的向量转化为所述查询文本的向量表示。其中,在本专利技术的实施方式中,步骤S112可以通过以下方式实现:首先,将所述输入的各词分别转化为对应的词向量,其中,所述输入的各词表示为wi,所述转化后的词向量表示为C(wi),i=1,…,T,T为所述查询文本的词序列的长度;其次,通过公式(1)将所述词向量循环映射到一个向量空间,[hi]j=[LSTM(W,U)(C(wi),hi-1)]j(1)其中[hi]j为向量hi中的第j个元素,W,U为参数矩阵,LSTM(W,U)表示通过一种递归神经网络架构LSTM根据参数矩阵W,U进行数值运算。其中,LSTM(longshorttermmemory,一种递归神经网络架构)包括一些LSTM块来代替常规的网络单元,或者在常规的网络单元以外还包括一些LSTM块,LSTM块可以作为一个能够记住任意长度时间的值的“智能”网络单元,一个LSTM块包括一些电路,这些电路可以决定何时输入的数据对于记住该值已经足够重要,何时继续记住或忘记这个值,以及何时输出所述值。并且,步骤S113可以通过公式(2)将所述循环映射结束时所得到的向量转化为所述查询文本的向量,Context=tanhVhT)(2)其中,hT表示循环映射结束时所得到的向量,Context表示所述查询文本的向量,V为参数矩阵。如图3所示,所述步骤S120可以通过以下步骤实现:S121:根据所述表示出的向量通过所述神经网络的解码网络计算在给定本文档来自技高网
...
对搜索条目进行排序的方法及系统

【技术保护点】
一种对搜索条目进行排序的方法,其特征在于,所述方法包括:通过神经网络将查询文本按照语序表示成向量;根据所述表示出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数;根据所述计算出的排序分数对所述搜索条目进行排序。

【技术特征摘要】
1.一种对搜索条目进行排序的方法,其特征在于,所述方法包括:通过神经网络将查询文本按照语序表示成向量;根据所述表示出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数;根据所述计算出的排序分数对所述搜索条目进行排序。2.如权利要求1所述的方法,其特征在于,所述方法还包括:在执行通过神经网络将查询文本按照语序表示成向量的步骤前,训练出所述神经网络的模型参数。3.如权利要求2所述的方法,其特征在于,训练出所述神经网络的模型参数包括:获取训练数据;根据所述获取的训练数据通过损失函数训练出所述模型参数。4.如权利要求3所述的方法,其特征在于,所述训练数据包括:查询文本以及所述查询文本所对应的搜索条目。5.如权利要求3或4所述的方法,其特征在于,所述损失函数包括:对数损失函数。6.如权利要求5所述的方法,其特征在于,训练出所述神经网络的模型参数还包括:通过随机梯度下降法以及反向传播算法对所述模型参数进行优化。7.如权利要求1所述的方法,其特征在于,通过神经网络将查询文本按照语序表示成向量包括:按照语序将所述查询文本的词序列中的各词输入到所述神经网络的编码网络;根据所述语序将所述输入的各词循环映射到一个向量空间;将所述循环映射结束时所得到的向量转化为所述查询文本的向量表示。8.如权利要求1所述的方法,其特征在于,根据所述表示出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数包括:根据所述表示出的向量通过所述神经网络的解码网络计算在给定所述查询文本的条件下生成所述搜索条目的概率,并将所述计算出的概率作为所述查询文本与所述搜索条目之间的排序分数。9.一种对搜索条目进行排...

【专利技术属性】
技术研发人员:张军徐晓明吴先超和为刘占一于佃海
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1