当前位置: 首页 > 专利查询>南京大学专利>正文

一种混合逐点策略和成对策略的文本排序方法技术

技术编号:19277415 阅读:23 留言:0更新日期:2018-10-30 17:59
本发明专利技术公开了一种混合逐点策略和成对策略的文本排序方法,涉及一种在对句子,句法树等样本排序的过程中更好地利用样本之间的差异信息的排序方法,包括:逐点排序阶段,成对排序阶段。逐点排序阶段对样本进行打分并做第一次排序,并筛选出得分较高的候选,在这些候选基础上,进一步对其进行成对排序阶段,其中成对策略排序采用了一种编码、参照生成、对比、再编码、打分的流程,在参照过程中设计了一种基于跨度的节点加权方法,一种跨度和注意力机制相结合的方法,最后根据样本的基础得分和逐点排序得分,成对排序阶段得分进行综合排序。

A text ordering method based on mixed point by point policy and pairwise strategy

The invention discloses a text sorting method which combines a point-by-point strategy with a strategy of forming a pair, and relates to a sorting method which better utilizes the difference information between samples in the process of sorting sentences, syntax trees and other samples, including a point-by-point sorting stage and a pair sorting stage. In the point-by-point sorting stage, the samples are scored and sorted for the first time, and the candidates with higher scores are screened out. On the basis of these candidates, the paired sorting stage is further carried out. A process of coding, reference generation, comparison, re-coding and scoring is adopted in the paired sorting stage. A span-based node weighting method is proposed, which combines span with attention mechanism. Finally, according to the basic score of the sample and point-by-point sorting score, paired sorting stage scores are synthetically sorted.

【技术实现步骤摘要】
一种混合逐点策略和成对策略的文本排序方法
本专利技术属于计算机排序学习领域,涉及一种混合逐点策略和成对策略的文本排序方法。
技术介绍
排序学习是在处理排序问题时采用利用机器学习方法来训练模型的方法。排序学习可以应用在信息检索、自然语言处理、数据挖掘等方面。排序学习的研究一直是信息检索领域的热点和难点。排序学习将学习任务分为三中策略:逐点策略(pointwise),成对策略(pairwise),列表策略(listwise)。在逐点策略中,排序问题被转化为分类、回归、或者顺序分类问题。因此,排序的结构化在这种方式中会被忽略。在成对策略中,将样本组成样本对,不考虑单个文档,而是考虑样本对之间的关系。逐点方法将训练集里面每个样本当做训练实例,对比方法将样本对作为训练实例。在机器翻译,句法分析任务中,翻译结果和句法树结果是由一步一步的搜索决策得到,通常采用柱搜索方法来解码,在搜索结束后的候选集里,往往存在比模型的预测结果更好的结果。在最后的候选集中选出更好的样本是一个有前景的优化方向,与优化模型不同的是,待候选集中是许多完整的样本,模型能够更好的根据其全局信息来对样本进行排序,而不仅仅局限于局部特征。
技术实现思路
专利技术目的:本专利技术提供一种混合逐点策略和成对策略的文本排序方法。逐点策略会根据样本本身的结构特征为其打分,它能很好的建模单个样本的结构,而成对策略则更加关注两个样本之间差异和联系,通过结合两者的优点,来提高排序器性能。本专利技术公开了一种混合逐点策略和成对策略的文本排序方法,包括如下步骤:步骤1对句子或者句法树进行排序,其中包含的节点分别为词或树节点,初始时样本有个基础得分,此得分来自于原有的模型。使用逐点排序模型对样本进行排序,在逐点策略排序完的结果上,得到逐点排序阶段的得分,选取K个得分较高的样本组成候选集,使用成对排序模型对候选集进行打分排序;步骤2,对K个样本组成的候选集进行成对策略排序,得到样本在成对排序阶段的得分;步骤3,综合逐点排序阶段的得分、成对排序阶段的得分和样本的基础得分对样本进行加权排序。步骤1包括:步骤1-1,采用编码器对样本进行编码,得到每个节点的连续型表示,即将样本集合x={x1,…,xi,…,xn},转换为h={h1,…,hi,…,hn}隐层表示,xn表示样本集合中第n个节点,节点又称为单元,hn表示通过编码得到xn的隐层表示;所述编码器为结构递归神经网络RecursiveNeuralNetwork或树形长短期记忆网络Tree-LSTM或双向长短期记忆网络Bi-LSTM。步骤1-2,将隐层表示进行线性变换得到样本中每个单元的得分,将所有单元的得分求和就得到了样本的得分Spointwise:其中V1为模型参数,用于在逐个点排序阶段将节点表示通过线性变换转换为得分;步骤1-3,计算得到样本逐点排序阶段的得分S1:S1=α*Spointwise+(1-α)*Sbase,其中,α表示超参数,此超参数通过在开发集数据上调节得到,Sbase为样本的基础得分,基础得分来源于生成样本的基线系统;步骤1-4,通过步骤1-3得到的得分对样本进行排序,选取K个得分较高的样本组成候选集,K为超参数,一般设为8,并将K个样本组合成样本对,一共K*(K-1)/2个样本对。步骤2包括:步骤2-1,K个样本中的样本A和样本B组成样本对<A,B>,采用编码器将样本对<A,B>中的节点编码成隐层向量表示;步骤2-2,在样本对中进行比较得到节点的参照向量;步骤2-3,根据节点的隐层向量和参照向量得到比较后的新的向量表示;步骤2-4,通过编码器为步骤2-3得到的向量表示进行编码;相当于将神经网络作用于对比两个样本后的表示向量上再一次编码,使得网络能够捕获并归纳两个样本之间的差异信息。步骤2-5,得到样本对<A,B>的相对得分,综合K个样本中所有样本对的相对打分得到样本在成对排序阶段的得分。步骤2-1中,所述编码器为结构递归神经网络RecursiveNeuralNetwork或树形长短期记忆网络Tree-LSTM或双向长短期记忆网络Bi-LSTM。步骤2-2包括:基于注意力机制(AttentionMechanism),通过如下公式计算样本A中的节点ai的参照向量其中,n表示样本A节点的个数,bj表示样本B中的第j个节点,eij表示节点ai和bj的相关度。步骤2-2中还可以通过如下公式计算样本A中的节点ai的参照向量其中span()函数表示获取节点x所包括的叶子节点的范围区间,len()函数表示获取节点所包括的叶子节点数目,b表示样本B中包含在区间span(ai)区间的某个节点,该方法为基于跨度的节点加权方法,适用于句法树的重排序,是指在句法树中,可以根据每个内部节点的跨度,也就是包含的叶子节点的范围,来建立两个样本之间的对立关系,对于样本对<A,B>,A中节点a的参照向量由B中所有在a的跨度包含的范围内的节点表示加权而得。步骤2-2中,还可以通过如下公式计算样本A中的节点ai的参照向量其中span()函数表示获取节点所包括的叶子节点的范围区间,b表示样本B中区间span(ai)包含的某个节点,e表示节点ai和b的相关度。该方法为跨度和注意力机制相结合的方法,同样也只适用于样本为句法树,是指对于样本对<A,B>,在使用注意力机制为A中节点ai生成参照向量的时候,将注意力机制关注的范围限定在ai的跨度区间内避免不相关的信息。步骤2-3包括:通过如下公式得到新的向量表示或者采用如下公式得到新的向量表示其中g1、g2分别表示两个门结构单元的输出向量,用来控制信息流,⊙表示两个同维度的向量每个维度相乘,其中W1和b1,W2和b1分别为两个门结构的参数,σ为激活函数,其中模型中的所有参数都通过随机梯度下降SGD和训练而得,训练目标常常采用最大间隔结构化预测训练目标(参考文献:Socher,Richard,etal."ParsingwithCompositionalVectorGrammars."MeetingoftheAssociationforComputationalLinguistics2013:455-465.)。步骤2-4包括:步骤2-3一共得到n个向量表示,记为为第n个向量表示,l取值为1~n,将步骤2-3得到的向量表示使用编码器再一次编码得到新的向量{m,…,mi,…,mn},mn表示编码后的新的向量表示。步骤2-5包括:将步骤2-4的编码结果进行线性变换得到样本中每个节点的得分,将所有节点的得分求和就得到了样本的一个相对得分其中V2为模型参数,用于在成对排序阶段对隐层表示做线性变换得到节点打分,mi为参照向量再一次编码后得到的向量表示,然后将A与所有其他样本的相对得分求和即可得到样本A在成对排序阶段的得分,为每个样本的成对排序阶段的得分记为Spairwise。步骤3包括:综合逐点排序阶段的得分、成对排序阶段的得分和样本的基础得分,通过如下方式方式进行加权排序,并将得分最高的树最终排序结果S2输出,其中α,β为超参数,通过在小部分数据集上调节并取最优结果得到:S2=α*S本文档来自技高网...

【技术保护点】
1.一种混合逐点策略和成对策略的文本排序方法,其特征在于,包括如下步骤:步骤1,使用逐点排序模型对样本进行排序,在逐点策略排序完的结果上,得到逐点排序阶段的得分,选取K个得分较高的样本组成候选集,K为预先设定的超参数,使用成对排序模型对候选集进行打分排序;步骤2,对K个样本组成的候选集进行成对策略排序,得到样本在成对排序阶段的得分;步骤3,综合逐点排序阶段的得分、成对排序阶段的得分和样本的基础得分对样本进行加权排序。

【技术特征摘要】
1.一种混合逐点策略和成对策略的文本排序方法,其特征在于,包括如下步骤:步骤1,使用逐点排序模型对样本进行排序,在逐点策略排序完的结果上,得到逐点排序阶段的得分,选取K个得分较高的样本组成候选集,K为预先设定的超参数,使用成对排序模型对候选集进行打分排序;步骤2,对K个样本组成的候选集进行成对策略排序,得到样本在成对排序阶段的得分;步骤3,综合逐点排序阶段的得分、成对排序阶段的得分和样本的基础得分对样本进行加权排序。2.根据权利要求1所述的方法,其特征在于,步骤1包括:步骤1-1,采用编码器对样本进行编码,得到每个节点的连续型表示,即将样本x={x1,…,xi,…,xn},转换为h={h1,…,hi,…,hn}隐层表示,xi表示样本中第i个节点,节点又称为单元,hi表示通过编码得到xi的隐层表示;所述编码器为结构递归神经网络RecursiveNeuralNetwork或树形长短期记忆网络Tree-LSTM或双向长短期记忆网络Bi-LSTM;步骤1-2,将隐层表示进行线性变换得到样本中每个单元的得分,将所有节点的得分求和就得到了样本的得分Spointwise,其中n表示单个样本中的节点个数:其中V1为模型参数,用于在逐个点排序阶段将节点表示通过线性变换转换为得分;步骤1-3,计算得到样本逐点排序阶段的加权得分S1:S1=α*Spointwise+(1-α)*Sbase,其中,α表示超参数,此超参数通过在开发集数据上调节得到,Sbase为样本的基础得分,基础得分来源于生成样本的基线系统;步骤1-4,通过步骤1-3得到的加权得分对样本进行排序,选取K个得分较高的样本组成候选集,K为超参数,并将K个样本组合成样本对,一共K*(K-1)/2个样本对。3.根据权利要求2所述的方法,其特征在于,步骤2包括:步骤2-1,K个样本中的样本A和样本B组成样本对<A,B>,采用编码器将样本对<A,B>中的节点编码成隐层向量表示;步骤2-2,在样本对中进行比较得到节点的参照向量;步骤2-3,根据节点的隐层向量和参照向量得到比较后的新的向量表示;步骤2-4,通过编码器为步骤2-3得到的向量表示进行编码;步骤2-5,得到样本对<A,B>的相对得分,综合K个样本中所...

【专利技术属性】
技术研发人员:黄书剑王琦戴新宇张建兵尹存燕陈家骏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1