The invention discloses a text sorting method which combines a point-by-point strategy with a strategy of forming a pair, and relates to a sorting method which better utilizes the difference information between samples in the process of sorting sentences, syntax trees and other samples, including a point-by-point sorting stage and a pair sorting stage. In the point-by-point sorting stage, the samples are scored and sorted for the first time, and the candidates with higher scores are screened out. On the basis of these candidates, the paired sorting stage is further carried out. A process of coding, reference generation, comparison, re-coding and scoring is adopted in the paired sorting stage. A span-based node weighting method is proposed, which combines span with attention mechanism. Finally, according to the basic score of the sample and point-by-point sorting score, paired sorting stage scores are synthetically sorted.
【技术实现步骤摘要】
一种混合逐点策略和成对策略的文本排序方法
本专利技术属于计算机排序学习领域,涉及一种混合逐点策略和成对策略的文本排序方法。
技术介绍
排序学习是在处理排序问题时采用利用机器学习方法来训练模型的方法。排序学习可以应用在信息检索、自然语言处理、数据挖掘等方面。排序学习的研究一直是信息检索领域的热点和难点。排序学习将学习任务分为三中策略:逐点策略(pointwise),成对策略(pairwise),列表策略(listwise)。在逐点策略中,排序问题被转化为分类、回归、或者顺序分类问题。因此,排序的结构化在这种方式中会被忽略。在成对策略中,将样本组成样本对,不考虑单个文档,而是考虑样本对之间的关系。逐点方法将训练集里面每个样本当做训练实例,对比方法将样本对作为训练实例。在机器翻译,句法分析任务中,翻译结果和句法树结果是由一步一步的搜索决策得到,通常采用柱搜索方法来解码,在搜索结束后的候选集里,往往存在比模型的预测结果更好的结果。在最后的候选集中选出更好的样本是一个有前景的优化方向,与优化模型不同的是,待候选集中是许多完整的样本,模型能够更好的根据其全局信息来对样本进行排序,而不仅仅局限于局部特征。
技术实现思路
专利技术目的:本专利技术提供一种混合逐点策略和成对策略的文本排序方法。逐点策略会根据样本本身的结构特征为其打分,它能很好的建模单个样本的结构,而成对策略则更加关注两个样本之间差异和联系,通过结合两者的优点,来提高排序器性能。本专利技术公开了一种混合逐点策略和成对策略的文本排序方法,包括如下步骤:步骤1对句子或者句法树进行排序,其中包含的节点分别为词或树节点, ...
【技术保护点】
1.一种混合逐点策略和成对策略的文本排序方法,其特征在于,包括如下步骤:步骤1,使用逐点排序模型对样本进行排序,在逐点策略排序完的结果上,得到逐点排序阶段的得分,选取K个得分较高的样本组成候选集,K为预先设定的超参数,使用成对排序模型对候选集进行打分排序;步骤2,对K个样本组成的候选集进行成对策略排序,得到样本在成对排序阶段的得分;步骤3,综合逐点排序阶段的得分、成对排序阶段的得分和样本的基础得分对样本进行加权排序。
【技术特征摘要】
1.一种混合逐点策略和成对策略的文本排序方法,其特征在于,包括如下步骤:步骤1,使用逐点排序模型对样本进行排序,在逐点策略排序完的结果上,得到逐点排序阶段的得分,选取K个得分较高的样本组成候选集,K为预先设定的超参数,使用成对排序模型对候选集进行打分排序;步骤2,对K个样本组成的候选集进行成对策略排序,得到样本在成对排序阶段的得分;步骤3,综合逐点排序阶段的得分、成对排序阶段的得分和样本的基础得分对样本进行加权排序。2.根据权利要求1所述的方法,其特征在于,步骤1包括:步骤1-1,采用编码器对样本进行编码,得到每个节点的连续型表示,即将样本x={x1,…,xi,…,xn},转换为h={h1,…,hi,…,hn}隐层表示,xi表示样本中第i个节点,节点又称为单元,hi表示通过编码得到xi的隐层表示;所述编码器为结构递归神经网络RecursiveNeuralNetwork或树形长短期记忆网络Tree-LSTM或双向长短期记忆网络Bi-LSTM;步骤1-2,将隐层表示进行线性变换得到样本中每个单元的得分,将所有节点的得分求和就得到了样本的得分Spointwise,其中n表示单个样本中的节点个数:其中V1为模型参数,用于在逐个点排序阶段将节点表示通过线性变换转换为得分;步骤1-3,计算得到样本逐点排序阶段的加权得分S1:S1=α*Spointwise+(1-α)*Sbase,其中,α表示超参数,此超参数通过在开发集数据上调节得到,Sbase为样本的基础得分,基础得分来源于生成样本的基线系统;步骤1-4,通过步骤1-3得到的加权得分对样本进行排序,选取K个得分较高的样本组成候选集,K为超参数,并将K个样本组合成样本对,一共K*(K-1)/2个样本对。3.根据权利要求2所述的方法,其特征在于,步骤2包括:步骤2-1,K个样本中的样本A和样本B组成样本对<A,B>,采用编码器将样本对<A,B>中的节点编码成隐层向量表示;步骤2-2,在样本对中进行比较得到节点的参照向量;步骤2-3,根据节点的隐层向量和参照向量得到比较后的新的向量表示;步骤2-4,通过编码器为步骤2-3得到的向量表示进行编码;步骤2-5,得到样本对<A,B>的相对得分,综合K个样本中所...
【专利技术属性】
技术研发人员:黄书剑,王琦,戴新宇,张建兵,尹存燕,陈家骏,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。