摘要抽取方法、装置及计算机设备制造方法及图纸

技术编号:22295497 阅读:20 留言:0更新日期:2019-10-15 04:38
本申请涉及一种摘要抽取方法、装置及计算机设备,获取待抽取文本;基于神经网路模型的句子编码器,确定待抽取文本中各句子属于文本摘要的预测概率;通过神经网络模型的句子抽取器,基于预测概率确定属于待抽取文本的文本摘要的目标句子集;其中,神经网络模型的确定过程包括:获取样本记录,每条样本记录包括样本文本以及众包标注,众包标注包括至少两个标注人员对样本文本进行标注的标注结果;根据标注结果以及学习过程中针对样本文本得到的学习结果,确定回报函数值;基于回报函数值与学习结果,确定句子抽取器及句子编码器。如此,使得摘要抽取的方式多样化,从而,提高摘要抽取的泛化性。

Extraction method, device and computer equipment

【技术实现步骤摘要】
摘要抽取方法、装置及计算机设备
本申请涉及计算机信息处理
,特别是涉及一种摘要抽取方法、装置及计算机设备。
技术介绍
随着信息技术的飞速发展,信息处理技术的应用已经深入到生活的方方面面。比如,摘要抽取技术被广泛运用于自动抽取文本核心内容的场景下,如新闻摘要、文章摘要等。抽取到的文本摘要能言简意赅地指明文章内容,提高用户的阅读效率,也可用于用户画像。相比生成式摘要,抽取式摘要不对原文句子做任何改写,更符合原文语境,且从算法实现看,抽取式摘要仅需要对文章句子进行抽取,不需要重新改写,所以更适合大规模应用。传统的摘要抽取方式,在模型的训练过程中所采用的样本标签的获取方式一般有两种:(1)通过人工直接对句子进行标注;(2)通过人写的生成式摘要,给每个句子算打分,然后划分一个阈值,将打分高的句子作为目标句子。这两种方式都存在一个问题:摘要抽取的方式被唯一化。事实上,很多文章的摘要并不唯一,比如对于体育新闻,既可以抽取比赛队伍和得分,也可以抽取文章评论员对比赛的精彩点评,也可以围绕标题里提到的某个巨星,抽取相关片段。从用户的角度看,这些抽取方式都是可接受的。因此,传统的摘要抽取方式具有较差的泛化性。所以我们的模型要具有良好的泛化性,即可以产生更丰富的摘要内容,而不只是局限在某一个标准答案上。
技术实现思路
基于此,有必要针对上述技术问题,提供一种提高摘要抽取准确性的摘要抽取方法、装置、计算机设备和存储介质。一种摘要抽取方法,所述方法包括:获取待抽取文本;基于神经网路模型的句子编码器,确定所述待抽取文本中各句子属于文本摘要的预测概率;通过神经网络模型的句子抽取器,基于所述预测概率确定属于所述待抽取文本的文本摘要的目标句子集;其中,所述神经网络模型的确定过程包括:获取样本记录,每条所述样本记录包括样本文本以及众包标注,所述众包标注包括至少两个标注人员对所述样本文本进行标注的标注结果;根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果,确定回报函数值;基于所述回报函数值与所述学习结果,确定所述句子抽取器及所述句子编码器。在其中一个实施例中,所述根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果,确定回报函数值,包括:根据学习过程中针对所述样本文本得到的学习结果,确定所述样本文本中属于文本摘要的目标学习句集;根据所述目标学习句集与所述标注结果交集中句子的数量,与所述标注结果中句子的数量,确定命中概率;根据所述命中概率,确定回报函数值。在其中一个实施例中,所述根据所述目标学习句集与所述标注结果交集中句子的数量,与所述标注结果中句子的数量,确定命中概率,包括:确定所述目标学习句集分别与各所述标注结果的交集句子数量;根据所述交集句子数量与所述标注结果中句子的数量,确定针对所述标注人员的命中概率。在其中一个实施例中,所述根据所述命中概率,确定回报函数值,包括:当所述交集句子数量存在大于0的情况时,将非零的各所述命中概率分别作为底数进行指数运算,得到运算结果;所述指数运算的指数取值范围为(-1,0);对各所述运算结果求平均值,得到回报函数值。在其中一个实施例中,所述根据所述命中概率,确定回报函数值,包括:当各所述交集句子数量均等于0时,确定回报函数值等于预设负值。在其中一个实施例中,所述基于所述回报函数值与所述学习结果,确定所述句子抽取器及所述句子编码器,包括:根据所述学习结果,确定各种抽取模式的模式概率值;针对各种所述抽取模式,根据所述模式概率值与所述回报函数值的积,确定损失函数值;根据所述损失函数值,确定所述句子抽取器。在其中一个实施例中,所述根据所述学习结果,确定各种抽取模式的模式概率值,包括:根据所述学习结果,确定属于所述抽取模式下抽取的句子被抽取到的第一概率值;根据所述学习结果,确定不属于所述抽取模式下的句子未被抽取到的第二概率值;基于各所述第一概率值与各所述第二概率值,确定模式概率值。在其中一个实施例中,所述根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果,确定回报函数值,包括:对所述样本记录进行监督训练,得到监督训练结果;基于所述监督训练结果,在学习过程中针对所述样本文本得到学习结果;根据所述标注结果以及所述学习结果,确定回报函数值。在其中一个实施例中,所述对所述样本记录进行监督训练,得到监督训练结果,包括:根据所述众包标注,确定标准标注;根据所述监督训练的学习结果与所述标准标注,确定损失函数值;根据所述损失函数值,确定监督训练结果。在其中一个实施例中,所述根据所述众包标注,确定标准标注,包括:确定样本文本中各句子,在所述众包标注中被标注的标注次数;将所述标注次数大于预设次数的句子,确定为所述样本文本的标准标注所标注的句子。一种摘要抽取装置,所述装置包括:文本获取模块,用于获取待抽取文本;概率预测模块,用于基于神经网路模型的句子编码器,确定所述待抽取文本中各句子属于文本摘要的预测概率;摘要确定模块,用于通过神经网络模型的句子抽取器,基于所述预测概率确定属于所述待抽取文本的文本摘要的目标句子集;模型训练模块,包括样本记录获取单元、回报值确定单元以及参数更新单元;所述样本记录获取单元,用于获取样本记录,每条所述样本记录包括样本文本以及众包标注,所述众包标注包括至少两个标注人员对所述样本文本进行标注的标注结果;所述回报值确定单元,用于根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果,确定回报函数值;所述参数更新单元,用于基于所述回报函数值与所述学习结果,确定所述句子抽取器及所述句子编码器。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下的步骤:获取待抽取文本;基于神经网路模型的句子编码器,确定所述待抽取文本中各句子属于文本摘要的预测概率;通过神经网络模型的句子抽取器,基于所述预测概率确定属于所述待抽取文本的文本摘要的目标句子集;其中,所述神经网络模型的确定过程包括:获取样本记录,每条所述样本记录包括样本文本以及众包标注,所述众包标注包括至少两个标注人员对所述样本文本进行标注的标注结果;根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果,确定回报函数值;基于所述回报函数值与所述学习结果,确定所述句子抽取器及所述句子编码器。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下的步骤:获取待抽取文本;基于神经网路模型的句子编码器,确定所述待抽取文本中各句子属于文本摘要的预测概率;通过神经网络模型的句子抽取器,基于所述预测概率确定属于所述待抽取文本的文本摘要的目标句子集;其中,所述神经网络模型的确定过程包括:获取样本记录,每条所述样本记录包括样本文本以及众包标注,所述众包标注包括至少两个标注人员对所述样本文本进行标注的标注结果;根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果,确定回报函数值;基于所述回报函数值与所述学习结果,确定所述句子抽取器及所述句子编码器。上述的摘要抽取方法、装置、计算机设备及存储介质,获取待抽取文本;基于神经网路模型的句子编码器,确定待抽取文本中各句子属于文本摘要的预测概率;通过神经网络模型的句子抽取器,基于预测概率确定属于待抽取文本的文本摘要本文档来自技高网...

【技术保护点】
1.一种摘要抽取方法,所述方法包括:获取待抽取文本;基于神经网路模型的句子编码器,确定所述待抽取文本中各句子属于文本摘要的预测概率;通过神经网络模型的句子抽取器,基于所述预测概率确定属于所述待抽取文本的文本摘要的目标句子集;其中,所述神经网络模型的确定过程包括:获取样本记录,每条所述样本记录包括样本文本以及众包标注,所述众包标注包括至少两个标注人员对所述样本文本进行标注的标注结果;根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果,确定回报函数值;基于所述回报函数值与所述学习结果,确定所述句子抽取器及所述句子编码器。

【技术特征摘要】
1.一种摘要抽取方法,所述方法包括:获取待抽取文本;基于神经网路模型的句子编码器,确定所述待抽取文本中各句子属于文本摘要的预测概率;通过神经网络模型的句子抽取器,基于所述预测概率确定属于所述待抽取文本的文本摘要的目标句子集;其中,所述神经网络模型的确定过程包括:获取样本记录,每条所述样本记录包括样本文本以及众包标注,所述众包标注包括至少两个标注人员对所述样本文本进行标注的标注结果;根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果,确定回报函数值;基于所述回报函数值与所述学习结果,确定所述句子抽取器及所述句子编码器。2.根据权利要求1所述的方法,其特征在于,所述根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果,确定回报函数值,包括:根据学习过程中针对所述样本文本得到的学习结果,确定所述样本文本中属于文本摘要的目标学习句集;根据所述目标学习句集与所述标注结果交集中句子的数量,与所述标注结果中句子的数量,确定命中概率;根据所述命中概率,确定回报函数值。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标学习句集与所述标注结果交集中句子的数量,与所述标注结果中句子的数量,确定命中概率,包括:确定所述目标学习句集分别与各所述标注结果的交集句子数量;根据所述交集句子数量与所述标注结果中句子的数量,确定针对所述标注人员的命中概率。4.根据权利要求3所述的方法,其特征在于,所述根据所述命中概率,确定回报函数值,包括:当所述交集句子数量存在大于0的情况时,将非零的各所述命中概率分别作为底数进行指数运算,得到运算结果;所述指数运算的指数取值范围为(-1,0);对各所述运算结果求平均值,得到回报函数值。5.根据权利要求1所述的方法,其特征在于,所述基于所述回报函数值与所述学习结果,确定所述句子抽取器及所述句子编码器,包括:根据所述学习结果,确定各种抽取模式的模式概率值;针对各种所述抽取模式,根据所述模式概率值与所述回报函数值的积,确定损失函数值;根...

【专利技术属性】
技术研发人员:缪畅宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1