摘要抽取方法、装置及计算机设备制造方法及图纸

技术编号：22295497 阅读：20 留言：0更新日期：2019-10-15 04:38

本申请涉及一种摘要抽取方法、装置及计算机设备，获取待抽取文本；基于神经网路模型的句子编码器，确定待抽取文本中各句子属于文本摘要的预测概率；通过神经网络模型的句子抽取器，基于预测概率确定属于待抽取文本的文本摘要的目标句子集；其中，神经网络模型的确定过程包括：获取样本记录，每条样本记录包括样本文本以及众包标注，众包标注包括至少两个标注人员对样本文本进行标注的标注结果；根据标注结果以及学习过程中针对样本文本得到的学习结果，确定回报函数值；基于回报函数值与学习结果，确定句子抽取器及句子编码器。如此，使得摘要抽取的方式多样化，从而，提高摘要抽取的泛化性。

Extraction method, device and computer equipment

全部详细技术资料下载

【技术实现步骤摘要】
摘要抽取方法、装置及计算机设备
本申请涉及计算机信息处理
，特别是涉及一种摘要抽取方法、装置及计算机设备。
技术介绍
随着信息技术的飞速发展，信息处理技术的应用已经深入到生活的方方面面。比如，摘要抽取技术被广泛运用于自动抽取文本核心内容的场景下，如新闻摘要、文章摘要等。抽取到的文本摘要能言简意赅地指明文章内容，提高用户的阅读效率，也可用于用户画像。相比生成式摘要，抽取式摘要不对原文句子做任何改写，更符合原文语境，且从算法实现看，抽取式摘要仅需要对文章句子进行抽取，不需要重新改写，所以更适合大规模应用。传统的摘要抽取方式，在模型的训练过程中所采用的样本标签的获取方式一般有两种：(1)通过人工直接对句子进行标注；(2)通过人写的生成式摘要，给每个句子算打分，然后划分一个阈值，将打分高的句子作为目标句子。这两种方式都存在一个问题：摘要抽取的方式被唯一化。事实上，很多文章的摘要并不唯一，比如对于体育新闻，既可以抽取比赛队伍和得分，也可以抽取文章评论员对比赛的精彩点评，也可以围绕标题里提到的某个巨星，抽取相关片段。从用户的角度看，这些抽取方式都是可接受的。因此，传统的摘要抽取方式具有较差的泛化性。所以我们的模型要具有良好的泛化性，即可以产生更丰富的摘要内容，而不只是局限在某一个标准答案上。
技术实现思路
基于此，有必要针对上述技术问题，提供一种提高摘要抽取准确性的摘要抽取方法、装置、计算机设备和存储介质。一种摘要抽取方法，所述方法包括：获取待抽取文本；基于神经网路模型的句子编码器，确定所述待抽取文本中各句子属于文本摘要的预测概率；通过神经网络模型的句子抽取器，基于...

【技术保护点】
1.一种摘要抽取方法，所述方法包括：获取待抽取文本；基于神经网路模型的句子编码器，确定所述待抽取文本中各句子属于文本摘要的预测概率；通过神经网络模型的句子抽取器，基于所述预测概率确定属于所述待抽取文本的文本摘要的目标句子集；其中，所述神经网络模型的确定过程包括：获取样本记录，每条所述样本记录包括样本文本以及众包标注，所述众包标注包括至少两个标注人员对所述样本文本进行标注的标注结果；根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果，确定回报函数值；基于所述回报函数值与所述学习结果，确定所述句子抽取器及所述句子编码器。

【技术特征摘要】
1.一种摘要抽取方法，所述方法包括：获取待抽取文本；基于神经网路模型的句子编码器，确定所述待抽取文本中各句子属于文本摘要的预测概率；通过神经网络模型的句子抽取器，基于所述预测概率确定属于所述待抽取文本的文本摘要的目标句子集；其中，所述神经网络模型的确定过程包括：获取样本记录，每条所述样本记录包括样本文本以及众包标注，所述众包标注包括至少两个标注人员对所述样本文本进行标注的标注结果；根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果，确定回报函数值；基于所述回报函数值与所述学习结果，确定所述句子抽取器及所述句子编码器。2.根据权利要求1所述的方法，其特征在于，所述根据所述标注结果以及学习过程中针对所述样本文本得到的学习结果，确定回报函数值，包括：根据学习过程中针对所述样本文本得到的学习结果，确定所述样本文本中属于文本摘要的目标学习句集；根据所述目标学习句集与所述标注结果交集中句子的数量，与所述标注结果中句子的数量，确定命中概率；根据所述命中概率，确定回报函数值。3.根据权利要求2所述的方法，其特征在于，所述根据所述目标学习句集与所述标注结果交集中句子的数量，与所述标注结果中句子的数量，确定命中概率，包括：确定所述目标学习句集分别与各所述标注结果的交集句子数量；根据所述交集句子数量与所述标注结果中句子的数量，确定针对所述标注人员的命中概率。4.根据权利要求3所述的方法，其特征在于，所述根据所述命中概率，确定回报函数值，包括：当所述交集句子数量存在大于0的情况时，将非零的各所述命中概率分别作为底数进行指数运算，得到运算结果；所述指数运算的指数取值范围为(-1,0)；对各所述运算结果求平均值，得到回报函数值。5.根据权利要求1所述的方法，其特征在于，所述基于所述回报函数值与所述学习结果，确定所述句子抽取器及所述句子编码器，包括：根据所述学习结果，确定各种抽取模式的模式概率值；针对各种所述抽取模式，根据所述模式概率值与所述回报函数值的积，确定损失函数值；根...

【专利技术属性】
技术研发人员：缪畅宇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人