文本摘要生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：30228877 阅读：20 留言：0更新日期：2021-09-29 09:58

本申请实施例提供了一种文本摘要生成方法、装置、电子设备及存储介质，其中，该文本摘要生成方法包括：获取原始文本的向量化表示，对原始文本的向量化表示和预设的第一摘要目标进行第一个时刻的解码，得到第一字符，根据第一字符对第一摘要目标进行更新，得到第二摘要目标，获取第一个时刻的解码输出的第一状态信息，对第二摘要目标和第一状态信息进行第二个时刻的解码，得到第二字符，重复执行对上一个时刻的解码所输入的摘要目标进行更新以及获取上一个时刻的解码输出的第二状态信息，对更新后的摘要目标和所述第二状态信息进行当前时刻的解码的操作，直至得到第N字符，最终得到目标文本。本申请实施例有利于实现可控地生成文本摘要。成文本摘要。成文本摘要。

全部详细技术资料下载

【技术实现步骤摘要】
文本摘要生成方法、装置、电子设备及存储介质

[0001]本申请涉及机器学习
，尤其涉及一种文本摘要生成方法、装置、电子设备及存储介质。

技术介绍

[0002]互联网产生的文本数据的爆炸式增长使文本信息过载问题日益严重，而解决该问题的有效途径之一就是文本摘要。所谓文本摘要是指通过对原始文本进行信息压缩，提取出主要内容和思想，并进行适当改写，最终以一种简洁的文本内容形式呈现。目前针对文本摘要任务，通常采用深度学习中Seq2Seq模型(一种自然语言处理模型)和注意力机制，采用大规模的监督数据(比如一篇长文对应多个参考摘要)进行模型训练，通过训练好的模型直接将原始文本映射到文本摘要。然而，在不同场景下用户对生成的文本摘要往往有特定的要求，简而言之就是用户希望模型能够可控地生成文本摘要，但就目前来说这仍是一大难题。

技术实现思路

[0003]针对上述问题，本申请提供了一种文本摘要生成方法、装置、电子设备及存储介质，有利于实现可控地生成文本摘要。
[0004]为实现上述目的，本申请实施例第一方面提供了一种文本摘要生成方法，该方法包括：
[0005]对原始文本进行编码，得到所述原始文本的向量化表示；
[0006]对所述原始文本的向量化表示和预设的第一摘要目标进行第一个时刻的解码，得到第一字符；
[0007]根据所述第一字符对所述第一摘要目标进行更新，得到第二摘要目标；
[0008]获取所述第一个时刻的解码输出的第一状态信息，对所述第二摘要目标和所述第一状态信息进行第二个...

【技术保护点】

【技术特征摘要】
1.一种文本摘要生成方法，其特征在于，所述方法包括：对原始文本进行编码，得到所述原始文本的向量化表示；对所述原始文本的向量化表示和预设的第一摘要目标进行第一个时刻的解码，得到第一字符；根据所述第一字符对所述第一摘要目标进行更新，得到第二摘要目标；获取所述第一个时刻的解码输出的第一状态信息，对所述第二摘要目标和所述第一状态信息进行第二个时刻的解码，得到第二字符；重复执行对上一个时刻的解码所输入的摘要目标进行更新以及获取上一个时刻的解码输出的第二状态信息，对更新后的摘要目标和所述第二状态信息进行当前时刻的解码的操作，直至得到第N字符，由所述第一字符、所述第二字符至所述第N字符组成目标文本，其中，N为大于或等于2的整数。2.根据权利要求1所述的方法，其特征在于，所述第一摘要目标包括所述目标文本的长度和所述目标文本的内容风格得分，所述根据所述第一字符对所述第一摘要目标进行更新，得到第二摘要目标，包括：根据所述第一字符对所述目标文本的长度进行更新，得到更新后的长度；将所述第一字符与预设规则进行匹配，并调用奖励函数计算ROUGE指标得分和BLEU指标得分；根据所述ROUGE指标得分和所述BLEU指标得分对所述目标文本的内容风格得分进行更新，得到更新后的内容风格得分；由更新后的长度和更新后的内容风格得分组成所述第二摘要目标。3.根据权利要求2所述的方法，其特征在于，所述根据所述ROUGE指标得分和BLEU指标得分对所述目标文本的内容风格得分进行更新，得到更新后的内容风格得分，包括：调用所述奖励函数根据所述ROUGE指标得分和所述BLEU指标得分计算得到所述第一个时刻的解码的实际得分；将所述实际得分确定为所述奖励函数的反馈，采用所述目标文本的内容风格得分减去所述奖励函数的反馈，得到更新后的内容风格得分。4.根据权利要求3所述的方法，其特征在于，所述调用所述奖励函数根据所述ROUGE指标得分和所述BLEU指标得分计算得到所述第一个时刻的解码的实际得分，包括：调用所述奖励函数对所述ROUGE指标得分和所述BLEU指标得分进行求和，得到所述实际得分；或者，调用所述奖励函数对所述ROUGE指标得分和所述BLEU指标得分进行求和，将求和得到的值乘以预设系数得到所述实际得分。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述对所述原始文本的向量化表示和预设的第一摘要目标进行第一个时刻的解码，得到第一字符，包括：将所述原始文本的向量化表示和所述第一摘要目标输入训练好的策略函数模型进行所述第一个时刻的解码，得到预设词表上的概率分布；对所述概率分布进行采样得到所述第一字符；或者，根据所述概率分布将所述预设词表中概率最大的字符确定为所述第一字符。6.根据权利要求1
‑
4任一项所述的方法...

【专利技术属性】
技术研发人员：王思瀚，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人