一种逐步文本生成方法、系统、计算机设备及存储介质技术方案

技术编号：37125358 阅读：17 留言：0更新日期：2023-04-01 05:21

本发明专利技术涉及一种逐步文本生成方法、系统、计算机设备及存储介质，涉及自然语言领域，该方法包括获取原始语料，从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型；通过训练好的序列标注模型构建当前语料对应的文本描述短句；将所述文本描述短句中随机位置的文本替换为掩码标记，构建生成预测模型的输入数据，通过所述输入数据对所述预测模型训练，其中，所述预测模型的目标输出数据为文本描述短句对应的原始语料；根据输入的多个卖点信息，使用训练好的预测模型进行逐步推理，得到完整的目标输出文本。本发明专利技术从现有无监督语料中挖掘积累卖点表达短句，利用模型对卖点短句进行文本改写，提升生成文本的逻辑性。提升生成文本的逻辑性。提升生成文本的逻辑性。

全部详细技术资料下载

【技术实现步骤摘要】
一种逐步文本生成方法、系统、计算机设备及存储介质

[0001]本专利技术涉及自然语言领域，特别是涉及一种逐步文本生成方法、系统、计算机设备及存储介质。

技术介绍

[0002]在自然语言领域，自然语言生成又称文本生成，是自然语言处理领域的重要研究内容。随着计算机技术的进步及信息时代的发展，互联网上的信息呈现爆发式增长，各行各业涉及到的高频内容生产和处理工作的都希望内容生产的速度快、质量高、数量多。而随着自然语言生成技术的成熟，逐渐将深度学习应用于文本生成。
[0003]随着深度学习的发展，循环神经网络(RNN)通过极大似然估计的方式，在模型训练的时能够很好地通过反向传播更新参数，并获得跟训练集极为相似的结果。Transformer模型的建立是基于注意力机制，相比循环神经网络等模型依次序列计算，Transformer可以更好地捕捉长文本的语义特征，并且支持并行运行，基于此框架提出的GPT、BERT等模型让自然语言生成领域在近年来又取得突破性进展。预训练模型主要学习词的上下文表示，根据不同的序列预测方式可分为自编码和自回归两种语言模型。Google提出的BERT模型是典型的自编码语言模型，其使用Transformer抽取特征，引入MLM(Masked Language Model)和NSP(Next Sentence Prediction)预训练目标，能够获取上下文相关的双向特征表示，从而处理句子或者段落的匹配任务。
[0004]但是，该模型预训练过程中和生成过程中的不一致导致其在生成任务效果不佳。自回归语...

【技术保护点】

【技术特征摘要】
1.一种逐步文本生成方法，其特征在于，包括：获取原始语料，从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型；通过训练好的序列标注模型构建当前语料对应的文本描述短句；将所述文本描述短句中随机位置的文本替换为掩码标记，构建生成预测模型的输入数据，通过所述输入数据对所述预测模型训练，其中，所述预测模型的目标输出数据为文本描述短句对应的原始语料；根据输入的多个卖点信息，使用训练好的预测模型进行逐步推理，得到完整的目标输出文本。2.根据权利要求1所述的逐步文本生成方法，其特征在于，从所述原始语料中抽取包含卖点信息的描述短句，包括：采用无监督算法抽取所述原始语料中的关键词；基于抽取的所述关键词梳理卖点信息，从原始语料中抽取包含卖点信息的描述短句，人工梳理确认包含关键词的描述短句。3.根据权利要求2所述的逐步文本生成方法，其特征在于，从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型，还包括：通过训练好的序列标注模型离线挖掘所述描述短句的短句模板，并与所述卖点信息建立关联关系。4.根据权利要求3所述的逐步文本生成方法，其特征在于，通过训练好的序列标注模型构建当前语料对应的文本描述短句时，所述当前语料中包含建立有卖点信息关联关系的平行卖点数据。5.根据权利要求1所述的逐步文本生成方法，其特征在于，将所述文本描述短句中随机位置的文本替换为掩码标记，构建生成预测模型的输入数据，包括：基于训练好的序列标注模型抽取文本描述短句；在所述文本描述短句的非首句位随机选中部分短句替换为[s]提示符的掩码标记；构建生成预测模型的输入数据。6.根据权利要求1所述的逐步文本生成方法，其特征在于，根据输入的多个卖点信息，使用训练好的预测模型进行逐步推理，还包括：基于规则引擎对输入的多个卖点信息进行文本...

【专利技术属性】
技术研发人员：朱琳，
申请(专利权)人：广东爱因智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人