一种逐步文本生成方法、系统、计算机设备及存储介质技术方案

技术编号:37125358 阅读:17 留言:0更新日期:2023-04-01 05:21
本发明专利技术涉及一种逐步文本生成方法、系统、计算机设备及存储介质,涉及自然语言领域,该方法包括获取原始语料,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型;通过训练好的序列标注模型构建当前语料对应的文本描述短句;将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。本发明专利技术从现有无监督语料中挖掘积累卖点表达短句,利用模型对卖点短句进行文本改写,提升生成文本的逻辑性。提升生成文本的逻辑性。提升生成文本的逻辑性。

【技术实现步骤摘要】
一种逐步文本生成方法、系统、计算机设备及存储介质


[0001]本专利技术涉及自然语言领域,特别是涉及一种逐步文本生成方法、系统、计算机设备及存储介质。

技术介绍

[0002]在自然语言领域,自然语言生成又称文本生成,是自然语言处理领域的重要研究内容。随着计算机技术的进步及信息时代的发展,互联网上的信息呈现爆发式增长,各行各业涉及到的高频内容生产和处理工作的都希望内容生产的速度快、质量高、数量多。而随着自然语言生成技术的成熟,逐渐将深度学习应用于文本生成。
[0003]随着深度学习的发展,循环神经网络(RNN)通过极大似然估计的方式,在模型训练的时能够很好地通过反向传播更新参数,并获得跟训练集极为相似的结果。Transformer模型的建立是基于注意力机制,相比循环神经网络等模型依次序列计算,Transformer可以更好地捕捉长文本的语义特征,并且支持并行运行,基于此框架提出的GPT、BERT等模型让自然语言生成领域在近年来又取得突破性进展。预训练模型主要学习词的上下文表示,根据不同的序列预测方式可分为自编码和自回归两种语言模型。Google提出的BERT模型是典型的自编码语言模型,其使用Transformer抽取特征,引入MLM(Masked Language Model)和NSP(Next Sentence Prediction)预训练目标,能够获取上下文相关的双向特征表示,从而处理句子或者段落的匹配任务。
[0004]但是,该模型预训练过程中和生成过程中的不一致导致其在生成任务效果不佳。自回归语言模型的典型代表有ELMo、GPT。GPT使用Transformer进行特征抽取,能够快速捕捉更长范围的信息,目前已经更新到第三代:GPT1微调阶段引入语言辅助模型,解决了微调过程中的灾难性的遗忘问题;GPT2在GPT1基础上进行改进,使用覆盖更广、质量更高的训练数据,认为预训练中已包含很多特定任务所需信息,其没有针对特定模型的精调流程,在生成任务上取得了很好的效果;GPT3使用比GPT2更多的训练数据和性能更高的计算资源以提高模型性能。
[0005]当前的自回归语言模型主要存在以下几点问题:
[0006]一、逻辑性较差。直接基于关键词生成的文本往往存在较多的矛盾,而模型本身较难学习和掌握知识之间的逻辑关系:例如男装不会有背部开叉的设计。这主要是由于缺乏对这层背景知识单独进行建模的机制,完全依靠数据驱动的方式需要大量的相关领域的数据。
[0007]二、长文本生成较难保证质量。对于语言模型而言,长文本建模本身就是一个巨大的挑战,无论是传统的基于RNNs的语言模型,还是基于Transformer结构的语言模型,长距离依赖学习能力都极为有限。大多数基于Transformer结构的语言模型都有着固定长度的限制,例如GPT

2语言模型,依靠其流畅甚至以假乱真的生成表现给人们留下深刻的印象,然而其最大的文本建模长度为1024。当语句之间的长度超过该范围时就无法产生依赖关系。当长度增加时,生成文本往往难以保持原有的高质量。

技术实现思路

[0008]有鉴于此,本申请实施例提供一种逐步文本生成方法、系统、计算机设备及存储介质,利用文本要素抽取方式,从现有无监督语料中挖掘积累卖点表达短句,利用模型对卖点短句进行文本改写,提升生成文本的逻辑性,在基于规则模板进行改写的同时,允许文本基于提示符和上文进行续写,使用逐句生成方案,解决了长文本生成的信息遗忘问题。
[0009]为实现上述目的,本专利技术提供了以下技术方案:
[0010]第一方面,本专利技术提供了一种逐步文本生成方法,包括以下步骤:
[0011]获取原始语料,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型;
[0012]通过训练好的序列标注模型构建当前语料对应的文本描述短句;
[0013]将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
[0014]根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。
[0015]作为本专利技术的进一步方案,从所述原始语料中抽取包含卖点信息的描述短句,包括:
[0016]采用无监督算法抽取所述原始语料中的关键词;
[0017]基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
[0018]作为本专利技术的进一步方案,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型,还包括:
[0019]通过训练好的序列标注模型离线挖掘所述描述短句的短句模板,并与所述卖点信息建立关联关系。
[0020]作为本专利技术的进一步方案,通过训练好的序列标注模型构建当前语料对应的文本描述短句时,所述当前语料中包含建立有卖点信息关联关系的平行卖点数据。
[0021]作为本专利技术的进一步方案,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,包括:
[0022]基于训练好的序列标注模型抽取文本描述短句;
[0023]在所述文本描述短句的非首句位随机选中部分短句替换为[s]提示符的掩码标记;
[0024]构建生成预测模型的输入数据。
[0025]作为本专利技术的进一步方案,根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,还包括:
[0026]基于规则引擎对输入的多个卖点信息进行文本的检索,检索出卖点信息对应的文本描述短句;
[0027]基于规则引擎完成句式模板的规划,确定逐步推理时每一步生成的文本描述短句所关联的卖点信息,并在所述文本描述短句非首句的位置随机插入[s]提示符,得到输入数据;
[0028]输入数据输入训练好的预测模型进行逐步推理,得到目标输出文本。
[0029]第二方面,本专利技术还提供了一种逐步文本生成系统,包括:
[0030]短句挖掘模块,用于从获取的原始语料中抽取包含卖点信息的描述短句用以训练序列标注模型;
[0031]短句构建模块,用于通过训练好的序列标注模型构建当前语料对应的文本描述短句;
[0032]输入数据构造模块,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
[0033]逐步文本生成模块,用于根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。
[0034]作为本专利技术的进一步方案,还包括:
[0035]关键词抽取模块,用于基于无监督算法抽取所述原始语料中的关键词;
[0036]卖点信息挖掘模块,用于基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种逐步文本生成方法,其特征在于,包括:获取原始语料,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型;通过训练好的序列标注模型构建当前语料对应的文本描述短句;将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。2.根据权利要求1所述的逐步文本生成方法,其特征在于,从所述原始语料中抽取包含卖点信息的描述短句,包括:采用无监督算法抽取所述原始语料中的关键词;基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。3.根据权利要求2所述的逐步文本生成方法,其特征在于,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型,还包括:通过训练好的序列标注模型离线挖掘所述描述短句的短句模板,并与所述卖点信息建立关联关系。4.根据权利要求3所述的逐步文本生成方法,其特征在于,通过训练好的序列标注模型构建当前语料对应的文本描述短句时,所述当前语料中包含建立有卖点信息关联关系的平行卖点数据。5.根据权利要求1所述的逐步文本生成方法,其特征在于,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,包括:基于训练好的序列标注模型抽取文本描述短句;在所述文本描述短句的非首句位随机选中部分短句替换为[s]提示符的掩码标记;构建生成预测模型的输入数据。6.根据权利要求1所述的逐步文本生成方法,其特征在于,根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,还包括:基于规则引擎对输入的多个卖点信息进行文本...

【专利技术属性】
技术研发人员:朱琳
申请(专利权)人:广东爱因智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1