一种基于深度学习的可控文本自动生成方法、系统及设备技术方案

技术编号:36203401 阅读:16 留言:0更新日期:2023-01-04 11:57
本申请提供了一种基于深度学习的可控文本自动生成方法、系统及设备。该方法通过获取用户需求信息;提取用户需求信息的类别信息和待处理子需求信息;根据类别信息在预训练完成的多类别文本生成器中匹配目标文本生成器;对子需求信息进行数据预处理得到预处理文本;将预处理文本输入到目标文本生成器中得到输出文本;并进行格式处理得到可读文本。本申请通过采用深度学习模型,使训练过程更加自动化,免去了过多的人工干预,使文本生成更加自动化,训练过程采用一系列训练策略,使得文本生成器生成的文本准确度更高,可读性更强;且通过对用户输入需求进行分类,识别用户意图,调用不同类别的文本生成器,生成用户想要的文本,使文本生成可控。使文本生成可控。使文本生成可控。

【技术实现步骤摘要】
一种基于深度学习的可控文本自动生成方法、系统及设备


[0001]本申请涉及计算机自然语言处理
,尤其涉及一种基于深度学习的可控文本自动生成方法、系统及设备。

技术介绍

[0002]文本生成(Text Generation)是NLP(Natural Language Processing,自然语言处理)领域的一项重要且具有挑战的任务。文本生成任务的目的是生成近似于自然语言的文本序列。
[0003]传统的文本生成有两种方式,包括SMT(Statistical Machine Translation,统计机器翻译概率模型)和NN(Neural Networks,神经网络模型)。
[0004]在文本自动生成过程中,SMT是将文本生成看作由后一句对前句的翻译过程,并逐步生成全部文本。该SMT机器学习方法具有如下缺点:1)下一句的生成只依赖于前一句的信息,无法保证生成文本的完整性,即高度依赖于文本中的局部信息,对输入语句的全局信息考虑不周全;2)字词之间的映射概率,在语义的方面建模能力较差,且往往只被应用在语义信息相等或近似的情况下,即其仅仅考虑了字词的信息,在语义上考虑十分不全,导致生成的文本语义混乱且不一致。
[0005]在文本创作过程中,传统的NN是将用户所给的信息通过神经网络压缩成信息向量,将该信息向量作为初始状态,通过神经网络逐句生成整个文本。该传统的NN具有如下缺点:1)在传统的NN模型训练过程中过于注重语义信息;2)生成的每一个字都只考虑同样的全局信息。由此导致生成的文本单一且较易偏向错误的方向,即不能够根据已生成的信息进行调整使得主题容易产生偏差。
[0006]综上两种传统的方式生成的文本都存在准确度低且不可控的问题,因此,本申请提供一种基于深度学习的可控文本自动生成方法。
[0007]深度学习使人工智能研究取得了突破性的进展,它结束了人工智能长达十年未有突破的局面,并迅速在工业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统,作为通用的人工智能技术,可以应对各种情祝和问题。已在计算机视觉、语音识别等领域得到极其重要的成果应用,在自然语言处理领域也取得了一定的成效。随着深度学习的发展,众多新兴的技术已被文本生成任务所采用。例如,为了解决文本生成中的长期依赖、OOV(Out

of

Vocabulary,超纲词)问题,注意力机制(Attention Mechanism)及拷贝机制(Copy Mechanism)等技术应运而出;网络结构上也使用了循环神经网络(Recurrent Neural Networks),卷积神经网络(Convolutional Neural Networks),图神经网络(Graph Neural Networks),Transformer等新技术;为了顺应“预训练

精调”范式的兴起,在海量语料上自监督地训练出的PLM(Pre

trained Language Model,大体量预训练语言模型)也被广泛应用在文本生成任务中。

技术实现思路

[0008]本申请实施例的目的在于提供一种基于深度学习的可控文本自动生成方法、系统及设备,以解决传统的文本生成方式都存在准确度低且不可控的问题。具体技术方案如下:第一方面,提供了一种基于深度学习的可控文本自动生成方法,所述方法包括:获取用户需求信息;提取所述用户需求信息的类别信息和待处理子需求信息;根据所述类别信息在预训练完成的多类别文本生成器中匹配目标文本生成器;对所述子需求信息进行数据预处理得到预处理文本;将所述预处理文本输入到所述目标文本生成器中得到输出文本;对所述输出文本进行格式处理得到可读文本。
[0009]可选地,所述多类别文本生成器的训练过程包括:在多个类别的待训练数据中获取其中一个类别的待训练数据;对所述其中一个类别的待训练数据进行数据预处理得到多组训练文本;将所述多组训练文本依次输入到预构建的深度学习模型中进行迭代训练得到该类别的文本生成器;获取其他类别的待训练数据,并重复上述数据预处理和迭代训练的步骤得到多种类别的文本生成器。
[0010]可选地,所述数据预处理过程包括:对数据进行去噪处理;将去噪后的数据进行字符和数字的映射处理得到映射词库;基于字符和数字的映射关系对所述去噪后的数据进行数字转码处理得到数字化文本;将所述数字化文本进行随机分批处理得到多组文本。
[0011]可选地,所述将去噪后的数据进行字符和数字的映射处理包括如下步骤:读取去噪后的数据中的所有不重复的字符;为每个字数打上数字标签,形成字符与数字的一一映射关系。
[0012]可选地,所述将所述多组训练文本依次输入到预构建的深度学习模型中进行迭代训练得到该类别的文本生成器包括:将每组训练文本输入到深度学习模型的输入单元中进行单个字符向量化处理得到字符向量;为所述字符向量赋予权重后输出到深度学习模型的记忆单元中进行记忆存储;将记忆单元输出的字符向量输入到深度学习模型的输出单元中进行归一化处理得到输出结果;将所述输出结果输入到优化单元进行优化训练,以降低输出结果与真实结果的损失,直至损失最小。
[0013]可选地,所述对所述输出文本进行格式处理得到可读文本包括:利用所述映射词库对所述输出文本进行解码以生成可读文本。
[0014]第二方面,本申请提供一种基于深度学习的可控文本自动生成系统,所述系统包括:
获取单元,用于获取用户需求信息;提取单元,用于提取所述用户需求信息的类别信息和待处理子需求信息;匹配单元,用于根据所述类别信息在预训练完成的多类别文本生成器中匹配目标文本生成器;预处理单元,用于对所述子需求信息进行数据预处理得到预处理文本;文本生成单元,用于将所述预处理文本输入到所述目标文本生成器中得到输出文本;格式处理单元,用于对所述输出文本进行格式处理得到可读文本。
[0015]第三方面,本申请提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
[0016]第四方面本申请提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
[0017]第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的基于深度学习的可控文本自动生成方法。
[0018]本申请实施例有益效果:本申请实施例提供了一种基于深度学习的可控文本自动生成方法、系统及设备,本申请通过采用先进的深度学习模型,使模型训练过程更加自动化,免去了过多的人工干预,使文本生成更加自动化,训练过程采用一系列训练策略,使得文本生成器生成的文本准确度更高,可读性更强;且通过对用户输入需求进行分类,识别用户意图,调用不同类别的文本生成器,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的可控文本自动生成方法,其特征在于,所述方法包括:获取用户需求信息;提取所述用户需求信息的类别信息和待处理子需求信息;根据所述类别信息在预训练完成的多类别文本生成器中匹配目标文本生成器;对所述子需求信息进行数据预处理得到预处理文本;将所述预处理文本输入到所述目标文本生成器中得到输出文本;对所述输出文本进行格式处理得到可读文本。2.根据权利要求1所述的基于深度学习的可控文本自动生成方法,其特征在于,所述多类别文本生成器的训练过程包括:在多个类别的待训练数据中获取其中一个类别的待训练数据;对所述其中一个类别的待训练数据进行数据预处理得到多组训练文本;将所述多组训练文本依次输入到预构建的深度学习模型中进行迭代训练得到该类别的文本生成器;获取其他类别的待训练数据,并重复上述数据预处理和迭代训练的步骤得到多种类别的文本生成器。3.根据权利要求1或2所述的基于深度学习的可控文本自动生成方法,其特征在于,所述数据预处理过程包括:对数据进行去噪处理;将去噪后的数据进行字符和数字的映射处理得到映射词库;基于字符和数字的映射关系对所述去噪后的数据进行数字转码处理得到数字化文本;将所述数字化文本进行随机分批处理得到多组文本。4.根据权利要求3所述的基于深度学习的可控文本自动生成方法,其特征在于,所述将去噪后的数据进行字符和数字的映射处理包括如下步骤:读取去噪后的数据中的所有不重复的字符;为每个字数打上数字标签,形成字符与数字的一一映射关系。5.根据权利要求2所述的基于深度学习的可控文本自动生成方法,其特征在于,所述将所述多组训练文本依次输入到预构建的深度学习模型中进行迭代训练得到该类别的文本...

【专利技术属性】
技术研发人员:杜一玮柴丽萍李题印章禹王建炜杨正道徐凯徐红灿刘宗泽张屏朱晓雯耿强强
申请(专利权)人:国网浙江省电力有限公司杭州供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1