【技术实现步骤摘要】
一种基于深度学习的可控文本自动生成方法、系统及设备
[0001]本申请涉及计算机自然语言处理
,尤其涉及一种基于深度学习的可控文本自动生成方法、系统及设备。
技术介绍
[0002]文本生成(Text Generation)是NLP(Natural Language Processing,自然语言处理)领域的一项重要且具有挑战的任务。文本生成任务的目的是生成近似于自然语言的文本序列。
[0003]传统的文本生成有两种方式,包括SMT(Statistical Machine Translation,统计机器翻译概率模型)和NN(Neural Networks,神经网络模型)。
[0004]在文本自动生成过程中,SMT是将文本生成看作由后一句对前句的翻译过程,并逐步生成全部文本。该SMT机器学习方法具有如下缺点:1)下一句的生成只依赖于前一句的信息,无法保证生成文本的完整性,即高度依赖于文本中的局部信息,对输入语句的全局信息考虑不周全;2)字词之间的映射概率,在语义的方面建模能力较差,且往往只被应用在语义信息 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的可控文本自动生成方法,其特征在于,所述方法包括:获取用户需求信息;提取所述用户需求信息的类别信息和待处理子需求信息;根据所述类别信息在预训练完成的多类别文本生成器中匹配目标文本生成器;对所述子需求信息进行数据预处理得到预处理文本;将所述预处理文本输入到所述目标文本生成器中得到输出文本;对所述输出文本进行格式处理得到可读文本。2.根据权利要求1所述的基于深度学习的可控文本自动生成方法,其特征在于,所述多类别文本生成器的训练过程包括:在多个类别的待训练数据中获取其中一个类别的待训练数据;对所述其中一个类别的待训练数据进行数据预处理得到多组训练文本;将所述多组训练文本依次输入到预构建的深度学习模型中进行迭代训练得到该类别的文本生成器;获取其他类别的待训练数据,并重复上述数据预处理和迭代训练的步骤得到多种类别的文本生成器。3.根据权利要求1或2所述的基于深度学习的可控文本自动生成方法,其特征在于,所述数据预处理过程包括:对数据进行去噪处理;将去噪后的数据进行字符和数字的映射处理得到映射词库;基于字符和数字的映射关系对所述去噪后的数据进行数字转码处理得到数字化文本;将所述数字化文本进行随机分批处理得到多组文本。4.根据权利要求3所述的基于深度学习的可控文本自动生成方法,其特征在于,所述将去噪后的数据进行字符和数字的映射处理包括如下步骤:读取去噪后的数据中的所有不重复的字符;为每个字数打上数字标签,形成字符与数字的一一映射关系。5.根据权利要求2所述的基于深度学习的可控文本自动生成方法,其特征在于,所述将所述多组训练文本依次输入到预构建的深度学习模型中进行迭代训练得到该类别的文本...
【专利技术属性】
技术研发人员:杜一玮,柴丽萍,李题印,章禹,王建炜,杨正道,徐凯,徐红灿,刘宗泽,张屏,朱晓雯,耿强强,
申请(专利权)人:国网浙江省电力有限公司杭州供电公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。