一种文本生成方法、装置及存储介质制造方法及图纸

技术编号：27976628 阅读：29 留言：0更新日期：2021-04-06 14:11

本发明专利技术提供一种文本生成方法、装置及存储介质，方法包括：导入多个数据集，并分别对各个数据集进行拼接计算，得到与各个数据集对应的数据集嵌入向量；构建训练模型，根据多个数据集嵌入向量和多个数据集对训练模型进行参数更新，得到更新后的训练模型；根据所述更新后的训练模型对待训练文本进行训练，得到生成文本。相比现有算法，本发明专利技术能准确选出记录中的重要内容生成文本，并通过文本相似度进行更新迭代，优化文本生成质量，相对现有技术，能够体提升生成文本的准确性和流畅性，解决了生成的文本精确率不高且存在冗余的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本生成方法、装置及存储介质
本专利技术主要涉及语言处理
，具体涉及一种文本生成方法、装置及存储介质。
技术介绍
数据到文本生成是自然语言生成中的一项重要且富有挑战的任务，旨在从非语言输入转换成文本输出，可以应用于现实中许多的自然语言生成场景，例如根据数据自动编写体育赛事报道、天气预报等方面。但现有的编码-解码生成模型在生成文本的过程中存在着生成的文本精确率不高且存在冗余的问题。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足，提供一种文本生成方法、装置及存储介质。本专利技术解决上述技术问题的技术方案如下：一种文本生成方法，包括如下步骤：导入多个数据集，并分别对各个所述数据集进行拼接计算，得到与各个所述数据集对应的数据集嵌入向量；构建训练模型，根据多个所述数据集嵌入向量和多个所述数据集对所述训练模型进行参数更新，得到更新后的训练模型；根据所述更新后的训练模型对待训练文本进行训练，得到生成文本。本专利技术解决上述技术问题的另一技术方案如下：一种文本生成装置，包括：拼接计算模块，用于导入多个数据集，并用于分别对各个所述数据集进行拼接计算，得到与各个所述数据集对应的数据集嵌入向量；参数更新模块，用于构建训练模型，根据多个所述数据集嵌入向量和多个所述数据集对所述训练模型进行参数更新，得到更新后的训练模型；生成文本获得模块，用于根据所述更新后的训练模型对待训练文本进行训练，得到生成文本。本专利技术的有益效果是：...

【技术保护点】
1.一种文本生成方法，其特征在于，包括如下步骤：/n导入多个数据集，并分别对各个所述数据集进行拼接计算，得到与各个所述数据集对应的数据集嵌入向量；/n构建训练模型，根据多个所述数据集嵌入向量和多个所述数据集对所述训练模型进行参数更新，得到更新后的训练模型；/n根据所述更新后的训练模型对待训练文本进行训练，得到生成文本。/n

【技术特征摘要】
1.一种文本生成方法，其特征在于，包括如下步骤：
导入多个数据集，并分别对各个所述数据集进行拼接计算，得到与各个所述数据集对应的数据集嵌入向量；
构建训练模型，根据多个所述数据集嵌入向量和多个所述数据集对所述训练模型进行参数更新，得到更新后的训练模型；
根据所述更新后的训练模型对待训练文本进行训练，得到生成文本。

2.根据权利要求1所述的文本生成方法，其特征在于，所述分别对各个所述数据集进行拼接计算，得到与各个所述数据集对应的数据集嵌入向量的过程包括：
通过第一式分别对各个所述数据集进行拼接计算，得到与各个所述数据集对应的数据集嵌入向量，所述第一式为：
rj＝ReLU(Wr[rj，1；rj，2；...；rj，K]+br)，
其中，rj为第j个数据集嵌入向量，ReLU为激活函数，Wr为权重矩阵，[rj，1；rj，2；...；rj，K]为第j个数据集中的数据，br为偏置向量，[；]为向量之间的拼接。

3.根据权利要求1所述的文本生成方法，其特征在于，所述构建训练模型，根据多个所述数据集嵌入向量和多个所述数据集对所述训练模型进行参数更新，得到更新后的训练模型的过程包括：
基于0penNMT-py编解码模型构建训练模型，所述训练模型包括编码层和解码层；
分别将各个所述数据集嵌入向量输入至所述编码层中，通过所述编码层分别对各个所述数据集嵌入向量进行编码分析，得到多个数据集更新向量；
将多个所述数据集更新向量输入至所述解码层中，通过所述解码层对多个所述数据集更新向量进行最终文本的计算，得到最终文本和多个文本原始概率；
根据所述最终文本对多个所述文本原始概率进行损失计算，得到更新损失函数；
根据所述更新损失函数对所述训练模型进行训练，得到更新后的训练模型。

4.根据权利要求3所述的文本生成方法，其特征在于，所述通过所述编码层分别对各个所述数据集嵌入向量进行编码分析，得到多个数据集更新向量的过程包括：
分别将各个所述数据集嵌入向量输入至隐藏层中，通过所述预建隐藏层分别对各个所述数据集嵌入向量进行编码处理，得到多个数据集编码向量和与所述数据集编码向量对应的隐藏层输出向量；
分别对各个所述数据集编码向量和与所述数据集编码向量对应的隐藏层输出向量进行内容筛选的计算，得到多个数据集更新向量。

5.根据权利要求4所述的文本生成方法，其特征在于，所述分别将各个所述数据集嵌入向量输入至隐藏层中，通过所述预建隐藏层分别对各个所述数据集嵌入向量进行编码处理，得到多个数据集编码向量和与所述数据集编码向量对应的隐藏层输出向量的过程包括：
通过第二式分别对各个所述数据集嵌入向量进行均值池化编码，得到多个数据集编码向量，所述第二式为：

其中，rj为第j个数据集嵌入向量，Meanpooling为均值池化，为第j个数据集编码向量；
分别对各个所述数据集嵌入向量进行隐藏信息提取，得到与所述数据集编码向量对应的隐藏层输出向量。

6.根据权利要求5所述的文本生成方法，其特征在于，所述分别...

【专利技术属性】
技术研发人员：蔡晓东，高铸成，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：广西;45

全部详细技术资料下载我是这个专利的主人