文本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：24613759 阅读：65 留言：0更新日期：2020-06-24 01:16

本发明专利技术公开了一种文本生成方法、装置、电子设备及存储介质，其中，方法包括：识别文本数据集中文本分段的隐藏状态与文本内容，并得到组成模板的隐藏状态序列，生成多个文本模板；获取多个文本模板的多个关键词，并通过预先训练的隐半马尔可夫模型HSMM模型确定多个关键词对应的多个文本模板中的最优模板；通过拷贝注意力机制将多个关键词复制至最优模板中，生成最终文本。由此，解决了无法保证模板内容和数量上的多样性的同时，保证文本内容的可控性和解释性，降低文本的生成效率和实用性，降低使用体验等问题。

Text generation method, device, electronic equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
文本生成方法、装置、电子设备及存储介质
本专利技术涉及文本处理
，特别涉及一种文本生成方法、装置、电子设备及存储介质。
技术介绍
相关技术中，基于模板的数据驱动型的文本生成技术主要分为以下几类方式：(1)对于给定的文本数据集，先人工删除文案中的部分关键词，剩余的部分当作模板使用，给定输入关键词填充模板便可以生成新的文本。(2)对句子进行聚类后，通过人工设计的规则抽象模板字段以导出模板，对模板进行关键词填充生成新的文本。(3)基于seq2seq(序列到序列)模型生成新的文本。然而，上述方式(1)和方式(2)无法不能保证模板内容和数量上的多样性，并且在使用模板生成文本时，由于模板内容和数量的贫乏，易导致文本生成结果的不可控性和不可解释性，即易出现给定的关键词与模板不匹配的后果，但是方式(3)seq2seq模型虽然具有encoder-decoder(编码器解码器)结构，从而可以生成样式、内容不同的文本，但是由于方式(3)为序列的形式，即文本并不是整体生成的，而是一个词接着一个词生成，生成的文本长度越长，生成的下文与上文的联系就越小，容易出现逻辑混乱现象，并且由于seq2seq模型中的参数是无法解释的，因此无法控制和解释所生成的文本内容。
技术实现思路
本专利技术提供一种文本生成方法、装置、电子设备及存储介质，以解决无法保证模板内容和数量上的多样性的同时，无法保证文本内容的可控性和解释性，降低文本的生成效率和实用性，降低使用体验等问题。本专利技术第一方...

【技术保护点】
1.一种文本生成方法，其特征在于，包括以下步骤：/n识别文本数据集中文本分段的隐藏状态与文本内容，并得到组成模板的隐藏状态序列，生成多个文本模板；/n获取所述多个文本模板的多个关键词，并通过预先训练的隐半马尔可夫模型HSMM模型确定所述多个关键词对应的所述多个文本模板中的最优模板；/n通过拷贝注意力机制将所述多个关键词复制至所述最优模板中，生成最终文本。/n

【技术特征摘要】
1.一种文本生成方法，其特征在于，包括以下步骤：
识别文本数据集中文本分段的隐藏状态与文本内容，并得到组成模板的隐藏状态序列，生成多个文本模板；
获取所述多个文本模板的多个关键词，并通过预先训练的隐半马尔可夫模型HSMM模型确定所述多个关键词对应的所述多个文本模板中的最优模板；
通过拷贝注意力机制将所述多个关键词复制至所述最优模板中，生成最终文本。

2.根据权利要求1所述的方法，其特征在于，所述识别文本数据集中文本分段的隐藏状态与文本内容，并得到组成模板的隐藏状态序列，包括：
通过HSMM模型学习得到所述隐藏状态和所述隐藏状态序列。

3.根据权利要求1所述的方法，其特征在于，所述通过预先训练的HSMM模型确定所述多个关键词对应的所述多个文本模板中的最优模板，包括：
根据所述多个关键词匹配分段序列。

4.根据权利要求3所述的方法，其特征在于，所述通过预先训练的HSMM模型确定所述多个关键词对应的所述多个文本模板中的最优模板，还包括：
获取HSMM模型隐藏状态序列的出现概率；
将出现概率最大的隐藏状态序列作为所述最优模板。

5.根据权利要求1所述的方法，其特征在于，所述通过拷贝注意力机制将所述多个关键词复制至所述最优模板中，包括：
将所述多个关键词输出在生成...

【专利技术属性】
技术研发人员：赵茜，胡盼盼，胡浩，周玥，谢晓婷，余梓玲，杨金辉，严彦昌，
申请(专利权)人：广东博智林机器人有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人