文本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24613759 阅读:65 留言:0更新日期:2020-06-24 01:16
本发明专利技术公开了一种文本生成方法、装置、电子设备及存储介质,其中,方法包括:识别文本数据集中文本分段的隐藏状态与文本内容,并得到组成模板的隐藏状态序列,生成多个文本模板;获取多个文本模板的多个关键词,并通过预先训练的隐半马尔可夫模型HSMM模型确定多个关键词对应的多个文本模板中的最优模板;通过拷贝注意力机制将多个关键词复制至最优模板中,生成最终文本。由此,解决了无法保证模板内容和数量上的多样性的同时,保证文本内容的可控性和解释性,降低文本的生成效率和实用性,降低使用体验等问题。

Text generation method, device, electronic equipment and storage medium

【技术实现步骤摘要】
文本生成方法、装置、电子设备及存储介质
本专利技术涉及文本处理
,特别涉及一种文本生成方法、装置、电子设备及存储介质。
技术介绍
相关技术中,基于模板的数据驱动型的文本生成技术主要分为以下几类方式:(1)对于给定的文本数据集,先人工删除文案中的部分关键词,剩余的部分当作模板使用,给定输入关键词填充模板便可以生成新的文本。(2)对句子进行聚类后,通过人工设计的规则抽象模板字段以导出模板,对模板进行关键词填充生成新的文本。(3)基于seq2seq(序列到序列)模型生成新的文本。然而,上述方式(1)和方式(2)无法不能保证模板内容和数量上的多样性,并且在使用模板生成文本时,由于模板内容和数量的贫乏,易导致文本生成结果的不可控性和不可解释性,即易出现给定的关键词与模板不匹配的后果,但是方式(3)seq2seq模型虽然具有encoder-decoder(编码器解码器)结构,从而可以生成样式、内容不同的文本,但是由于方式(3)为序列的形式,即文本并不是整体生成的,而是一个词接着一个词生成,生成的文本长度越长,生成的下文与上文的联系就越小,容易出现逻辑混乱现象,并且由于seq2seq模型中的参数是无法解释的,因此无法控制和解释所生成的文本内容。
技术实现思路
本专利技术提供一种文本生成方法、装置、电子设备及存储介质,以解决无法保证模板内容和数量上的多样性的同时,无法保证文本内容的可控性和解释性,降低文本的生成效率和实用性,降低使用体验等问题。本专利技术第一方面实施例提供一种文本生成方法,包括以下步骤:识别文本数据集中文本分段的隐藏状态与文本内容,并得到组成模板的隐藏状态序列,生成多个文本模板;获取所述多个文本模板的多个关键词,并通过预先训练的HSMM(HiddenSemi-MarkovModels,隐半马尔可夫模型)模型确定所述多个关键词对应的所述多个文本模板中的最优模板;通过拷贝注意力机制将所述多个关键词复制至所述最优模板中,生成最终文本。本专利技术第二方面实施例提供一种文本生成装置,包括:采集模块,用于识别文本数据集中文本分段的隐藏状态与文本内容,并得到组成模板的隐藏状态序列,生成多个文本模板;提取模块,用于获取所述多个文本模板的多个关键词,并通过预先训练的HSMM模型确定所述多个关键词对应的所述多个文本模板中的最优模板;生成模块,用于通过拷贝注意力机制将所述多个关键词复制至所述最优模板中,生成最终文本。本专利技术第三方面实施例提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行如上述实施例所述的文本生成方法。本专利技术第四方面实施例提供一种非临时性计算机可读存储介质,所述非临时性计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的文本生成方法。通过学习文本数据集中文本分段的隐藏状态,将有着相同隐藏状态但是内容不同的文本分段归类为相同的类别,并将学习到的隐藏状态序列组合成为文本模板,其次基于给定的关键词及学习到的隐藏状态序列生成相应的文本,在有效保证模板内容和数量上的多样性的同时,有效保证文本内容的可控性和解释性,提升文本的生成效率和实用性,提升使用体验。由此,解决了无法保证模板内容和数量上的多样性的同时,保证文本内容的可控性和解释性,降低文本的生成效率和实用性,降低使用体验等问题。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术实施例的文本生成方法的流程图;图2为根据本专利技术一个实施例的文本生成方法的生成示意图;图3为根据本专利技术一个实施例的HMM(HiddenMarkovModel,隐马尔可夫模型)模型示意图;图4为根据本专利技术另一个实施例的文本生成方法的生成示意图;图5为根据本专利技术一个具体实施例的文本生成方法的生成示意图;图6为根据本专利技术一个实施例的基于HSMM解码器的模板类型文本生成模型示意图;图7为根据本专利技术一个实施例的基于拷贝注意力机制的RNN发射模型示意图;图8为根据本专利技术一个实施例的状态转移模型示意图;以及图9为根据本专利技术实施例的文本生成装置的方框示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的文本生成方法、装置、电子设备及存储介质。针对上述
技术介绍
中心提到的方式(1)和方式(2)无法不能保证模板内容和数量上的多样性,并且在使用模板生成文本时,由于模板内容和数量的贫乏,易导致文本生成结果的不可控性和不可解释性,但是方式(3)的文本并不是整体生成的,容易出现逻辑混乱现象,并且无法控制和解释所生成的文本内容的问题,本专利技术提供了一种文本生成方法,在该方法中,通过学习文本数据集中文本分段的隐藏状态,将有着相同隐藏状态但是内容不同的文本分段归类为相同的类别,并将学习到的隐藏状态序列组合成为文本模板,其次基于给定的关键词及学习到的隐藏状态序列生成相应的文本,在有效保证模板内容和数量上的多样性的同时,有效保证文本内容的可控性和解释性,提升文本的生成效率和实用性,提升使用体验。由此,解决了无法保证模板内容和数量上的多样性的同时,保证文本内容的可控性和解释性,降低文本的生成效率和实用性,降低使用体验等问题。具体而言,图1为本专利技术实施例所提供的一种文本生成方法的流程示意图。如图1所示,该文本生成方法包括以下步骤:在步骤S101中,识别文本数据集中文本分段的隐藏状态与文本内容,并得到组成模板的隐藏状态序列,生成多个文本模板。可以理解的是,自动文本生成是自然语言处理领域中的一项重要任务,在许多场景中都有所涉及。自动文本生成具有非常广泛的应用前景,例如可以应用于智能人机对话、机器翻译系统、文案写作等。根据任务输入的不同,自动文本生成又可以分为文本到文本的生成(text-to-textgeneration)、图像到文本的生成(image-to-textgeneration)及数据到文本的生成(data-to-textgeneration)。本专利技术实施例可以理解为数据到文本生成这一类型,即给定关键词,根据关键词自动生成与关键词对应场景的文本,这种类型的文本生成也称为数据驱动型文案生成。需要说明的是,生成一篇文本除了给定的关键词,模板的质量也极为重要,其既要满足数量和风格上的多样性,又要满足对生成文案的可控制性及可解释性。其中,在本专利技术的一个实施例中,识别文本数据集中文本分段的隐藏状态与文本内容本文档来自技高网
...

【技术保护点】
1.一种文本生成方法,其特征在于,包括以下步骤:/n识别文本数据集中文本分段的隐藏状态与文本内容,并得到组成模板的隐藏状态序列,生成多个文本模板;/n获取所述多个文本模板的多个关键词,并通过预先训练的隐半马尔可夫模型HSMM模型确定所述多个关键词对应的所述多个文本模板中的最优模板;/n通过拷贝注意力机制将所述多个关键词复制至所述最优模板中,生成最终文本。/n

【技术特征摘要】
1.一种文本生成方法,其特征在于,包括以下步骤:
识别文本数据集中文本分段的隐藏状态与文本内容,并得到组成模板的隐藏状态序列,生成多个文本模板;
获取所述多个文本模板的多个关键词,并通过预先训练的隐半马尔可夫模型HSMM模型确定所述多个关键词对应的所述多个文本模板中的最优模板;
通过拷贝注意力机制将所述多个关键词复制至所述最优模板中,生成最终文本。


2.根据权利要求1所述的方法,其特征在于,所述识别文本数据集中文本分段的隐藏状态与文本内容,并得到组成模板的隐藏状态序列,包括:
通过HSMM模型学习得到所述隐藏状态和所述隐藏状态序列。


3.根据权利要求1所述的方法,其特征在于,所述通过预先训练的HSMM模型确定所述多个关键词对应的所述多个文本模板中的最优模板,包括:
根据所述多个关键词匹配分段序列。


4.根据权利要求3所述的方法,其特征在于,所述通过预先训练的HSMM模型确定所述多个关键词对应的所述多个文本模板中的最优模板,还包括:
获取HSMM模型隐藏状态序列的出现概率;
将出现概率最大的隐藏状态序列作为所述最优模板。


5.根据权利要求1所述的方法,其特征在于,所述通过拷贝注意力机制将所述多个关键词复制至所述最优模板中,包括:
将所述多个关键词输出在生成...

【专利技术属性】
技术研发人员:赵茜胡盼盼胡浩周玥谢晓婷余梓玲杨金辉严彦昌
申请(专利权)人:广东博智林机器人有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1