文本生成方法、装置、电子设备及可读介质制造方法及图纸

技术编号:32226695 阅读:41 留言:0更新日期:2022-02-09 17:31
本发明专利技术实施例提供了一种文本生成方法、装置、电子设备及可读介质,获取具有格式要求的待处理文本;所述格式要求至少包括音节格式要求;对所述待处理文本基于音节进行分词处理,得到若干音节单元;将所述待处理文本的所述音节单元本输入至预先训练的文本生成模型中,得到符合所述格式要求的目标生成文本。本发明专利技术实施例可以生成符合包括音节格式的格式要求的目标生成文本,实现了音节可控,提高了目标生成文本的质量。成文本的质量。成文本的质量。

【技术实现步骤摘要】
文本生成方法、装置、电子设备及可读介质


[0001]本专利技术实施例涉及人工智能
,特别是涉及一种文本生成方法、一种文本生成装置、一种电子设备以及一种计算机可读介质。

技术介绍

[0002]近几年来,随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展,促进了人机交互方式的极大转变,同时也伴随着越来越多的商业化产品的落地。其中,自然语言处理(NLP,Nature Language processing)中的文本生成是一个非常具有代表性的任务。
[0003]具体地,文本生成是指利用机器学习尤其是深度学习技术训练得到一个能自由生成文本的机器,实现从数据到文本的自动转换,是人工智能走向成熟的一个重要标志。在现实生活中,文本生成发挥着重要的价值。例如,在基于文本的游戏中,如果能利用文本生成技术自动生成各式各样高质量且有趣的文本,能够提升玩家的游戏体验,进而提升游戏竞争价值。
[0004]然而,目前的文本生成技术仍有待完善,无法生成质量更高的文本。

技术实现思路

[0005]本专利技术实施例是提供一种文本生成方法、装置、电子设备以及计算机可读存储介质,以解决目前的文本生成技术仍有待完善,无法生成质量更高的文本的问题。
[0006]本专利技术实施例公开了一种文本生成方法,包括:
[0007]获取具有格式要求的待处理文本;所述格式要求至少包括音节格式要求;
[0008]对所述待处理文本基于音节进行分词处理,得到若干音节单元;
[0009]将所述待处理文本的所述音节单元本输入至预先训练的文本生成模型中,得到符合所述格式要求的目标生成文本。
[0010]可选地,所述将所述待处理文本的所述音节单元本输入至预先训练的文本生成模型中,得到符合所述格式要求的目标生成文本,包括:
[0011]将所述待处理文本的所述音节单元本输入至预先训练的文本生成模型中,以使所述文本生成模型在确定所述待处理文本的格式标识符后,基于所述格式标识符输出符合所述格式要求的目标生成文本。
[0012]可选地,所述格式要求还包括文本格式要求,所述格式标识符至少包括用于表征音节类型和韵律信息的格式标识符,用于表征句子内部位置信息的格式标识符,用于表征句子位置信息的格式标识符,用于表征全局位置信息的格式标识符,以及用于表征音节格式的格式标识符。
[0013]可选地,所述文本生成模型通过如下方式训练:
[0014]获取所述词表中各样本音节单元和所述各样本音节单元的格式标识符;
[0015]采用所述各样本音节单元和所述各样本音节单元的格式标识符,对所述文本生成
模型进行训练,得到训练好的文本生成模型。
[0016]可选地,所述词表通过如下方式生成:
[0017]获取第一样本语料;
[0018]对所述第一样本语料中基于音节进行分词处理,得到样本音节单元;
[0019]迭代统计相邻样本音节单元对的频数,从中选取所述频数最高的相邻样本音节单元对组合为单词;
[0020]在所述单词的数量达到期待数量或者所述下一次统计的相邻样本音节单元对的频数为1时,将所述单词加入到词表中。
[0021]可选地,在所述采用所述各样本音节单元和所述各样本音节单元的格式标识符,对所述文本生成模型进行训练,得到训练好的文本生成模型之后,所述方法还包括:
[0022]确定目标主题词,检索所述目标主题词关联的文本片段;
[0023]将所述文本片段作为第二样本语料训练所述文本生成模型。
[0024]可选地,在所述采用所述各样本音节单元和所述各样本音节单元的格式标识符,对所述文本生成模型进行训练,得到训练好的文本生成模型之后,所述方法还包括:
[0025]获取作为正样本的第三样本语料和作为负样本的第四样本语料;
[0026]将所述第三样本语料和所述第四样本语料输入至预先训练的分类模型,从所述第四样本语料中确定出第五样本语料;
[0027]采用所述第三样本语料和所述第五样本语料训练所述文本生成模型。
[0028]可选地,
[0029]所述待处理文本至少包括英文歌词;
[0030]所述目标主题至少包括儿童,所述待处理文本至少包括英文儿歌歌词。
[0031]本专利技术实施例还公开了一种文本生成装置,包括:
[0032]文本获取模块,用于获取具有格式要求的待处理文本;所述格式要求至少包括音节格式要求;
[0033]音节分词模块,用于对所述待处理文本基于音节进行分词处理,得到若干音节单元;
[0034]目标文本生成模块,用于将所述待处理文本的所述音节单元本输入至预先训练的文本生成模型中,得到符合所述格式要求的目标生成文本。
[0035]可选地,所述目标文本生成模块,用于将所述待处理文本的所述音节单元本输入至预先训练的文本生成模型中,以使所述文本生成模型在确定所述待处理文本的格式标识符后,基于所述格式标识符输出符合所述格式要求的目标生成文本。
[0036]可选地,所述格式要求还包括文本格式要求,所述格式标识符至少包括用于表征音节类型和韵律信息的格式标识符,用于表征句子内部位置信息的格式标识符,用于表征句子位置信息的格式标识符,用于表征全局位置信息的格式标识符,以及用于表征音节格式的格式标识符。
[0037]可选地,所述装置还包括:第一文本生成模型训练模块,用于获取所述词表中各样本音节单元和所述各样本音节单元的格式标识符;采用所述各样本音节单元和所述各样本音节单元的格式标识符,对所述文本生成模型进行训练,得到训练好的文本生成模型。
[0038]可选地,所述装置还包括:词表生成模块,用于获取第一样本语料;对所述第一样
本语料中基于音节进行分词处理,得到样本音节单元;迭代统计相邻样本音节单元对的频数,从中选取所述频数最高的相邻样本音节单元对组合为单词;在所述单词的数量达到期待数量或者所述下一次统计的相邻样本音节单元对的频数为1时,将所述单词加入到词表中。
[0039]可选地,所述装置还包括:第二文本生成模型训练模块,用于确定目标主题词,检索所述目标主题词关联的文本片段;将所述文本片段作为第二样本语料训练所述文本生成模型。
[0040]可选地,所述装置还包括:第三文本生成模型训练模块,用于获取作为正样本的第三样本语料和作为负样本的第四样本语料;将所述第三样本语料和所述第四样本语料输入至预先训练的分类模型,从所述第四样本语料中确定出第五样本语料;采用所述第三样本语料和所述第五样本语料训练所述文本生成模型。
[0041]可选地,所述待处理文本至少包括英文歌词;所述目标主题至少包括儿童,所述待处理文本至少包括英文儿歌歌词。
[0042]本专利技术实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
[0043]所述存储器,用于存放计算机程序;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:获取具有格式要求的待处理文本;所述格式要求至少包括音节格式要求;对所述待处理文本基于音节进行分词处理,得到若干音节单元;将所述待处理文本的所述音节单元本输入至预先训练的文本生成模型中,得到符合所述格式要求的目标生成文本。2.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本的所述音节单元本输入至预先训练的文本生成模型中,得到符合所述格式要求的目标生成文本,包括:将所述待处理文本的所述音节单元本输入至预先训练的文本生成模型中,以使所述文本生成模型在确定所述待处理文本的格式标识符后,基于所述格式标识符输出符合所述格式要求的目标生成文本。3.根据权利要求2所述的方法,其特征在于,所述格式要求还包括文本格式要求,所述格式标识符至少包括用于表征音节类型和韵律信息的格式标识符,用于表征句子内部位置信息的格式标识符,用于表征句子位置信息的格式标识符,用于表征全局位置信息的格式标识符,以及用于表征音节格式的格式标识符。4.根据权利要求1所述的方法,其特征在于,所述文本生成模型通过如下方式训练:获取所述词表中各样本音节单元和所述各样本音节单元的格式标识符;采用所述各样本音节单元和所述各样本音节单元的格式标识符,对所述文本生成模型进行训练,得到训练好的文本生成模型。5.根据权利要求4所述的方法,其特征在于,所述词表通过如下方式生成:获取第一样本语料;对所述第一样本语料中基于音节进行分词处理,得到样本音节单元;迭代统计相邻样本音节单元对的频数,从中选取所述频数最高的相邻样本音节单元对组合为单词;在所述单词的数量达到期待数量或者所述下一次统计的相邻样本音节单元对的频数为1时,将所述单词加入到词表中。6.根据权利要求4所述的方法,其特征在于,在所述采用...

【专利技术属性】
技术研发人员:陈武亚林悦
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1