【技术实现步骤摘要】
一种古诗词生成方法和装置
本专利技术涉及计算机
,具体而言,涉及一种古诗词生成方法和装置。
技术介绍
目前,古诗词是中国古代的一种文体,其特征是以文字为基础来写作,注重典故、骈俪对仗、音律工整且不使用标点。与现代使用的白话文相比,古诗词更为简洁典雅且能够表达更丰富的含义,但现代人很少背诵古诗,只能用白话文进行表达,所以需要将白话文转换成文言文。相关技术中,基于白话文到古诗词生成方法大都是将其视为一种“机器翻译”任务,也就是把白话文视为源语言,把古诗词视为目标语言,然后使用一个编码-解码模型将白话文“翻译”成古诗词。然而,当前白话文到古诗词的语料较少,而翻译任务往往需要较多语料才能取得较好的结果,所以上述使用一个编码-解码模型将白话文“翻译”成古诗词的方法无法生成高质量的古诗词。
技术实现思路
为解决上述问题,本专利技术实施例的目的在于提供一种古诗词生成方法和装置。第一方面,本专利技术实施例提供了一种古诗词生成方法,包括:获取多个古诗词文本和待生成古诗词的白话文文本;将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。第二方面,本专利技术实施例还提供了一种古诗词生成装置,包括:获取模块,用于获取多个古诗词文本和待生成古诗词的白话文文本;预训练模块,用于将所述多个古诗词文本输入到生成器中,对所述生成器 ...
【技术保护点】
1.一种古诗词生成方法,其特征在于,包括:/n获取多个古诗词文本和待生成古诗词的白话文文本;/n将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;/n利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。/n
【技术特征摘要】
1.一种古诗词生成方法,其特征在于,包括:
获取多个古诗词文本和待生成古诗词的白话文文本;
将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;
利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。
2.根据权利要求1所述的方法,其特征在于,将所述无标注的多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器,包括:
利用预设字符对多个古诗词文本中各古诗词文本中每一诗句中的任一字符进行替换,得到替换后的多个古诗词文本;
将替换后的多个古诗词文本输入到生成器中,使用生成器对替换后的各古诗词文本中被所述预定字符替换掉的字符进行预测,从而对所述生成器进行预训练,得到预训练生成器。
3.根据权利要求1所述的方法,其特征在于,利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词,包括:
利用文本编码器对所述白话文文本的各字符进行处理,得到所述白话文文本中各字符的文本特征向量;
利用所述预训练生成器对所述各字符的文本特征向量进行处理,得到所述白话文文本对应古诗词各字符的诗词特征向量;
将所述预训练生成器生成的所述古诗词中最后生成的字符的诗词特征向量输入到判别器中,使得所述判别器利用判别向量与所述古诗词中最后生成的字符的诗词特征向量进行点积计算,得到第一点积计算结果;
当所述第一点积计算结果大于点积阈值时,对所述预训练生成器生成的所述古诗词各字符的诗词特征向量进行处理,生成所述白话文文本对应的古诗词。
4.根据权利要求3所述的方法,其特征在于,利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词,还包括:
当获取到古诗词多样化指令时,通过标准正态分布噪声对所述白话文文本中各字符的文本特征向量进行加噪处理,得到所述白话文文本中各字符的加噪特征向量;
利用所述预训练生成器对所述白话文文本中各字符的加噪特征向量进行处理,得到加噪古诗词的各字符的第一加噪特征向量;
将所述预训练生成器生成的所述加噪古诗词中最后生成的字符的第一加噪特征向量输入到判别器中,使得所述判别器利用所述判别向量与所述加噪古诗词中最后生成的字符的第一加噪特征向量进行点积计算,得到第二点积计算结果;
当所述第二点积计算结果大于点积阈值时,对所述预训练生成器生成的加噪古诗词的各字符的加噪特征向量进行处理,生成加噪古诗词。
5.根据权利要求1所述的方法,其特征在于,在所述利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词步骤之前,所述方法还包括:
获取已标注的白话文文本,利用文本编码器对所述已标注的白话文文本的各字符进行处理,得到所述已标注的白话文文本中各字符的文本特征向量;
利用所述预训练生成器对所述已标注的白话文文本中各字符的文本特征向量进行处理,得到已标注的白话文文本对应的古诗词各字符的特征向量;
通过标准正态分布噪声对所述已标注的白话文文本中各字符的文本特征向量进行加噪处理,得到已...
【专利技术属性】
技术研发人员:韩庆宏,李纪为,
申请(专利权)人:北京香侬慧语科技有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。