一种古诗词生成方法和装置制造方法及图纸

技术编号:24756422 阅读:29 留言:0更新日期:2020-07-04 09:13
本发明专利技术提供了一种古诗词生成方法和装置,其中,该方法包括:获取多个古诗词文本和待生成古诗词的白话文文本;将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。通过本发明专利技术实施例提供的古诗词生成方法和装置,可以直接将未标注的古诗词文本输入到生成器中对所述生成器进行预训练,使得预训练生成器具有古诗词的内在结构和语义关系,对古诗词的模式有较强的判断力。

A method and device for generating ancient poetry

【技术实现步骤摘要】
一种古诗词生成方法和装置
本专利技术涉及计算机
,具体而言,涉及一种古诗词生成方法和装置。
技术介绍
目前,古诗词是中国古代的一种文体,其特征是以文字为基础来写作,注重典故、骈俪对仗、音律工整且不使用标点。与现代使用的白话文相比,古诗词更为简洁典雅且能够表达更丰富的含义,但现代人很少背诵古诗,只能用白话文进行表达,所以需要将白话文转换成文言文。相关技术中,基于白话文到古诗词生成方法大都是将其视为一种“机器翻译”任务,也就是把白话文视为源语言,把古诗词视为目标语言,然后使用一个编码-解码模型将白话文“翻译”成古诗词。然而,当前白话文到古诗词的语料较少,而翻译任务往往需要较多语料才能取得较好的结果,所以上述使用一个编码-解码模型将白话文“翻译”成古诗词的方法无法生成高质量的古诗词。
技术实现思路
为解决上述问题,本专利技术实施例的目的在于提供一种古诗词生成方法和装置。第一方面,本专利技术实施例提供了一种古诗词生成方法,包括:获取多个古诗词文本和待生成古诗词的白话文文本;将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。第二方面,本专利技术实施例还提供了一种古诗词生成装置,包括:获取模块,用于获取多个古诗词文本和待生成古诗词的白话文文本;预训练模块,用于将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;处理模块,用于利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。第三方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。第四方面,本专利技术实施例还提供了一种古诗词生成装置,所述古诗词生成装置包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行上述第一方面所述的方法的步骤。本专利技术实施例上述第一方面至第四方年提供的方案中,通过将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器,然后利用预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词,与相关技术中把白话文视为源语言,把古诗词视为目标语言,然后使用一个编码-解码模型将白话文“翻译”成古诗词的方式相比,无需标注大量的能够翻译成古诗词的白话文,可以直接将未标注的古诗词文本输入到生成器中对所述生成器进行预训练,使得预训练生成器具有古诗词的内在结构和语义关系,对古诗词的模式有较强的判断力,从而利用预训练生成器对所述白话文文本的文本特征向量进行处理,就可以生成与白话文文本对应的古诗词,提高了古诗词的生成质量。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术实施例1所提供的一种古诗词生成方法的流程图;图2示出了本专利技术实施例2所提供的一种古诗词生成装置的结构示意图;图3示出了本专利技术实施例3所提供的另一种古诗词生成装置的结构示意图。具体实施方式目前,古诗词是中国古代的一种文体,其特征是以文字为基础来写作,注重典故、骈俪对仗、音律工整且不使用标点。与现代使用的白话文相比,古诗词更为简洁典雅且能够表达更丰富的含义,但现代人很少背诵古诗,只能用白话文进行表达,所以需要将白话文转换成文言文。相关技术中,基于白话文到古诗词生成方法大都是将其视为一种“机器翻译”任务,也就是把白话文视为源语言,把古诗词视为目标语言,然后使用一个编码-解码模型将白话文“翻译”成古诗词。然而,当前白话文到古诗词的语料较少,而翻译任务往往需要较多语料才能取得较好的结果,所以上述使用一个编码-解码模型将白话文“翻译”成古诗词的方法无法生成高质量的古诗词。基于此,本实施例提出一种古诗词生成方法和装置,通过将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器,然后利用预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词,无需标注大量的能够翻译成古诗词的白话文,可以直接将未标注的古诗词文本输入到生成器中对所述生成器进行预训练,使得预训练生成器具有古诗词的内在结构和语义关系,对古诗词的模式有较强的判断力,从而利用预训练生成器对所述白话文文本的文本特征向量进行处理,就可以生成与白话文文本对应的古诗词,提高了古诗词的生成质量。在以下各实施例中,术语“加噪古诗”与“加噪古诗词”的含义相同。为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。实施例1本实施例提出一种古诗词生成方法,执行主体是服务器。所述服务器,可以采用现有技术中任何能够对白话文文本的文本特征向量进行处理,生成古诗词的计算设备。参见图1所示的一种古诗词生成方法的流程图,本实施例提出一种古诗词生成方法,可以包括以下具体步骤:步骤100、获取多个古诗词文本和待生成古诗词的白话文文本。在上述步骤100中,多个古诗词文本,可以是服务器从互联网中通过爬虫技术爬取到的,也可以是缓存在服务器中的古诗词数据库中的。这里,所述多个古诗词文本,是无标注的古诗词文本。所述无标注的古诗词文本,是指未经人工翻译成白话文的古诗词文本。将所述古诗词文本,翻译成白话文的过程,就叫做标注。比如:对古诗词:“锄禾日当午”进行标注,得到的白话文可以是:“农民在正午暴晒的烈日下耕地”。所述待生成古诗词的白话文文本,是用户输入到服务器中的未标注的白话文文本。在一个实施方式中,可以是“农民在中午太阳下锄地”。步骤102、将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器。在上述步骤102中,所述生成器,可以是运行在服务器中,用于对白话文中字符的特征向量进行处理,得到古诗词的字符的特征向量应用程序。在一个实施方式中,所述生成器,可以采用但不限于:BERT模型和BiLSTM模型。为了得到预训练生成器,所述步骤102可以执行以下步骤(1)至步骤(2):(1)利用预设字符对多个古诗词文本中各古诗词文本中每一诗句中的任一字符进行替换,得到替换后的多个古诗词文本;(2)将替换后的多个古诗词文本输入到生成器中,使用生成器对替换后的各古诗词文本中被本文档来自技高网...

【技术保护点】
1.一种古诗词生成方法,其特征在于,包括:/n获取多个古诗词文本和待生成古诗词的白话文文本;/n将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;/n利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。/n

【技术特征摘要】
1.一种古诗词生成方法,其特征在于,包括:
获取多个古诗词文本和待生成古诗词的白话文文本;
将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;
利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。


2.根据权利要求1所述的方法,其特征在于,将所述无标注的多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器,包括:
利用预设字符对多个古诗词文本中各古诗词文本中每一诗句中的任一字符进行替换,得到替换后的多个古诗词文本;
将替换后的多个古诗词文本输入到生成器中,使用生成器对替换后的各古诗词文本中被所述预定字符替换掉的字符进行预测,从而对所述生成器进行预训练,得到预训练生成器。


3.根据权利要求1所述的方法,其特征在于,利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词,包括:
利用文本编码器对所述白话文文本的各字符进行处理,得到所述白话文文本中各字符的文本特征向量;
利用所述预训练生成器对所述各字符的文本特征向量进行处理,得到所述白话文文本对应古诗词各字符的诗词特征向量;
将所述预训练生成器生成的所述古诗词中最后生成的字符的诗词特征向量输入到判别器中,使得所述判别器利用判别向量与所述古诗词中最后生成的字符的诗词特征向量进行点积计算,得到第一点积计算结果;
当所述第一点积计算结果大于点积阈值时,对所述预训练生成器生成的所述古诗词各字符的诗词特征向量进行处理,生成所述白话文文本对应的古诗词。


4.根据权利要求3所述的方法,其特征在于,利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词,还包括:
当获取到古诗词多样化指令时,通过标准正态分布噪声对所述白话文文本中各字符的文本特征向量进行加噪处理,得到所述白话文文本中各字符的加噪特征向量;
利用所述预训练生成器对所述白话文文本中各字符的加噪特征向量进行处理,得到加噪古诗词的各字符的第一加噪特征向量;
将所述预训练生成器生成的所述加噪古诗词中最后生成的字符的第一加噪特征向量输入到判别器中,使得所述判别器利用所述判别向量与所述加噪古诗词中最后生成的字符的第一加噪特征向量进行点积计算,得到第二点积计算结果;
当所述第二点积计算结果大于点积阈值时,对所述预训练生成器生成的加噪古诗词的各字符的加噪特征向量进行处理,生成加噪古诗词。


5.根据权利要求1所述的方法,其特征在于,在所述利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词步骤之前,所述方法还包括:
获取已标注的白话文文本,利用文本编码器对所述已标注的白话文文本的各字符进行处理,得到所述已标注的白话文文本中各字符的文本特征向量;
利用所述预训练生成器对所述已标注的白话文文本中各字符的文本特征向量进行处理,得到已标注的白话文文本对应的古诗词各字符的特征向量;
通过标准正态分布噪声对所述已标注的白话文文本中各字符的文本特征向量进行加噪处理,得到已...

【专利技术属性】
技术研发人员:韩庆宏李纪为
申请(专利权)人:北京香侬慧语科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1