模型训练及古诗生成方法、古诗生成模型、设备和介质技术

技术编号:24757323 阅读:28 留言:0更新日期:2020-07-04 09:25
本发明专利技术涉及人工智能的深度学习技术领域,提供一种模型训练及古诗生成方法、古诗生成模型、设备和介质。模型训练方法包括步骤:根据多个训练主题和每个所述训练主题关联的训练古诗,分别以每首所述训练古诗为训练样本,训练古诗生成模型,包括:获得一第一训练古诗的每句诗句的关键词;根据第一时刻的目标输出、所述第一时刻的下一时刻的目标输出的所属诗句的关键词、及所述第一训练古诗基于所述下一时刻的历史预测信息,生成所述下一时刻的输入信息;以及将所述下一时刻的输入信息输入所述古诗生成模型,获得所述下一时刻的预测输出。本发明专利技术将关键词和历史信息添加入模型的输入中,使生成的古诗主题清晰、上下文对应、整体连贯。

Model training and ancient poetry generation method, ancient poetry generation model, equipment and media

【技术实现步骤摘要】
模型训练及古诗生成方法、古诗生成模型、设备和介质
本专利技术涉及人工智能的深度学习
,具体地说,涉及一种模型训练及古诗生成方法、古诗生成模型、设备和介质。
技术介绍
随着深度学习在自然语言领域的发展,文本生成技术也逐渐有了一些应用,比较常见的就是诗歌生成,生成的诗歌可以在节假日或纪念日作为祝福语发送给用户,以此表达对用户节日的问候。目前的古诗生成技术,虽然在用词和韵律上的效果基本达到比较好的水平,但是经常会出现上下文关联不高,前后诗句表达意思不一致的情况,这样的诗虽然读起来有诗的感觉,但整首诗表达的主题缺乏整体性和前后连贯性。需要说明的是,上述
技术介绍
部分申请的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
有鉴于此,本专利技术提供一种模型训练及古诗生成方法、古诗生成模型、设备和介质,通过将关键词和历史信息添加入模型的输入中,使生成的古诗主题清晰、上下文对应、整体连贯。本专利技术的第一方面提供一种模型训练方法,包括步骤:根据多个训练主题和每个所述训练主题关联的训练古诗,分别以每首所述训练古诗为训练样本,训练古诗生成模型,包括:获得一第一训练古诗的每句诗句的关键词;根据第一时刻的目标输出、所述第一时刻的下一时刻的目标输出的所属诗句的关键词、及所述第一训练古诗基于所述下一时刻的历史预测信息,生成所述下一时刻的输入信息;以及,将所述下一时刻的输入信息输入所述古诗生成模型,获得所述下一时刻的预测输出。在一个实施例中,所述古诗生成模型包括Embedding层,所述生成所述下一时刻的输入信息的步骤包括:Embedding层将所述第一时刻的目标输出、所述下一时刻的目标输出的所属诗句的关键词、及所述第一训练古诗的历史预测信息映射至向量空间并拼接,生成所述下一时刻的字向量;以及,根据所述下一时刻的字向量生成所述下一时刻的输入信息。在一个实施例中,所述生成所述下一时刻的字向量之后,还包括:根据所述下一时刻的目标输出在其所属诗句中的位置,生成所述下一时刻的位置向量;以及,根据所述下一时刻的字向量和所述下一时刻的位置向量,拼接生成所述下一时刻的输入信息。在一个实施例中,所述古诗生成模型包括GRU网络层和MLP层,所述获得所述下一时刻的预测输出的步骤包括:GRU网络层根据所述下一时刻的输入信息,输出与所述下一时刻的输入信息的向量维度对应的多个预测输出;以及,MLP层根据Softmax函数筛选所述多个预测输出的概率值排序中最大概率值对应的预测输出,作为所述下一时刻的预测输出。在一个实施例中,所述根据第一时刻的目标输出的步骤中,通过TeacherForcing函数将所述第一时刻的预测输出更新为所述第一时刻的目标输出。在一个实施例中,所述获得一第一训练古诗的每句诗句的关键词的步骤包括:对所述第一训练古诗的每句诗句进行分词,获得每句诗句的词汇集;计算每个词汇在其所属诗句的词汇集中的词频TF及其所属诗句在所述第一训练古诗中的逆文档频率IDF;根据每个所述词汇的词频TF和该所述词汇的所属诗句的逆文档频率IDF,获得每个所述词汇的TF-IDF值;以及,分别筛选每句诗句中TF-IDF值最高的词汇作为每句诗句的关键词。在一个实施例中,所述获得每句诗句的词汇集的步骤中,获得一第一诗句的词汇集的步骤包括:对所述第一诗句进行自动分割,获得第一分词词组;通过二元分词法对所述第一诗句进行分割,获得第二分词词组;通过三元分词法对所述第一诗句进行分割,获得第三分词词组;以及,将所述第一分词词组、所述第二分词词组和所述第三分词词组进行合并去重,获得所述第一诗句的词汇集。在一个实施例中,所述获得每个所述词汇的TF-IDF值的步骤包括:根据一第一古诗词典遍历各所述词汇集,对各所述词汇集中命中所述第一古诗词典中的古诗词的词汇的TF-IDF值进行加权;和/或,根据一第二古诗词典遍历各所述词汇集,筛除各所述词汇集中命中所述第二古诗词典中的古诗词的词汇。本专利技术的第二方面提供一种古诗生成方法,根据一目标主题,通过基于上述任意实施例所述的模型训练方法训练的古诗生成模型生成目标古诗,包括步骤:生成第二时刻的K个候选项,包括:根据所述第二时刻的所属诗句的关键词和所述目标古诗基于所述第二时刻的历史生成信息,生成所述第二时刻的输入信息;根据所述第二时刻的输入信息获得所述第二时刻的多个生成字;通过集束搜索筛选所述多个生成字的概率值排序的前K个生成字,分别与所述第二时刻的所属诗句的历史生成信息中各生成项组合成多个候选项;以及,筛选所述多个候选项的概率值排序的前K个候选项,作为所述第二时刻的K个候选项。在一个实施例中,所述古诗生成方法还包括步骤:根据所述第二时刻的所属诗句的字数,循环执行所述生成第二时刻的K个候选项的步骤,获得所述第二时刻的所属诗句的K个生成诗句;根据所述目标古诗的诗句数,循环执行所述获得所述第二时刻的所属诗句的K个生成诗句的步骤,获得所述目标古诗的每句诗句的K个生成诗句;以及,对所述目标古诗的每句诗句的K个生成诗句进行组合和筛选,获得所述目标古诗。在一个实施例中,所述根据所述第二时刻的所属诗句的关键词的步骤包括:当所述第二时刻的所属诗句的历史生成信息为空时,根据所述目标主题获得所述第二时刻的关键词;以及,当所述第二时刻的所属诗句的历史生成信息不为空时,根据获得的所述第二时刻的关键词遍历各训练样本的关键词集,从各所述训练样本的关键词集中筛选与获得的所述第二时刻的关键词匹配度最高的一关键词,作为所述第二时刻的关键词。本专利技术的第三方面提供一种古诗生成方法,根据一目标主题,通过基于上述任意实施例所述的模型训练方法训练的古诗生成模型生成目标古诗,包括步骤:生成第二时刻的N个候选字,包括:根据所述第二时刻的所属诗句的关键词和所述目标古诗基于所述第二时刻的历史生成信息,生成所述第二时刻的输入信息;将所述第二时刻的输入信息复制N份,生成N维输入矩阵,根据所述N维输入矩阵获得N份各自包括多个生成字的生成输出;筛选并分别依次累加每份生成输出的多个生成字的概率值排序的前J个概率值,生成N个累加求和矩阵;获得N个随机变量,分别根据各随机变量与各累加求和矩阵的最大值的乘积,筛选每个累加求和矩阵中相邻并小于其对应乘积的值;以及,获得每个筛选出的值对应的概率值所对应的生成字,作为每份生成输出的候选字,生成所述第二时刻的N个候选字。在一个实施例中,所述古诗生成方法还包括步骤:根据所述目标古诗的字数,循环执行所述生成第二时刻的N个候选字的步骤,获得N首候选古诗;以及,对所述N首候选古诗进行筛选,获得所述目标古诗。在一个实施例中,所述根据所述第二时刻的所属诗句的关键词的步骤包括:当所述第二时刻的所属诗句的历史生成信息为空时,根据所述目标主题获得所述第二时刻的关键词;以及,当所述第二时刻的所属诗句的历史生成信息不为空时,根据获得的所述第二时刻的关键词遍历各训练样本的关键词集,从各所述训练样本的关键词集中筛选与获得的所述第二时刻的关键词匹配度最高的一关键词,作为所述第二时本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,包括步骤:/n根据多个训练主题和每个所述训练主题关联的训练古诗,分别以每首所述训练古诗为训练样本,训练古诗生成模型,包括:/n获得一第一训练古诗的每句诗句的关键词;/n根据第一时刻的目标输出、所述第一时刻的下一时刻的目标输出的所属诗句的关键词、及所述第一训练古诗基于所述下一时刻的历史预测信息,生成所述下一时刻的输入信息;以及/n将所述下一时刻的输入信息输入所述古诗生成模型,获得所述下一时刻的预测输出。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括步骤:
根据多个训练主题和每个所述训练主题关联的训练古诗,分别以每首所述训练古诗为训练样本,训练古诗生成模型,包括:
获得一第一训练古诗的每句诗句的关键词;
根据第一时刻的目标输出、所述第一时刻的下一时刻的目标输出的所属诗句的关键词、及所述第一训练古诗基于所述下一时刻的历史预测信息,生成所述下一时刻的输入信息;以及
将所述下一时刻的输入信息输入所述古诗生成模型,获得所述下一时刻的预测输出。


2.如权利要求1所述的模型训练方法,其特征在于,所述古诗生成模型包括Embedding层,所述生成所述下一时刻的输入信息的步骤包括:
Embedding层将所述第一时刻的目标输出、所述下一时刻的目标输出的所属诗句的关键词、及所述第一训练古诗的历史预测信息映射至向量空间并拼接,生成所述下一时刻的字向量;以及
根据所述下一时刻的字向量生成所述下一时刻的输入信息。


3.如权利要求2所述的模型训练方法,其特征在于,所述生成所述下一时刻的字向量之后,还包括:
根据所述下一时刻的目标输出在其所属诗句中的位置,生成所述下一时刻的位置向量;以及
根据所述下一时刻的字向量和所述下一时刻的位置向量,拼接生成所述下一时刻的输入信息。


4.如权利要求2或3所述的模型训练方法,其特征在于,所述古诗生成模型包括GRU网络层和MLP层,所述获得所述下一时刻的预测输出的步骤包括:
GRU网络层根据所述下一时刻的输入信息,输出与所述下一时刻的输入信息的向量维度对应的多个预测输出;以及
MLP层根据Softmax函数筛选所述多个预测输出的概率值排序中最大概率值对应的预测输出,作为所述下一时刻的预测输出。


5.如权利要求1所述的模型训练方法,其特征在于,所述根据第一时刻的目标输出的步骤中,通过TeacherForcing函数将所述第一时刻的预测输出更新为所述第一时刻的目标输出。


6.如权利要求1所述的模型训练方法,其特征在于,所述获得一第一训练古诗的每句诗句的关键词的步骤包括:
对所述第一训练古诗的每句诗句进行分词,获得每句诗句的词汇集;
计算每个词汇在其所属诗句的词汇集中的词频TF及其所属诗句在所述第一训练古诗中的逆文档频率IDF;
根据每个所述词汇的词频TF和该所述词汇的所属诗句的逆文档频率IDF,获得每个所述词汇的TF-IDF值;以及
分别筛选每句诗句中TF-IDF值最高的词汇作为每句诗句的关键词。


7.如权利要求6所述的模型训练方法,其特征在于,所述获得每句诗句的词汇集的步骤中,获得一第一诗句的词汇集的步骤包括:
对所述第一诗句进行自动分割,获得第一分词词组;
通过二元分词法对所述第一诗句进行分割,获得第二分词词组;
通过三元分词法对所述第一诗句进行分割,获得第三分词词组;以及
将所述第一分词词组、所述第二分词词组和所述第三分词词组进行合并去重,获得所述第一诗句的词汇集。


8.如权利要求6所述的模型训练方法,其特征在于,所述获得每个所述词汇的TF-IDF值的步骤包括:
根据一第一古诗词典遍历各所述词汇集,对各所述词汇集中命中所述第一古诗词典中的古诗词的词汇的TF-IDF值进行加权;和/或
根据一第二古诗词典遍历各所述词汇集,筛除各所述词汇集中命中所述第二古诗词典中的古诗词的词汇。


9.一种古诗生成方法,其特征在于,根据一目标主题,通过基于权利要求1-8任一项所述的模型训练方法训练的古诗生成模型生成目标古诗,包括步骤:
生成第二时刻的K个候选项,包括:
根据所述第二时刻的所属诗句的关键词和所述目标古诗基于所述第二时刻的历史生成信息,生成所述第二时刻的输入信息;
根据所述第二时刻的输入信息获得所述第二时刻的多个生成字;
通过集束搜索筛选所述多个生成字的概率值排序的前K个生成字,分别与所述第二时刻的所属诗句的历史生成信息中各生成项组合成多个候选项;以及
筛选所述多个候选项的概率值排序的前K个候选项,作为所述第二时刻的K个候选项。


10.如权利要求9所述的古诗生成方法,其特征在于,还包括步骤:
根据所述第二时刻的所属诗句的字数,循环执行所述生成第二时刻的K个候选项的步骤,获得所述第二时刻的所属诗句的K个生成诗句;
根据所述目标古诗的诗句数,循环执行所述获得所述第二时刻的所属诗句的K个生成诗句的步骤,获得所述目标古诗的每句诗句的K个生成诗句;以及
对所述目标古诗的每句诗句的K个生成诗句...

【专利技术属性】
技术研发人员:赵江杰张坤雷陈学文
申请(专利权)人:爱驰汽车有限公司
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1