一种基于语言模型的修辞古诗自动生成方法技术

技术编号:34093070 阅读:11 留言:0更新日期:2022-07-11 21:39
本发明专利技术公开一种基于语言模型的修辞古诗自动生成方法,步骤为:网上收集现存古诗数据,数据处理形成以两句为单位的数据集,仅保留五个字或七个字的句对;选取名篇数据进行人工修辞标注,将每一条数据标注为以下四类中的一种:比喻、拟人、夸张、其它;总结出每种修辞手法的词句特征,写成正则表达式,并匹配获得部分标注数据;将所有标注数据训练一个修辞分类器,构建带修辞标签的古诗数据集;将原始数据中的每一首绝句古诗中修辞类型、关键词、体裁类型以及古诗内容序列化后进行训练,得到具有修辞手法创作能力的古诗生成模型。本发明专利技术在模型中显式的引入古诗的修辞因素,可以让模型使用特定修辞手法来进行古诗的生成,从而显著的提高古诗质量。提高古诗质量。提高古诗质量。

【技术实现步骤摘要】
一种基于语言模型的修辞古诗自动生成方法


[0001]本专利技术涉及一种自然语言处理技术,具体为一种基于语言模型的修辞古诗自动生成方法。

技术介绍

[0002]古诗作为一种艺术形式,其语言高度凝练且语义丰富,短小精悍的篇幅中常常使用大量的表现手法,精炼的文字经过文人墨客的巧妙运用,达到了极高的艺术效果。另一方面,古诗创作作为一种艺术活动,不仅要求文字简洁凝练,而且遣词造句需要符合格律,自古以来一直都是文人雅士的专利,普通人难以涉足。
[0003]近年来,随着深度学习在自然语言处理(NLP,Nature Language Processing)领域的巨大成功,如注意力机制、Transformer模型、预训练GPT、BERT等相继被提出,机器翻译、文本生成等研究方向取得了显著的进展。人们意识到计算机在帮助人类诗歌创作方面发挥重要作用,因此古诗自动生成的研究得到了人们的广泛关注。让生成的古诗尽可能符合人们的审美一直是古诗生成任务的核心目标,影响诗歌的质量有很多方面,主流的改进工作主要集中于连贯性与一致性、多样性、格律等方面,并且已经取得了显著的效果,然而与人类水平差距仍然较大,诗歌质量还有进一步的提升空间。人类创作古诗创的因素包含许多方面,在表现手法层面,修辞的应用是一个很典型的特征,这种高级写作手法的应用能极大增强诗作的感染力和表现力,从而大大增加作品的艺术性。目前这方面的探索工作还较少,已有相关工作模型方法较为复杂,需要手工进行精细的参数调整,泛化能力较差。

技术实现思路

[0004]针对现有技术中存在的上述不足,本专利技术要解决的技术问题是提供一种基于语言模型的修辞古诗自动生成方法,将古诗的修辞因素引入模型中,让模型具备能够使用特定修辞手法来进行创作的古诗,以此来提升生成诗歌的多样性、趣味性和新颖性,从而增加读者阅读过程中的审美体验。
[0005]为解决上述技术问题,本专利技术采用的技术方案:
[0006]一种基于语言模型的修辞古诗自动生成方法,包括以下步骤:
[0007]1)网上收集现存古诗数据,进行数据清洗、分词预处理过程,以字为分词单位将数据处理成以两句为单位的数据集,仅保留五个字或七个字的句对;
[0008]2)选取步骤1)中的名篇数据进行人工修辞标注,将每一条数据标注为以下四类中的一种:比喻、拟人、夸张、其它;
[0009]3)查阅资料和对标注的数据进行分析,总结出每种修辞手法的词句特征,写成正则表达式,之后利用正则表达式去匹配获得部分标注数据;
[0010]4)将步骤2)和步骤3)中获得的所有标注数据训练一个修辞分类器,之后用该分类器对剩余数据进行修辞标注,以此构建一个带修辞标签的古诗数据集;
[0011]5)将原始数据中的每一首绝句古诗中修辞类型、关键词、体裁类型、古诗内容按照
规定格式序列化形成一个长句子,然后以此去训练语言模型,得到具有修辞手法创作能力的古诗生成模型。
[0012]在步骤1)中,对收集到的古诗数据进行清洗和分词,对数据中的标点符号进行统一,只保留逗号、句号、顿号三种标点符号,经过去重之后以字为分词单位,之后将数据处理成以两句为单位的数据集,其中仅保留五个字或七个字的句对。
[0013]在步骤2)中人工标注收集到的古诗数据中的名篇,以擅长使用修辞手法的诗人作品作为标注目标,将每一条数据标注为以下四类中的一种:比喻、拟人、夸张、其它。
[0014]在步骤3)利用每种修辞手法的词句特征来提取出部分标注数据,具体如下:
[0015]301)通过查阅相关资料和对已标注数据的分析,总结出各类修辞手法中常用的模式,并将这些模式写成正则表达式;
[0016]302)在步骤1)中处理好的数据中去掉已经人工标注过的句对,之后使用这些正则表达式去分别匹配以自动提取出修辞诗句。
[0017]在步骤4)训练一个修辞分类器对剩余数据进行修辞标注,具体为:
[0018]401)从步骤2)和步骤3)中得到的标注数据中随机抽取规定阈值数量的数据作为验证集,剩下的作为训练集;
[0019]402)使用BERT来作为分类器模型,以BERT

CCPoem来进行模型参数初始化,取其顶层CLS位置的表示送到分类层中进行训练;
[0020]403)在验证集上进行参数调优得到一个优化后的修辞分类器,之后使用该分类器对剩余数据进行修辞标注。
[0021]在步骤5)中按照规定格式将古诗序列化形成一个长句子,然后以此去训练语言模型得到具有修辞手法创作能力的古诗生成模型,具体为:
[0022]501)使用关键词提取工具对每一首绝句进行关键词提取,之后随机从中选取1

2个作为写作意图;
[0023]502)把一首古诗中的内容、写作意图、体裁类型和修辞类型四部分信息按照“体裁类型+修辞类型+关键词+分隔符+古诗内容”的格式拼接形成一个长序列,如果有多个关键词,则每个关键词之间以分隔符隔开;
[0024]503)将上述处理好的训练数据使用Transformer Decoder模型来进行语言模型任务的训练,待模型收敛后即可得到具有修辞手法创作能力的古诗生成模型;
[0025]504)在使用阶段,用户给定想要生成的古诗的体裁、修辞手法、关键词,按照训练时的方式进行预处理后送入古诗生成模型中,古诗生成模型以Top

K算法来进行解码,以保证生成内容的多样性。
[0026]本专利技术具有以下有益效果及优点:
[0027]1.本专利技术提出了基于语言模型的修辞古诗自动生成方法,在模型中显式的引入古诗的修辞因素,可以让模型使用特定修辞手法来进行古诗的生成,从而显著的提高古诗质量。
[0028]2.本专利技术简单有效,容易实现,不需要对模型进行复杂的修改,只需要在训练数据层面进行定制即可。
[0029]3.本专利技术的修辞古诗自动生成系统有着实际的应用价值,不仅可以应用于娱乐生活、辅助创作等场景中,而且对助力于人文研究、诗词教育等也有积极的意义。
附图说明
[0030]图1为本专利技术中基于BERT的修辞分类模型图示;
[0031]图2为本专利技术提出的方法整体框架图示;
[0032]图3为本专利技术中的模型结构图示。
具体实施方式
[0033]下面结合说明书附图对本专利技术作进一步阐述。
[0034]本专利技术提出了一种基于语言模型的修辞古诗自动生成方法,在模型中引入古诗的修辞因素,让模型具备能够使用特定修辞手法来进行创作的古诗,以此来提升生成诗歌的多样性、趣味性和新颖性,从而增加读者阅读过程中的审美体验。
[0035]本专利技术提出了一种基于语言模型的修辞古诗自动生成方法,包括以下步骤:
[0036]1)网上收集现存古诗数据,进行数据清洗、分词预处理过程,以字为分词单位将数据处理成以两句为单位的数据集,仅保留五个字或七个字的句对;
[0037]2)选取步骤1)中的名篇数据进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语言模型的修辞古诗自动生成方法,其特征在于包括以下步骤:1)网上收集现存古诗数据,进行数据清洗、分词预处理过程,以字为分词单位将数据处理成以两句为单位的数据集,仅保留五个字或七个字的句对;2)选取步骤1)中的名篇数据进行人工修辞标注,将每一条数据标注为以下四类中的一种:比喻、拟人、夸张、其它;3)查阅资料和对标注的数据进行分析,总结出每种修辞手法的词句特征,写成正则表达式,之后利用正则表达式去匹配获得部分标注数据;4)将步骤2)和步骤3)中获得的所有标注数据训练一个修辞分类器,之后用该分类器对剩余数据进行修辞标注,以此构建一个带修辞标签的古诗数据集;5)将原始数据中的每一首绝句古诗中修辞类型、关键词、体裁类型、古诗内容按照规定格式序列化形成一个长句子,然后以此去训练语言模型,得到具有修辞手法创作能力的古诗生成模型。2.按权利要求1所述的基于语言模型的修辞古诗自动生成方法,其特征在于:在步骤1)中,对收集到的古诗数据进行清洗和分词,对数据中的标点符号进行统一,只保留逗号、句号、顿号三种标点符号,经过去重之后以字为分词单位,之后将数据处理成以两句为单位的数据集,其中仅保留五个字或七个字的句对。3.按权利要求1所述的基于语言模型的修辞古诗自动生成方法,其特征在于:在步骤2)中人工标注收集到的古诗数据中的名篇,以擅长使用修辞手法的诗人作品作为标注目标,将每一条数据标注为以下四类中的一种:比喻、拟人、夸张、其它。4.按权利要求1所述的基于语言模型的修辞古诗自动生成方法,其特征在于:在步骤3)利用每种修辞手法的词句特征来提取出部分标注数据,具体如下:301)通过查阅相关资料和对已标注数据的分析,总结出各类修辞手法中常用的模式,并将这些模式写成正则表达式;302)在...

【专利技术属性】
技术研发人员:杜权田丰宁
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1