当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于大语言模型的诗歌数据增强方法技术

技术编号:41370846 阅读:20 留言:0更新日期:2024-05-20 10:16
本发明专利技术公开一种基于大语言模型的诗歌数据增强方法,步骤为:1)从互联网中收集海量的诗歌数据,文体格式限定为绝句与律诗;针对收集的诗歌数据进行数据清洗;2)挑选格律准确的高质量诗歌作为内容和格律的标准,随机挑选步骤1)中清洗后诗歌数据的5%,使用大语言模型参照标准进行综合评分;3)对步骤2)中得到的诗歌数据及诗歌质量综合评分数据进行训练得到诗歌质量评价模型;4)使用步骤3)中的诗歌质量评价模型对步骤1)中的清洗后的全部诗歌数据进行评分,根据分数筛选出高质量诗歌数据,实现诗歌数据增强。本发明专利技术方法辅助诗歌数据集进行数据增强,减少噪声数据的干扰,达到提高诗歌数据集质量的效果,更加节省成本。

【技术实现步骤摘要】

本专利技术涉及一种自然语言处理技术,具体为一种基于大语言模型的诗歌数据增强方法


技术介绍

1、随着近些年来深度学习技术的不断进步,计算机视觉、自然语言处理等领域也快速发展。研究人员将深度学习技术应用在语音识别、机器翻译、文本分类、文本生成等多项任务中,并取得了许多突破性的进展。由计算机来完成文本生成能够做到省时省力,但是其内容质量还有待提升。人们也逐渐发现计算机生成的文本内容可以辅助人类完成一部分的工作,也有一些研究人员投入到了特定领域文本生成的研究中。而诗歌自动生成也逐渐成为了文本生成领域的研究热点之一。

2、诗歌是一种艺术表达形式,其最初起源于人们的日常生活。创作者能够通过诗歌简短的文字来描述其所见所感,并表达出情感和思绪。在中国悠久的文化历史中,诗歌占据了很大的比例。诗歌可以直抒胸臆、写景状物、寓理载道,涉及到人们生活的方方面面,由文采斐然的文学大家所创作出的诗歌能够被广为传颂,并对后世产生深刻的意义。因此诗歌在中国历史上具有深远的影响,也是中国传统文化的重要组成部分。但是优秀的诗歌作品要求文字简洁,对事物有生动形象的描述,并具有丰富的本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的诗歌数据增强方法,其特征在于包括以下步骤:

2.根据权利要求1所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤1)中,针对收集的诗歌数据进行数据清洗,具体方法为:

3.根据权利要求2所述的基于大语言模型的诗歌数据增强方法,其特征在于:使用规则方法进行筛选,具体为:

4.根据权利要求1所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤2)中,挑选格律准确的高质量诗歌作为内容和格律的标准,使用大语言模型参照标准对步骤1)中的部分诗歌数据进行综合评分,具体为:

5.根据权利要求3所述的基于大语言模型的诗歌...

【技术特征摘要】

1.一种基于大语言模型的诗歌数据增强方法,其特征在于包括以下步骤:

2.根据权利要求1所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤1)中,针对收集的诗歌数据进行数据清洗,具体方法为:

3.根据权利要求2所述的基于大语言模型的诗歌数据增强方法,其特征在于:使用规则方法进行筛选,具体为:

4.根据权利要求1所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤2)中,挑选格律准确的高质量诗歌作为内容和格律的标准,使用大语言模型参照标准对步骤1)中的部分诗歌数据进行综合评分,具体为:

5.根据权利要求3所述的基于大语言模型的诗歌数据增强方法,其特征在于:在步骤203)中,每次从格律准确的高质量诗歌中随机选择n首诗作为参考标准,即n-shot,n为大于等于3、小于等于10的...

【专利技术属性】
技术研发人员:谈修泽刘晓雯王杰马安香
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1