当前位置: 首页 > 专利查询>云南大学专利>正文

一种神话诗歌修复方法技术

技术编号:39712725 阅读:10 留言:0更新日期:2023-12-17 23:21
本发明专利技术公开了一种神话诗歌修复方法

【技术实现步骤摘要】
一种神话诗歌修复方法、系统、电子设备及介质


[0001]本专利技术涉及可控文本生成领域,特别是涉及一种神话诗歌修复方法

系统

电子设备及介质


技术介绍

[0002]神话诗歌是民众对世界思考与探索的产物,其多以纸质文本为载体

然而,由于自然

历史和人为等因素,记录神话诗歌内容的纸张会产生破裂

腐朽及字迹褪色等种种损伤,使得其完整性遭到破坏,故针对神话诗歌缺失句子进行修复,具有丰富的现实意义,有助于学者研究文化文学,推动文学的保护

传承与发展

[0003]目前,缺损神话诗歌修复方法主要是文学研究人员依据其文学素养和专业领域知识补全缺失句子,由于神话诗歌文章篇幅长,研究人员需要耗费大量时间理解神话诗歌内容,同时文学专业研究人力资源稀缺,仅靠人工修复无法充分满足当前神话诗歌的修复需求,故需建立一种计算机辅助手段,帮助文学研究人员快速修复神话诗歌

[0004]文本生成是指自动生成类似自然语言的文本,公知的基于文本生成的修复方法在预训练语言模型的基础上,能很好地生成话语流畅和语句多样的文本句子

例如,申请号为
202211593665.9
的专利,基于标准的
Transformer
模型对输入文本进行注意力计算,并结合输入文本的词性知识和句法知识提升生成的文本句子的流畅性

申请号为
>202211609591.3
的专利,分别训练主题

情感和写作风格的判别器模型,利用贝叶斯公式

联合预训练语言模型的输出概率和判别器模型的输出概率,从而生成同时满足主题

情感和写作风格要求的文本句子

然而,这些方法仅使用生成句子之前的文本句子信息,并未考虑生成句子之后的文本句子信息,难以扩展到同时具有上下文信息的神话诗歌修复任务上

[0005]文本修复是根据上下文信息自动生成文本句子或段落中的缺失部分,目前公知的基于预训练语言模型的文本修复方法实现了文本句子中缺失词汇的修复

例如,田文靖提出的基于深度学习的文本填充算法研究的文献中,提出了一种基于预测网络与语义相似度融合损失的文本填充方法,首先使用双向长短期记忆网络
(Bi

directional Long Short

Term Memory

Bi

LSTM)
对缺失文本句子进行编码,得到上下文语义特征,然后使用
Transformer
网络基于上下文语义特征逐一填充句子空白缺失部分,最后基于语义相似度融合损失方法,提升填充后文本句子的语义连贯性和流畅性

盛威等提出的基于深度学习的中医古籍缺失文本修复研究的文献中,将深度学习技术应用于中医古籍缺失文本修复中,选取

黄帝内经



金匮要略

等经典中医古籍构建数据集,使用
RoBERTa
预训练语言模型对中医文本句子的缺失词汇进行生成

然而,这些方法未考虑文本句子之间的关联关系,并且存在特定领域文本中独有词汇生成困难的问题,难以扩展到具有独有词汇的神话诗歌缺失句子修复任务上

[0006]因此,如何实现神话诗歌修复,有效提升神话缺失句子的上下文相关性和连贯性成为目前亟待解决的问题


技术实现思路

[0007]基于此,本专利技术实施例提供一种神话诗歌修复方法

系统

电子设备及介质,以有效提升神话缺失句子的上下文相关性和连贯性

[0008]为实现上述目的,本专利技术实施例提供了如下方案:
[0009]一种神话诗歌修复方法,包括:
[0010]确定待修复神话诗歌中的缺失句子,得到待修复缺失句子;
[0011]基于相似度计算方法,确定待修复缺失句子的关联上下文句子集合;
[0012]根据待修复缺失句子的关联上下文句子集合构建待修复神话诗歌初始的前缀提示向量;
[0013]将与待修复缺失句子直接相连的上下两个句子进行拼接,得到待修复神话诗歌的直连长序列;
[0014]将待修复神话诗歌初始的前缀提示向量和待修复神话诗歌的直连长序列输入神话诗歌修复模型中,得到待修复神话诗歌中的缺失句子的预测值;
[0015]其中,所述神话诗歌修复模型采用训练数据对混合概率生成网络进行训练得到;所述训练数据根据多篇未缺失的神话诗歌确定;所述混合概率生成网络包括:编码器模块

前缀调优模块

解码器模块和混合概率模块;
[0016]所述编码器模块用于提取直连长序列中每个字的隐向量,得到第一隐向量;所述前缀调优模块用于对初始的前缀提示向量进行优化,得到前缀提示优化向量;所述解码器模块用于根据前缀提示优化向量提取缺失句子中每个字的隐向量,得到第二隐向量;所述混合概率模块用于根据所述第一隐向量和所述第二隐向量确定缺失句子的预测值

[0017]本专利技术还提供了一种神话诗歌修复系统,包括:
[0018]待修复缺失句子确定单元,用于确定待修复神话诗歌中的缺失句子,得到待修复缺失句子;
[0019]关联上下文句子确定单元,用于基于相似度计算方法,确定待修复缺失句子的关联上下文句子集合;
[0020]初始前缀提示向量构建单元,用于根据待修复缺失句子的关联上下文句子集合构建待修复神话诗歌初始的前缀提示向量;
[0021]直连长序列拼接单元,用于将与待修复缺失句子直接相连的上下两个句子进行拼接,得到待修复神话诗歌的直连长序列;
[0022]缺失句子预测单元,用于将待修复神话诗歌初始的前缀提示向量和待修复神话诗歌的直连长序列输入神话诗歌修复模型中,得到待修复神话诗歌中的缺失句子的预测值;
[0023]其中,所述神话诗歌修复模型采用训练数据对混合概率生成网络进行训练得到;所述训练数据根据多篇未缺失的神话诗歌确定;所述混合概率生成网络包括:编码器模块

前缀调优模块

解码器模块和混合概率模块;
[0024]所述编码器模块用于提取直连长序列中每个字的隐向量,得到第一隐向量;所述前缀调优模块用于对初始的前缀提示向量进行优化,得到前缀提示优化向量;所述解码器模块用于根据前缀提示优化向量提取缺失句子中每个字的隐向量,得到第二隐向量;所述混合概率模块用于根据所述第一隐向量和所述第二隐向量确定缺失句子的预测值

[0025]本专利技术还提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算
机程序,所述处理器运行所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种神话诗歌修复方法,其特征在于,包括:确定待修复神话诗歌中的缺失句子,得到待修复缺失句子;基于相似度计算方法,确定待修复缺失句子的关联上下文句子集合;根据待修复缺失句子的关联上下文句子集合构建待修复神话诗歌初始的前缀提示向量;将与待修复缺失句子直接相连的上下两个句子进行拼接,得到待修复神话诗歌的直连长序列;将待修复神话诗歌初始的前缀提示向量和待修复神话诗歌的直连长序列输入神话诗歌修复模型中,得到待修复神话诗歌中的缺失句子的预测值;其中,所述神话诗歌修复模型采用训练数据对混合概率生成网络进行训练得到;所述训练数据根据多篇未缺失的神话诗歌确定;所述混合概率生成网络包括:编码器模块

前缀调优模块

解码器模块和混合概率模块;所述编码器模块用于提取直连长序列中每个字的隐向量,得到第一隐向量;所述前缀调优模块用于对初始的前缀提示向量进行优化,得到前缀提示优化向量;所述解码器模块用于根据前缀提示优化向量提取缺失句子中每个字的隐向量,得到第二隐向量;所述混合概率模块用于根据所述第一隐向量和所述第二隐向量确定缺失句子的预测值
。2.
根据权利要求1所述的神话诗歌修复方法,其特征在于,基于相似度计算方法,确定待修复缺失句子的关联上下文句子集合,具体包括:构建待修复缺失句子的完整上下文数据集;待修复缺失句子的完整上下文数据集为待修复神话诗歌中除待修复缺失句子之外的句子;采用训练好的
Sentence

Bert
网络提取待修复缺失句子的完整上下文数据集中每个句子的句特征向量,并计算句特征向量之间的余弦相似度确定待修复缺失句子的关联上下文句子集合
。3.
根据权利要求2所述的神话诗歌修复方法,其特征在于,根据待修复缺失句子的关联上下文句子集合构建待修复神话诗歌初始的前缀提示向量,具体包括:将待修复缺失句子的关联上下文句子集合中每个句子的句特征向量组成句向量特征矩阵;将所述句向量特征矩阵作为待修复神话诗歌初始的前缀提示向量
。4.
根据权利要求1所述的神话诗歌修复方法,其特征在于,在根据所述第一隐向量和所述第二隐向量确定缺失句子的预测值方面,所述混合概率模块,具体用于:计算所述第一隐向量和所述第二隐向量之间的注意力权重;将所述注意力权重和所述第一隐向量进行加权求和,得到语义特征向量;根据所述语义特征向量和所述第二隐向量计算缺失句子中字的生成概率和生成概率的权重;根据所述注意力权重计算缺失句子中字的复制概率;根据字的生成概率

字的复制概率以及生成概率的权重,计算缺失句子中字的最终概率;根据字的最终概率确定缺失句子中字的预测值
。5.
根据权利要求1所述的神话诗歌修复方法,其特征在于,所述神话诗歌修复模型的确
定方法,具体包括:获取多篇未缺失的神话诗歌;对于任一未缺失的神话诗歌,随机选取未缺失的神话诗歌中的句子构建目标缺失句子数据集,并构建所述目标缺失句子数据集中每个目标缺失句子的完整上下文数据集;目标缺失句子的完整上下文数据集为未缺失的神话诗歌中除目标缺失句子之外的句子;根据所有未缺失的神话诗歌的目标缺失句子数据集和对应的完整上下文数据集,确定为训练数据;对于训练数据中任一目标缺失句子,采用训练好的
Sentence

Bert
网络提取目标缺失句子的完整上下文数据集中每个句子的句特征向量,并计算句特征向量之间的余弦相似度确定所述目标缺失句子的关联...

【专利技术属性】
技术研发人员:曹熊能王笳辉段亮岳昆张多
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1