基于端到端技术的古代汉语转现代汉语方法、系统及设备技术方案

技术编号:33950391 阅读:12 留言:0更新日期:2022-06-29 22:18
本发明专利技术提供基于端到端技术的古代汉语转现代汉语方法,包括:步骤S1.获取标准语料输入Encoder

【技术实现步骤摘要】
基于端到端技术的古代汉语转现代汉语方法、系统及设备


[0001]本专利技术属于自然语言处理
,尤其涉及一种基于端到端技术的古代汉语转现代汉语方法、系统及设备。

技术介绍

[0002]古代汉语是一种比较古老的语言,与现代汉语差异很大。将古代汉语转化为现代汉语在研究中国历史文化及科学考古等关乎人类过去与未来的事业中是一项重要且关键的工作。以古代汉语文献解读为例,典籍浩瀚、博大精深、长篇累牍,目前的翻译工作主要是通过具有专业水平的专家进行人工翻译的,全部人工进行翻译校对的工作量非常大,耗时费神且存在主观因素,翻译一致性往往不高,翻译成果可参考价值不稳定。
[0003]为了推进古代汉语转现代汉语的实施水平,当前科学家们致力于将NMT(neural machine translation,神经网络机器翻译)技术应用在文言文、古代汉语与现代汉语之间的双向互译,但是效果并不理想,不确定性高。例如,一句话会有几种等价的翻译。或者使用低质量的网络数据进行人工翻译提高翻译质量,这一过程容易出错,并导致数据分配中出现其他的不确定性。可知现有技术中主要是翻译不精准、效率不高、用户体验不佳,还不能切实满足古代汉语转现代汉语的实际需要。

技术实现思路

[0004]为解决上述现有技术的全部或部分问题,本专利技术实施例提供一种基于端到端技术的古代汉语转现代汉语方法、系统及设备。
[0005]本专利技术一方面提供的一种基于端到端技术的古代汉语转现代汉语方法,包括:步骤S1.获取标准语料输入Encoder

Decoder(编码器

解码器)神经网络结构进行语言模型训练,得到第一模型;步骤S2.基于所述第一模型,解码待翻译古代汉语文本为现代汉语文本;其中所述标准语料是指已标定转换关系的古代汉语文本和现代汉语文本。文本可以是字、词也可是句子、段落或篇章。标定转换关系的古代汉语文本和现代汉语文本是指将所述现代汉语文本是通过将古代汉语本文准确翻译后的现代汉语文本,两者之间一一对应的关系是准确的且确定的。通过将大量的已经翻译好的古代汉语和现代汉语文本输入基于Encoder

Decoder(编码器

解码器)神经网络结构的语言模型进行预训练,能够充分利用端到端模型对已经标定转换关系进行深度学习,提高翻译的速度和准确性,进一步保障古代汉语转换为现代汉语时输出结果的确定性。
[0006]所述Encoder

Decoder神经网络结构由编码器、解码器和损失函数层拼接而成;输入是预设层数的TDNN拼接TRANSFORMER的结构,输出是预设层的LSTM;所述TDNN的层数、所述LSTM的层数预设为任意正整数。
[0007]所述获取标准语料输入预训练模型的过程包括:将古代汉字编码成为特征向量的映射作为输入向量映射;将现代汉字编码成为特征向量的映射作为输出向量映射。
[0008]所述得到第一模型的过程包括:将所述编码器和所述解码器的输出通过一个连接
操作合并后,映射到和现代汉语文字数量大小一样的输出上面,并添加<blk>标签;进行softmax操作;之后输入所述损失函数层进行训练。进行softmax操作处理最后的输出是每个分类被取到的概率。
[0009]所述损失函数层的损失函数为Transducer Loss。
[0010]所述Transducer Loss是由Alex Graves提出来的损失函数,具体实施可以参考论文:《A.Graves.Sequence Transduction with Recurrent Neural Networks. Representation Learning Workshop》ICML2012, Edinburgh,Scotland。所述损失函数采用Transducer Loss能有效解决序列概率路径建模问题。
[0011]所述步骤S2的解码过程基于集束搜索,包括:获取现代汉语语料进行训练,得到第二模型;以所述第一模型生成解码网络,进行路径扩展,将扩展路径得分记为第一得分;在路径扩展的同时,用所述第二模型给扩展的路径进行语言模型打分,记为第二得分;将所述第一得分与所述第二得分相加后作为解码路径的最终得分,基于所述最终得分解码得到所述现代汉语文本。
[0012]随着各种文字媒体发展以及存储介质的普及,收集大量的现代汉语文本语料是便捷的,利用大量的现代汉语文本语料进行训练获取一个第二模型,在解码过程中用超大的现代汉语语言模型进行搜索路径打分矫正整个解码过程,对扩展路径得分优化后作为实际的搜索路径的得分进行扩展,更利于形成非常准确的符合现代汉语习惯的翻译文本序列作为输出结果,大幅提高翻译的精准性。
[0013]本专利技术另一方面提供的一种基于端到端技术的古代汉语转现代汉语系统,包括:语料获取单元,用于获取多个文本并编码得到多个特征向量映射;建模单元,基于Encoder

Decoder(编码器

解码器)神经网络结构,提取所述特征向量映射训练语言模型并封装;其中所述文本包括古代汉语文本、由所述古代汉语文本翻译得到的现代汉语文本。
[0014]所述Encoder

Decoder(编码器

解码器)神经网络结构包括编码器、解码器门控线性单元、映射层和损失函数层;所述编码器由第一层数的TDNN模块和一个TRANSFORMER模型拼接而成;所述解码器由第二层数的LSTM单元;所述编码器的输出和所述解码器的输出通过所述门控线性单元连接合并输入映射层进行softmax操作;所述映射层的输出即所述损失函数层的输入。
[0015]所述第一层数、所述第二层数为任意正整数。所述第一层数与所述第二层数可以相同也可以不同。
[0016]所述第一层数、所述第二层数为任意正整数。
[0017]基于端到端技术的古代汉语转现代汉语系统,还包括:翻译显示单元,基于由所述建模单元得到的模型所解码生成的古代汉语与现代汉语的转换关系,翻译古代汉语文本为现代汉语文本并显示。
[0018]本专利技术实施例中还提供一种存储介质,存储有包含指令的程序,所述指令能够被读取并执行本专利技术的基于端到端技术的古代汉语转现代汉语方法。
[0019]本专利技术实施例中还提供一种电子设备,包括:处理器,与所述处理器通信连接的存储器,其中,所述存储器存储有指令,所述处理器执行所述指令,实施本专利技术的基于端到端技术的古代汉语转现代汉语方法。
[0020]本专利技术实施例中还提供一种计算机程序产品,包含存储在存储介质上的计算机程
序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术的基于端到端技术的古代汉语转现代汉语方法。
[0021]与现有技术相比,本专利技术的主要有益效果:1、本专利技术的一种基于端到端技术的古代汉语转现代汉语方法,能够方便快捷地将古代汉语转换成现代汉语,充分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于端到端技术的古代汉语转现代汉语方法,其特征在于:包括:步骤S1.获取标准语料输入Encoder

Decoder神经网络结构进行语言模型训练,得到第一模型;步骤S2.基于所述第一模型,解码待翻译古代汉语文本为现代汉语文本;其中所述标准语料是指已标定转换关系的古代汉语文本和现代汉语文本。2.根据权利要求1所述的基于端到端技术的古代汉语转现代汉语方法,其特征在于:所述Encoder

Decoder神经网络结构由编码器、解码器和损失函数层拼接而成;输入是预设层数的TDNN拼接TRANSFORMER的结构,输出是预设层数的LSTM;所述TDNN的层数、所述LSTM的层数预设为任意正整数。3.根据权利要求2所述的基于端到端技术的古代汉语转现代汉语方法,其特征在于:所述得到第一模型的过程包括:将所述编码器和所述解码器的输出通过一个连接操作合并后,映射到和现代汉语文字数量大小一样的输出上面,并添加<blk>标签;进行softmax操作;之后输入所述损失函数层进行训练。4.根据权利要求2所述的基于端到端技术的古代汉语转现代汉语方法,其特征在于:所述损失函数层的损失函数为Transducer Loss。5.根据权利要求1所述的基于端到端技术的古代汉语转现代汉语方法,其特征在于:所述获取标准语料输入预训练模型的过程包括:将古代汉字编码成为特征向量的映射作为输入向量映射;将现代汉字编码成为特征向量的映射作为输出向量映射。6.根据权利要求1

5任一项所述的基于端到端技术的古代汉语转现代汉语方法,其特征在于:所述步骤S2的解码过程基于集束搜索,包括:获取现代汉语语料进行训练,得到第二模型;以所述第一模型生成解码网络,进行路径扩展,将扩展路径得分记为第...

【专利技术属性】
技术研发人员:黄羿衡倪勇
申请(专利权)人:江苏苏云信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1