语料生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32829145 阅读:8 留言:0更新日期:2022-03-26 20:37
语料生成方法、装置、电子设备及存储介质,其中,所述语料生成方法包括:获取目标语言类型的第一语料;将所述第一语料输入已训练好的翻译模型阵列进行翻译,得到多个翻译结果;其中,所述翻译模型阵列包括将所述第一语料翻译为其他语言类型语料的翻译模型,以及将所述其他语言类型语料翻译为所述目标语言类型的翻译模型,且所述翻译模型阵列中各翻译模型按照预设顺序设置;计算所述多个翻译结果与所述第一语料的编辑距离,得到所述第一语料相对应的目标语料。采用上述方案,能够提高获取平行语料的效率。料的效率。料的效率。

【技术实现步骤摘要】
语料生成方法、装置、电子设备及存储介质


[0001]本说明书实施例涉及计算机自然语言处理
,尤其涉及一种语料生成方法、装置、电子设备及存储介质。

技术介绍

[0002]当前,主要通过人工的方式得到含义相同且语言类型相同的平行语料。具体而言,获取到语料后,通过人工对该语料进行转述翻译,得到与该语料含义相同且语言类型相同的翻译语料。
[0003]然而,人工翻译得到平行语料的效率低。

技术实现思路

[0004]有鉴于此,本说明书实施例提供一种语料生成方法、装置、电子设备及存储介质,能够提高获取平行语料的效率。
[0005]首先,本说明书实施例提供一种语料生成方法,包括:
[0006]获取目标语言类型的第一语料;
[0007]将所述第一语料输入已训练好的翻译模型阵列进行翻译,得到多个翻译结果;其中,所述翻译模型阵列包括将所述第一语料翻译为其他语言类型语料的翻译模型,以及将所述其他语言类型语料翻译为所述目标语言类型的翻译模型,且所述翻译模型阵列中各翻译模型按照预设顺序设置;
[0008]计算所述多个翻译结果与所述第一语料的编辑距离,得到所述第一语料相对应的目标语料。
[0009]可选地,所述翻译模型阵列中至少一个翻译模型对于任一输入语料生成至少两种表达方式的输出语料。
[0010]可选地,所述翻译模型阵列中任一翻译模型均包括编码层和解码层;
[0011]所述将所述第一语料输入已训练好的翻译模型阵列进行翻译,得到多个翻译结果,包括:
[0012]将所述第一语料输入至所述翻译模型阵列中第一个翻译模型的编码层进行编码,得到相对应的向量矩阵;
[0013]将所述向量矩阵输入至所述第一个翻译模型的解码层,对所述向量矩阵进行解码翻译处理,并按照预设算法,得到预设语言类型的多个第一翻译结果;
[0014]将所述多个第一翻译结果分别输入至所述翻译模型阵列中其他翻译模型,对所述第一翻译结果进行相应翻译,以得到所述目标语言类型的多个翻译结果。
[0015]可选地,所述将所述向量矩阵输入至所述第一个翻译模型的解码层,对所述向量矩阵进行解码翻译,并按照预设算法,得到预设语言类型的多个第一翻译结果,包括:
[0016]将所述第一语料相对应的向量矩阵和开始标识符集合输入至所述第一个翻译模型的编码层,得到第一目标向量矩阵;
[0017]将所述第一目标向量矩阵输入至所述第一个翻译模型的解码层,对所述第一目标向量矩阵进行解码翻译处理,得到多个词单元,并经归一化操作后,得到各词单元的概率值;
[0018]根据所述各词单元的概率值,并按照所述预设算法,选取第一预设个数的词单元,得到第一目标词单元集合;
[0019]将所述第一语料相对应的向量矩阵和第一目标词单元集合输入至所述翻译模型的解码层,并按照所述预设算法,得到多个预测结果;
[0020]根据所述多个预测结果的概率值,选择所述第一预设个数的预测结果;
[0021]对所述预测结果进行迭代预测,直至所述预测结果出现结束标识符,得到所述其他语言类型的多个第一翻译结果。
[0022]可选地,所述翻译模型阵列中任一翻译模型均包括编码层和解码层;
[0023]所述将所述第一语料输入已训练好的翻译模型阵列进行翻译,得到多个翻译结果,包括:
[0024]将所述第一语料输入至所述翻译模型阵列中第一个翻译模型,并对所述第一语料进行翻译,得到预设语言类型的第二翻译结果;
[0025]将所述第二翻译结果输入至所述翻译模型阵列中其他至少一个翻译模型的编码层,得到相对应的向量矩阵;
[0026]将所述向量矩阵输入至所述其他至少一个翻译模型的解码层,对所述向量矩阵进行相应解码翻译处理,并按照预设算法,以得到所述目标语言类型的多个翻译结果。
[0027]可选地,所述将所述向量矩阵输入至所述其他至少一个翻译模型的解码层,对所述向量矩阵进行相应解码翻译处理,并按照预设算法,得到所述目标语言类型的多个翻译结果,包括:
[0028]将所述第二翻译结果相对应的向量矩阵和开始标识符集合输入至所述其他至少一个翻译模型的解码层,得到第二目标向量矩阵;
[0029]将所述第二目标向量矩阵输入至所述其他至少一个翻译模型的解码层,对所述第二目标向量矩阵进行相应解码翻译处理,得到多个词单元,并经归一化操作后,得到各词单元的概率值;
[0030]根据所述各词单元的概率值,并按照所述预设算法,选取第二预设个数的词单元,得到第二目标词单元集合;
[0031]将所述第二翻译结果相对应的向量矩阵和第二目标词单元集合输入至所述其他至少一个翻译模型的解码层,并按照所述预设算法,得到多个预测结果;
[0032]对所述预测结果进行迭代预测,直至所述预测结果出现结束标识符,以得到所述目标语言类型的多个翻译结果。
[0033]可选地,所述计算所述多个翻译结果与所述第一语料的编辑距离,得到所述第一语料相对应的目标语料,包括:
[0034]分别计算所述多个翻译结果中各翻译结果中各词与所述第一语料中各词间的编辑距离;
[0035]根据所述编辑距离,选取满足预设条件的翻译结果,作为所述第一语料相对应的目标语料。
[0036]可选地,所述翻译模型阵列为具有相同语系的翻译模型。
[0037]相应地,本说明书实施例还提供一种语料生成装置,包括:
[0038]语料获取单元,适于获取目标语言类型的第一语料;
[0039]翻译单元,适于将所述第一语料输入已训练好的翻译模型阵列进行翻译,得到多个翻译结果;其中,所述翻译模型阵列包括将所述第一语料翻译为其他语言类型语料的翻译模型,以及将所述其他语言类型语料翻译为所述目标语言类型的翻译模型,且所述翻译模型阵列中各翻译模型按照预设顺序设置;
[0040]处理单元,适于计算所述多个翻译结果与所述第一语料的编辑距离,得到所述第一语料相对应的目标语料。
[0041]本说明书实施例还提供一种电子设备,包括存储器和处理器,其中,所述存储器适于存储一条或多条计算机指令,所述处理器运行所述计算机指令时,执行前述任一实施例所述的语料生成方法的步骤。
[0042]本说明书实施例还提供计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行前述任一实施例所述的语料生成方法的步骤。
[0043]采用上述方案,通过采用已训练好的翻译模型阵列对目标语言类型的第一语料进行翻译处理,能够得到多个目标语言类型的翻译结果,而且,通过计算所述多个翻译结果与所述第一语料的编辑距离,能够得到与所述的第一语料含义相同的目标语料,相比于通过人工方式得到含义相同且语言类型相同的平行语料,能够一次性得到更多的平行语料,因而能够提高获取平行语料的效率。
[0044]进一步地,通过使得翻译模型阵列中至少一个翻译模型对于任一输入语料生成至少两种表达方式的输出语料,能够在减少翻译模型阵列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料生成方法,其特征在于,包括:获取目标语言类型的第一语料;将所述第一语料输入已训练好的翻译模型阵列进行翻译,得到多个翻译结果;其中,所述翻译模型阵列包括将所述第一语料翻译为其他语言类型语料的翻译模型,以及将所述其他语言类型语料翻译为所述目标语言类型的翻译模型,且所述翻译模型阵列中各翻译模型按照预设顺序设置;计算所述多个翻译结果与所述第一语料的编辑距离,得到所述第一语料相对应的目标语料。2.根据权利要求1所述的语料生成方法,其特征在于,所述翻译模型阵列中至少一个翻译模型对于任一输入语料生成至少两种表达方式的输出语料。3.根据权利要求1所述的语料生成方法,其特征在于,所述翻译模型阵列中任一翻译模型均包括编码层和解码层;所述将所述第一语料输入已训练好的翻译模型阵列进行翻译,得到多个翻译结果,包括:将所述第一语料输入至所述翻译模型阵列中第一个翻译模型的编码层进行编码,得到相对应的向量矩阵;将所述向量矩阵输入至所述第一个翻译模型的解码层,对所述向量矩阵进行解码翻译处理,并按照预设算法,得到预设语言类型的多个第一翻译结果;将所述多个第一翻译结果分别输入至所述翻译模型阵列中其他翻译模型,对所述第一翻译结果进行相应翻译,以得到所述目标语言类型的多个翻译结果。4.根据权利要求3所述的方法,其特征在于,所述将所述向量矩阵输入至所述第一个翻译模型的解码层,对所述向量矩阵进行解码翻译,并按照预设算法,得到预设语言类型的多个第一翻译结果,包括:将所述第一语料相对应的向量矩阵和开始标识符集合输入至所述第一个翻译模型的编码层,得到第一目标向量矩阵;将所述第一目标向量矩阵输入至所述第一个翻译模型的解码层,对所述第一目标向量矩阵进行解码翻译处理,得到多个词单元,并经归一化操作后,得到各词单元的概率值;根据所述各词单元的概率值,并按照所述预设算法,选取第一预设个数的词单元,得到第一目标词单元集合;将所述第一语料相对应的向量矩阵和第一目标词单元集合输入至所述翻译模型的解码层,并按照所述预设算法,得到多个预测结果;根据所述多个预测结果的概率值,选择所述第一预设个数的预测结果;对所述预测结果进行迭代预测,直至所述预测结果出现结束标识符,得到所述其他语言类型的多个第一翻译结果。5.根据权利要求根据权利要求1所述的语料生成方法,其特征在于,所述翻译模型阵列中任一翻译模型均包括编码层和解码层;所述将所述第一语料输入已训练好的翻译模型阵列进行翻译,得到多个翻译结果,包括:将所述第一语料输入至所述翻译模型阵列中第一个翻译模型,并对所述第一语料进行
翻译,得到预设语言类型的第二翻译结果;将所述第二翻译...

【专利技术属性】
技术研发人员:余勇宏
申请(专利权)人:上海流利说信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1