一种文本评估方法、装置、电子设备和存储介质制造方法及图纸

技术编号:38199545 阅读:13 留言:0更新日期:2023-07-21 16:40
本申请涉及计算机技术领域,尤其涉及一种文本评估方法、装置、电子设备和存储介质,用以提高机器翻译文本的质量评估准确率。其中,方法包括:获取对原文文本进行机器翻译得到的待评估文本,及对应的标准翻译文本;将待评估文本中的候选待评估短语,与标准翻译文本中的标准短语进行短语对齐,获得候选待评估短语对应的标准短语;将候选待评估短语中的至少一个目标待评估短语,替换为对应的标准短语,并确定替换前后待评估文本的困惑度变化量;基于各困惑度变化量,确定目标待评估短语的目标标签。由于本申请基于目标待评估短语被替换前后待评估文本的困惑度变换量,确定目标待评估短语的目标标签,能够有效提高对机器翻译文本的质量评估准确率。量评估准确率。量评估准确率。

【技术实现步骤摘要】
一种文本评估方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,尤其涉及一种文本评估方法、装置、电子设备和存储介质。

技术介绍

[0002]近年来,随着人工智能的发展,特别是深度学习技术的日益成熟,人工智能在各行各业中得到了广泛应用,极大地提高了生产效率。在自然语言处理领域中的机器翻译领域,基于神经网络的机器翻译也取得了较好的效果。但是,目前的机器翻译能力仍未达到专业译员的翻译水平,需要对机器翻译的翻译结果进行检测,以定位可能存在的翻译错误。
[0003]相关技术中,为了对机器翻译文本的质量进行评估和检测,主要是使用翻译错误率工具包(Translation Error Rate Toolkit,TER工具包)对机器翻译(Machine Translation,MT)句和参考译句进行词级别的对齐,获得MT句中每个词的翻译标签,来对MT句进行词级别的标注。
[0004]但是,由于TER工具包基于字符串完全匹配的规则进行词级别的对齐,该方式容易导致部分含义相同的词语、句子成分没有翻译错误却无法对齐,被标注为翻译错误,造成对MT句的质量评价不准确。因此如何准确评价和衡量机器翻译文本的翻译质量,是亟待解决的问题。

技术实现思路

[0005]本申请实施例提供一种文本评估方法、装置、电子设备和存储介质,用以提高机器翻译文本的质量评估准确率。
[0006]本申请实施例提供的一种文本评估方法,包括:
[0007]获取对原文文本进行机器翻译得到的待评估文本,及所述原文文本对应的标准翻译文本;
[0008]将所述待评估文本中的各候选待评估短语,与所述标准翻译文本中的标准短语进行短语对齐,获得各候选待评估短语各自对应的标准短语;
[0009]将所述各候选待评估短语中的至少一个目标待评估短语,分别替换为对应的标准短语,并确定所述至少一个目标待评估短语中每个目标待评估短语替换前后,所述待评估文本的困惑度变化量,所述困惑度表征所述待评估文本的语义流畅度;
[0010]基于各困惑度变化量,确定相应的目标待评估短语的目标标签。
[0011]本申请实施例提供的一种文本评估装置,包括:
[0012]获取单元,用于获取对原文文本进行机器翻译得到的待评估文本,及所述原文文本对应的标准翻译文本;
[0013]对齐单元,用于将所述待评估文本中的各候选待评估短语,与所述标准翻译文本中的标准短语进行短语对齐,获得各候选待评估短语各自对应的标准短语;
[0014]替换单元,用于将所述各候选待评估短语中的至少一个目标待评估短语,分别替
换为对应的标准短语,并确定所述至少一个目标待评估短语中每个目标待评估短语替换前后,所述待评估文本的困惑度变化量,所述困惑度表征所述待评估文本的语义流畅度;
[0015]确定单元,用于基于各困惑度变化量,确定相应的目标待评估短语的目标标签。
[0016]可选的,所述对齐单元具体用于:
[0017]基于所述待评估文本中的待评估词,以及所述标准翻译文本中的标准词之间的相似度,对各待评估词和各标准词之间进行词对齐,获得各待评估词各自对应的标准词;
[0018]针对所述待评估文本,确定由所述待评估词所组成的至少一个候选待评估短语,每个候选待评估短语包含至少一个所述待评估词;
[0019]基于各候选待评估短语包含的待评估词以及对应的标准词,对所述标准翻译文本进行标准短语提取,获得所述各候选待评估短语各自对应的标准短语。
[0020]可选的,所述对齐单元具体用于:
[0021]基于所述待评估文本中各待评估词的位置,获得各待评估词组成的候选待评估短语,其中,每个候选待评估短语包含的相邻待评估词在所述待评估文本中的位置也相邻;或者,
[0022]对所述待评估文本进行成分句法分析,获得所述待评估文本包含的符合规定语法规则的短语,将所述符合规定语法规则的短语作为所述待评估文本中的候选待评估短语。
[0023]可选的,所述目标待评估短语包括以下至少一种:
[0024]初始标签为错误的候选待评估短语,所述初始标签为:基于预设编辑次数规则,将所述待评估文本中的待评估词和所述标准翻译文本中的标准词进行对齐获得的;
[0025]对所述待评估文本进行成分句法分析,获得的所述待评估文本包含的符合规定语法规则的短语。
[0026]可选的,所述确定单元具体用于:
[0027]针对所述至少一个待评估短语中每个目标待评估短语替换前后,所述待评估文本的困惑度变化量;
[0028]若所述困惑度变化量小于第一阈值,则将对应的目标待评估短语的目标标签设置为正确;
[0029]若所述困惑度变化量不小于第一阈值,将初始标签作为目标标签所述初始标签为:基于预设编辑次数规则,将所述待评估文本中的待评估词和所述标准翻译文本中的标准词进行对齐获得的。
[0030]可选的,每个目标待评估短语的初始标签是采用以下方式确定的:
[0031]针对一个目标待评估短语,基于预设编辑次数规则,将所述一个目标待评估短语中的待评估词和所述标准翻译文本中的标准词进行词对齐;
[0032]若所述一个目标待评估短语中的各个待评估词与对应的标准词一致,则所述一个目标待评估短语的初始标签为正确;
[0033]若所述一个目标待评估短语中的各个待评估词与对应的标准词不一致,则所述一个目标待评估短语的初始标签为错误。
[0034]可选的,所述确定单元具体用于:
[0035]基于各困惑度变化量,以及相应的目标待评估短语的字数,确定各目标待评估短语的词均困惑度变化量;
[0036]对各词均困惑度变化量进行排序,确定最小的词均困惑度变化量;
[0037]若所述最小的词均困惑度变化量小于第二阈值,则所述最小的词均困惑度变化量对应的目标待评估短语的目标标签为错误;
[0038]若所述最小的词均困惑度变化量不小于第二阈值,所有的目标待评估短语的目标标签均为正确。
[0039]可选的,在所述基于各困惑度变化量,确定相应的目标待评估短语的目标标签之后,所述装置还包括构建单元,用于:
[0040]基于对原文文本进行机器翻译得到的待评估文本、所述待评估文本对应的标准翻译文本,以及所述待评估文本中各目标待评估短语对应的目标标签,构建平行语料;
[0041]基于所述平行语料进行模型训练,获得训练完毕的机器翻译质量评估模型,所述机器翻译质量评估模型用于对机器翻译获得的机器翻译文本进行质量评估标注。
[0042]本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种文本评估方法的步骤。
[0043]本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述程序代码在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种文本评本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本评估方法,其特征在于,该方法包括:获取对原文文本进行机器翻译得到的待评估文本,及所述原文文本对应的标准翻译文本;将所述待评估文本中的各候选待评估短语,与所述标准翻译文本中的标准短语进行短语对齐,获得各候选待评估短语各自对应的标准短语;将所述各候选待评估短语中的至少一个目标待评估短语,分别替换为对应的标准短语,并确定所述至少一个目标待评估短语中每个目标待评估短语替换前后,所述待评估文本的困惑度变化量,所述困惑度表征所述待评估文本的语义流畅度;基于各困惑度变化量,确定相应的目标待评估短语的目标标签。2.如权利要求1所述的方法,其特征在于,所述将所述待评估文本中的各候选待评估短语,与所述标准翻译文本中的标准短语进行短语对齐,获得各候选待评估短语各自对应的标准短语,包括:基于所述待评估文本中的待评估词,以及所述标准翻译文本中的标准词之间的相似度,对各待评估词和各标准词之间进行词对齐,获得各待评估词各自对应的标准词;针对所述待评估文本,确定由所述待评估词所组成的至少一个候选待评估短语,每个候选待评估短语包含至少一个所述待评估词;基于各候选待评估短语包含的待评估词以及对应的标准词,对所述标准翻译文本进行标准短语提取,获得所述各候选待评估短语各自对应的标准短语。3.如权利要求2所述的方法,其特征在于,所述针对所述待评估文本,确定由所述待评估词所组成的至少一个候选待评估短语,包括:基于所述待评估文本中各待评估词的位置,获得各待评估词组成的候选待评估短语,其中,每个候选待评估短语包含的相邻待评估词在所述待评估文本中的位置也相邻;或者,对所述待评估文本进行成分句法分析,获得所述待评估文本包含的符合规定语法规则的短语,将所述符合规定语法规则的短语作为所述待评估文本中的候选待评估短语。4.如权利要求1所述的方法,其特征在于,所述目标待评估短语包括以下至少一种:初始标签为错误的候选待评估短语,所述初始标签为:基于预设编辑次数规则,将所述待评估文本中的待评估词和所述标准翻译文本中的标准词进行对齐获得的;对所述待评估文本进行成分句法分析,获得的所述待评估文本包含的符合规定语法规则的短语。5.如权利要求1所述的方法,其特征在于,所述基于各困惑度变化量,确定相应的目标待评估短语的目标标签,包括:针对所述至少一个待评估短语中每个目标待评估短语替换前后,所述待评估文本的困惑度变化量;若所述困惑度变化量小于第一阈值,则将对应的目标待评估短语的目标标签设置为正确;若所述困惑度变化量不小于第一阈值,将初始标签作为目标标签,所述初始标签为:基于预设编辑次数规则,将所述待评估文本中的待评估词和所述标准翻译文本中的标准词进行对齐获得的。6.如权利要求4或5所述的方法,其特征在于,每个目标待评估短语的初始标签是采用
以下方式确定的:针对一个目...

【专利技术属性】
技术研发人员:严渊蒙杨振孟凡东
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1