一种机器翻译语料的质量检测方法及装置制造方法及图纸

技术编号:36287998 阅读:16 留言:0更新日期:2023-01-13 09:59
本发明专利技术所提供的一种机器翻译语料的质量检测方法及装置,方法包括:当接收到待检测的机器翻译语料时,对所述机器翻译语料进行预处理,得到规范文本及分词序列;按照预设的多语言语种检测规则对所述规范文本和所述分词序列进行问题检测处理,得到检测结果。本发明专利技术将待检测的机器翻译语料预处理为规范文本及分词序列后,利用预设的多语言语种检测规则对规范文本及分词序列自动进行问题检测,适用于很多语种,适用范围广,无需翻译人员进行人工质检,提高了检测效率,保证了检测结果的质量。保证了检测结果的质量。保证了检测结果的质量。

【技术实现步骤摘要】
一种机器翻译语料的质量检测方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及的是一种机器翻译语料的质量检测方法及装置。

技术介绍

[0002]机器翻译是一项拥有数十年发展历史的技术,从最初的人为拟定的规则翻译,到基于统计的翻译,目前已过渡到了神经网络机器翻译阶段,是当前深度学习在自然语言处理中最活跃的方向之一。伴随着深度学习神经网络的机器翻译技术突发猛进的发展,人们通过大量的实践发现,使用机器翻译可以很有效地减少翻译所需的时间和成本,尤其是在翻译量巨大或时间紧迫的情况下,借助机器翻译可以大大节省时间和金钱成本。而增大平行翻译句对,以及提高训练集质量,往往对最终机器学习模型的翻译效果可起到关键的推进作用。通过海量的网络数据中挖掘、人工标注、回译等各种途径产生的平行句对,都有必要对其结果进行进一步的校对,因为这是一种极具应用价值的方案。
[0003]语言障碍导致了数据检验离不开语言专家的支持,但直接和低资源的语言翻译专家合作是困难的,另外,因为可用的翻译人员非常少,标注过程更容易受到翻译人员自身熟练程度变化的影响,并且检查本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种机器翻译语料的质量检测方法,其特征在于,包括:当接收到待检测的机器翻译语料时,对所述机器翻译语料进行预处理,得到规范文本及分词序列;按照预设的多语言语种检测规则对所述规范文本和所述分词序列进行问题检测处理,得到检测结果。2.根据权利要求1所述的机器翻译语料的质量检测方法,其特征在于,所述机器翻译语料为单语文本或双语文本,所述双语文本包括原文文本和译文文本;所述当接收到待检测的机器翻译语料时,对所述机器翻译语料进行预处理,得到规范文本及分词序列,包括:若所述机器翻译语料为单语文本,则对所述单语文本进行预处理,得到规范文本及分词序列;若所述机器翻译语料为双语文本,则对所述双语文本中的原文文本和译文文本分别进行预处理,得到所述原文文本对应的规范文本及分词序列,以及所述译文文本对应的规范文本及分词序列。3.根据权利要求1所述的机器翻译语料的质量检测方法,其特征在于,所述当接收到待检测的机器翻译语料时,对所述机器翻译语料进行预处理,得到规范文本及分词序列,包括:当接收到待检测的机器翻译语料时,确定所述机器翻译语料所属的目标语种;清除所述机器翻译语料中的不可见字符,将多个空白字符合并为一个空格,对所述机器翻译语料进行文字格式统一处理,得到规范文本;将所述规范文本输入所述目标语种对应的分词工具,得到分词序列。4.根据权利要求3所述的机器翻译语料的质量检测方法,其特征在于,对所述机器翻译语料进行文字格式统一处理,包括:若所述机器翻译语料属于字母类语种,则将所述机器翻译语料的字母格式转换为小写;若所述机器翻译语料为非字母类语种,则将所述机器翻译语料的文字格式统一为全角或半角。5.根据权利要求2所述的机器翻译语料的质量检测方法,其特征在于,所述多语言语种检测规则包括单语种检测规则和双语种检测规则;所述按照预设的多语言语种检测规则对所述规范文本和所述分词序列进行问题检测处理,得到检测结果,包括:若所述机器翻译语料为单语文本,则按照所述单语种检测规则对所述规范文本和所述分词序列进行问题检测处理,得到单语检测结果;若所述机器翻译语料为双语文本,则将所述原文文本对应的规范文本和分词序列,及所述译文文本对应的规范文本和分词序列分别按照所述单语种检测规则进行问题检测处理,得到所述原文文本的单语检测结果,以及所述译文文本的单语检测结果;根据所述原文文本对应的规范文本和分词序列,及所述译文文本对应的规范文本和分词序列,得到所述双语文本对应的双语平行句对;按照所述双语种检测规则对所述双语平行句对进行问题检测处理,得到双语检测结果。6.根据权利要求5所述的机器翻译语料的质量检测方法,其特征在于,所述单语种检测
规则包括:语种识别检测项目、句长限制检测项目、敏感词检测项目、语句困惑度检测项目、乱码字符检测项目、标点数字占比检测项目和单词频限制检测项目;所述语种识别检测项目的检测步骤包括:将所述规范文本输入预先训练的语种识别分类模型以及预设规则引擎,对所述规范文本的语种进行语种判别,并将语种判别结果与所述目标语种进行比对,确定所述语种判别结果与所述目标语种的匹配结果;所述句长限制检测项目的检测步骤包括:将所述规范文本的字符总数与预设字符阈值的大小进行比对,确定字符总数是否合格结果;或者,将所述分词序列的序列元素个数与预设序列元素阈值的大小进行比对,确定序列元素个数是否合格结果;所述敏感词检测项目的检测步骤包括:按照预先构造的各个语种的敏感词词典以及多模匹配算法,检测所述规范文本中的敏感词;所述语句困惑度检测项目的检测步骤包括:利用多语言语句困惑度计算模型评估所述规范文本的困惑度,确定所述规范文本的语义是否通顺结果;所述乱码字符检测项目的检测步骤包括:查找所述目标语种对应的Unicode编码,使用正则提取所述规范文本中不属于所述Unicode编码的初始字符,并过滤所述初始字符中的通用字符,得到乱码字符,计算所述乱码字符的个数,确定所述规范文本的语种语义结果;所述标点数字占比检测项目的检测步骤包括:获取所述规范文本的字符总数,分别提取所述规范文本中的标点和数字,统计标点的个数及数字的个数,得到标点占所述字符总数的第一占比,以及数字占所述字符总数的第二占比,确定所述第一占比和所述第二占比与预设占比范围之间的限制关系;所述单词频限制检测项目的检测步骤包括:对所述分词序列中的每个词组进行统计,得到最高词频,并将所述最高词频与预设词频阈值进行比对,确定所述分词序列对应的语句是否无效结果。7.根据权利要求6所述的机器翻译语料的质量检测方法,其特征在于,所述单语检测结果包括:所述语种识别检测项目检测得到的匹配结果;所述句长限制检测项目检测得到的字符总数是否合格结果,或者序列元素个数是否合格结果;所述敏感词检测项目检测得到的敏感词;所述语句困惑度检测项目检测得到的语义是否通顺结果;所述乱码字符检测项目检测得到的语种语义结果;所述标点数字占比检测项目检测得到的限制关系;以及,所述单词频限制检测项目检测得到的语句是否无效结果。8.根据权利要求5所述的机器翻译语料的质量检测方法,其特征在于,所述双语种检测规则包括:句长比例检测项目、词频距离检测项目、数字对齐检测项目、URL对齐检测项目、词对齐检测项目、语义相似度检测项目和模拟打分检测项目;所述句长比例检测项目的检测步骤包括:获取所述双语平行句...

【专利技术属性】
技术研发人员:黄嘉鑫谢育涛尹曦谢凯
申请(专利权)人:粤港澳大湾区数字经济研究院福田
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1