双语语料检测方法、设备以及计算机可读介质技术

技术编号:32345967 阅读:10 留言:0更新日期:2022-02-20 02:01
本申请提供了一种双语语料检测方案,该方案可以将第二语料语句中目标单词的前文信息、后文信息以及第一语料的单词信息作为输入,并结合了注意力机制,由此可以为被预测的目标单词提供语义和语序上的支持,即使某一语料中的单词在另一语料中没有严格对应的单词或者是对应多个单词,也不易产生错误的检测结果,同时无需借助人工标注的语料,仅需要采用翻译较为准确的双语语料作为训练集,完成采用了注意力机制的神经网络模型的训练,即可准确地检测任意的双语语料中是否包含翻译错误的单词。任意的双语语料中是否包含翻译错误的单词。任意的双语语料中是否包含翻译错误的单词。

【技术实现步骤摘要】
双语语料检测方法、设备以及计算机可读介质


[0001]本申请涉及信息
,尤其涉及一种双语语料检测方法、设备以及计算机可读介质。

技术介绍

[0002]双语语料,也称作“双语平行句对”,是一种互为翻译的文本语料。以汉语和英语为例,“今天天气很好”和“It's a nice day today”即为一对双语语料。双语语料是机器翻译模型的关键训练数据,无论是统计机器翻译(SMT,Statistical Machine Translation),还是神经网络机器翻译(NMT,Neural Machine Translation)都要依赖于这类语料。在机器翻译中,多语种的支持、每个语言方向翻译质量的优劣,都与双语语料的规模和质量息息相关。
[0003]目前对双语语料中单词是否翻译准确的检测方式主要有两种。一种方式是构建词对齐模型,将双语语料的原文单词和译文单词做映射,然后统计映射的结果,如果原文端某个单词无法和译文端任何单词匹配上,则这个原文单词可以看做是漏译或错译了;若译文端某个单词无法和原文端任何单词映射上,则该单词是多译或错译。但是,这种词对齐的方式,并不考虑语句中单词的语义和语序,容易将一些单词误判。比如对于“it's fine today”和“今天天气好”这对双语语料,由于在英文语料中并不包含“天气”对应的单词,可能会将中文语料中的“天气”识别判定为多译的错误。而且,会与一对多的问题,无法很多的解决,例如“target text is very good”和“译文很好”这对双语语料中,实际上“target”和“text”这两个英文单词对应一个中文单词“译文”,但是词对齐的方式是将每个单词做映射,不容易将“target text”和“译文”对应起来,由此会导致检测错误。
[0004]另一种方式是人工标注双语语料中错误的单词,错误类型可以是错译、漏译、多译等,然后基于这些人工标注的数据训练识别模型,并使用该识别模型对待检测的双语语料进行单词错误的识别。但是,该方式的主要问题在于需要人工的标注数据,人力成本比较高,无法大规模的应用。

技术实现思路

[0005]本申请的一个目的是提供一种双语语料检测方法、设备以及计算机可读介质,用以解决现有的检测方式中准确性差、成本高的问题。
[0006]本申请实施例中提供了一种双语语料检测方法,该方法包括:
[0007]获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息;
[0008]使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测;
[0009]根据预测结果,确定所述目标单词是否有误。
[0010]本申请实施例中还提供了一种双语语料检测设备,该设备包括:
[0011]预测处理模块,用于获得第一语料的单词信息,第二语料的目标单词及其前文信
息和后文信息;使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测;
[0012]检测处理模块,用于根据预测结果,确定所述目标单词是否有误。
[0013]本申请的一些实施例还提供了一种计算设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行前述双语语料检测方法。
[0014]本申请的另一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现所述双语语料检测方法。
[0015]本申请实施例提供的一种双语语料检测方案,该方案首先获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息,然后使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测,根据预测结果,确定所述目标单词是否有误。。由于将第二语料语句中目标单词的前文信息、后文信息以及第一语料的单词信息作为输入,并结合了注意力机制,由此可以为被预测的目标单词提供语义和语序上的支持,即使某一语料中的单词在另一语料中没有严格对应的单词或者是对应多个单词,也不易产生错误的检测结果,同时无需借助人工标注的语料,仅需要采用翻译较为准确的双语语料作为训练集,完成采用了注意力机制的神经网络模型的训练,即可准确地检测任意的双语语料中是否包含翻译错误的单词。
附图说明
[0016]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0017]图1为本申请实施例提供的一种双语语料检测方法的处理流程图;
[0018]图2为本申请实施例中一种双语语料及其对应的特征向量示意图;
[0019]图3为本申请实施例中对目标单词的获取目标单词的预测结果的基本原理示意图;
[0020]图4为本申请实施例提供的一种双语语料检测设备的结构示意图;
[0021]图5为本申请实施例提供的一种用于实现双语语料检测的计算设备的结构示意图;
[0022]附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
[0023]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。
[0024]本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在
中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0025]本申请实施例提供的一种双语语料检测方法,该方法将第二语料语句中目标单词的前文信息、后文信息以及第一语料的单词信息作为输入,并结合了注意力机制,由此可以为被预测的目标单词提供语义和语序上的支持,即使某一语料中的单词在另一语料中没有严格对应的单词或者是对应多个单词,也不易产生错误的检测结果,同时无需借助人工标注的语料,仅需要采用翻译较为准确的双语语料作为训练集,完成采用了注意力机制的神经网络模型的训练,即可准确地检测任意的双语语料中是否包含翻译错误的单词。
[0026]在实际场景中,该方法的执行主体可以是用户设备、网络设备或者用户设备与网络设备通过网络相集成所构成的设备,此外也可以是运行于上述设备中的程序。所述用户设备包括但不限于计算机、手本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双语语料检测方法,其中,该方法包括:获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息;使用所述第一语料的单词信息结合注意力机制,以及所述目标单词的前文信息、所述目标单词的后文信息,对所述目标单词进行预测;根据预测结果,确定所述目标单词是否有误。2.根据权利要求1所述的方法,其中,所述获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息,包括:获取所述第一语料的多个单词,获得所述多个单词的词向量序列;获取所述第二语料的目标单词,以及所述目标单词在第二语料中的前N个单词和后M个单词,获得所述前N个单词的词向量序列和所述后M个单词的词向量序列。3.根据权利要求2所述的方法,其中,获得所述多个单词的词向量序列,包括:对所述多个单词进行分词处理,获取所述单词序列;对单词序列进行词嵌入处理,生成所述多个单词的词向量序列。4.根据权利要求3所述的方法,其中,对所述多个单词进行分词处理之前,还包括:对所述第一语料进行清洗。5.根据权利要求1所述的方法,其中,所述根据所述预测结果,确定所述目标单词是否有误,包括:将所述目标单词的预测概率与预设的概率阈值比较,若所述预测概率低于预设的概率阈值,确定所述目标单词有误。6.一种双语语料检测设备,其中,该设备包括:预测处理模块,用于获得第一语料的单词信息,第二语料的目标单词及其前文信息和后文信息;使用所述第一语料的单词信...

【专利技术属性】
技术研发人员:陆军骆卫华赵宇施杨斌
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1