一种语音翻译系统的效果评判方法技术方案

技术编号:20566757 阅读:27 留言:0更新日期:2019-03-14 09:31
本发明专利技术提供了一种语音翻译系统的效果评判方法该语言翻译系统的效果评判方法并不需要每次都通过人工标注对齐的方式来对语音机器翻译的翻译结果进行人工对齐操作,其在省去了每次测评都需要人工介入麻烦的同时,依然使该测评结果与经过人工标注对齐后的测评结果具有同等的准确性,这极大地提高了语音翻译系统的测评效率和精确性。

【技术实现步骤摘要】
一种语音翻译系统的效果评判方法
本专利技术涉及语音识别翻译的
,特别涉及一种语音翻译系统的效果评判方法。
技术介绍
随着全球化的不断推进发展,各国人民之间的交流也越来越频繁,由于历史和地域等因素,每个国家所用的语言并不相同,而目前并不存在一种简单易懂和操用便捷的通用语音,故不同国家人民之间的语言交流通常都需要特定翻译工作的配合,这样能够保证使用不同语种的人之间能够正常的沟通。在一些正式的场合,不同国家人员之间的交流往往都配备有专业的翻译人员来辅助沟通,但是在其他大多数非正式场合或者日常生活中,并不会随时存在相应的翻译人员进行翻译工作,同时并不是所有人都能够具备基本的翻译能力。为了满足使用不同语种的人员在没有配备翻译人员的情况依然能够随时随地地进行无障碍的沟通交流,许多人工智能企业投入大量的人力物力研发和改进各种语音机器翻译工具。语音机器翻译工具相对于现有的文本机器翻译工具的要求和标准更高,现有的文本机器翻译工具是实现将输入的某一语种文本翻译成另一语种文本即可,该文本机器翻译工具只需要对输入的文本进行修正和识别即可,该文本机器翻译工具只是在文本数据层面上进行翻译,其并不涉及任何智能交互识别技术。相反地,该语音机器翻译工具的工作过程则主要包括语音提取、语音释义识别、语种翻译转换和翻译结果语音反馈这几个步骤,每一个步骤都涉及语音信号的识别,而语音信号针对不同用户在发音、语调和词汇等方面都具有极大的随机性。该语音机器翻译工具翻译结果的准确与否在很大程度上是与对用户在发音、语调和词汇等方面的识别正确与否相关的。为了对最大限度地保证语音翻译的正确性,几乎所有的语音机器翻译翻译工具都会采用NIST、METEOR或者BLEU等不同算法对翻译结果进行自动测评,而每一种自动测评用的算法都具有不同的优劣之处。
技术实现思路
在语音机器翻译技术研发中,在对语音翻译结果进行自动测评所使用的各种算法都需要将翻译结果与人工标注测试集合相结合才能完成相应的测试流程。由于该语音机器翻译工具的翻译结果并不是与该人工标注测试集合中的数据一一对应的,这就要求在每一次测试过程中,通过人工对齐的方式将该翻译结果与该人工标注测试集合中的数据进行一一映射处理,即每次的测试都需要人工操作的介入,这不仅使得语音机器翻译的测试工作耗费大量人力和时间,同时也使语音机器翻译失去了原有的研发意义。针对现有语音机器翻译效果测评体系存在的缺陷,本专利技术提供一种语音翻译系统的效果评判方法,该效果评判方法并不需要通过人工标注对齐的方式来对语音机器翻译的翻译结果进行人工对齐操作,其在省去了每次测评都需要人工介入麻烦的同时,依然使该测评结果与经过人工标注对齐后的测评结果具有同等的准确性,这极大地提高了语音翻译系统的测评效率和精确性。本专利技术提供一种语音翻译系统的效果评判方法,其特征在于,所述效果评判方法包括:步骤(1),对由N句人工标注的源语言文本S1组成的源语言实施语音识别操作,以获得相应的M句语音识别文本S2,同时对所述语音识别文本S2实施机器翻译以获得相应的M句目标端文本D2,其中,N和M均为正整数;步骤(2),基于所述源语言文本S1和语音识别文本S2,通过特定算法处理得到关于所述源语言文本S1和所述语言识别文本S2的索引信息;步骤(3),基于所述索引信息,对所述人工标注的目标端文本D1和所述机器翻译的目标端文本D2进行更新,再通过特定算法处理,对更新后的目标端文本D1和目标端文本D2进行评估;进一步,在步骤(1)中,在实施所述语音识别操作前,从源语言文本数据库中任意摘选相应的N句文本字段,接着对所述N句文本字段组成的语段进行语义通顺性的分数评判,并在所述分数评判结果满足预设条件的情况下,对所述语段进行人工标注处理后形成所述源语言文本S1,其中所述人工标注处理包括对所述语段进行错别字修正、语法修正和逻辑修正中的至少一者;进一步,在步骤(1)中,在实施所述语音识别操作后,还对所述源语言文本S1进行语音识别后的识别结果进行文本修正处理,以得到所述语音识别文本S2,经过所述文本修正处理后,所述源语言文本S1和所述语音识别文本S2之间在语义层面上存在多对多的映射关系;其中,所述文本修正处理包括对所述识别结果实施文本语句顺滑处理和文本语句断句处理中的至少一者;进一步,在步骤(1)中,实施所述机器翻译包括在预定的翻译机器集合中,根据所述语音识别文本S2的语种类型、语音文本持续时间和语速中的至少一者对语音识别文本S2的识别难度进行评价,并所述评价的结果从所述翻译机器集合中选择符合要求的翻译机器进行翻译,以得到所述目标端文本D2;进一步,在步骤(2)中,通过特定算法处理得到所述源语言文本S1和所述语言识别文本S2的索引信息包括利用文本评估算法BLEU对所述源语言文本S1中的每一句与所述语言识别文本S2中的每一句两两之间依次进行匹配处理和卷积运算后得到一M*N的矩阵A,其中,所述匹配处理是用于获取所述源语言文本S1中的每一句与所述语言识别文本S2中的每一句相互之间的匹配准确率,所述卷积运算是针对所述匹配准确率一长度惩罚因子进行卷积后得到所述矩阵A中的每一个元素,从而得到所述矩阵A的完整表达式;进一步,在步骤(2)中,通过特定算法处理得到所述源语言文本S1和所述语言识别文本S2的索引信息还包括通过DTW动态时间归整算法对所述矩阵A进行动态规划,以得到关于所述矩阵A的归整路径,其中,所述动态规划的具体过程为,获得若干不同组中源语言文本S1和语言识别文本S2对应的若干个矩阵A,计算所述若干个矩阵A中两两矩阵之间的差异度以形成相应的差异度集合,获取所述差异度集合对应的协方差值,若所述协方差值小于预设协方差阈值,则将所述差异度集合中各差异度的分布函数作为所述归整路径;进一步,在步骤(2)中,通过特定算法处理得到所述源语言文本S1和所述语言识别文本S2的索引信息还包括通过对所述归整路径进行回溯处理,将所述源语言文本S1和所述语言识别文本S2对齐规整为具有相同数量的句子,同时记录获得所述索引信息,其中,所述回溯处理是基于高斯混合模型与聚类算法对所述归整路径进行迭代处理而实现的,所述索引信息是关于所述回溯处理后生成的回溯路径中对应的序列分布信息;进一步,在步骤(3)中,对所述人工标注的目标端文本D1和所述机器翻译的目标端文本D2进行更新包括根据所述回溯路径中的序列分布信息对所述目标端文本D1和所述目标端文本D2分别进行检查处理,并对所述检查处理确定的文本错误进行修正,以实现对所述目标端文本D1和所述目标端文本D2的更新;进一步,在步骤(3)中,通过特定算法处理,对更新后的目标端文本D1′和目标端文本D2′进行评估具体为,通过文本评估算法BLEU计算所述目标端文本D1′和所述目标端文本D2′之间的匹配准确率,其中,所述匹配准确率是关于所述目标端文本D1′和所述目标端文本D2′两者之间短语对称程度、语法正确率和词语对齐率的综合评价参数;进一步,在步骤(3)中,将所述匹配准确率与一准确率阈值进行比较处理,若所述匹配准确率大于或者等于所述准确率阈值,则指示所述语音翻译系统将当前翻译结果作为最终输出结果,若所述匹配准确率小于所述准确率阈值,则指示所述语音翻译系统重新进行步骤(1)、(2)和(3),直到本文档来自技高网
...

【技术保护点】
1.一种语音翻译系统的效果评判方法,其特征在于,所述效果评判方法包括:步骤(1),对由N句人工标注的源语言文本S1组成的源语言实施语音识别操作,以获得相应的M句语音识别文本S2,同时对所述语音识别文本S2实施机器翻译以获得相应的M句目标端文本D2,其中,N和M均为正整数;步骤(2),基于所述源语言文本S1和语音识别文本S2,通过特定算法处理得到关于所述源语言文本S1和所述语言识别文本S2的索引信息;步骤(3),基于所述索引信息,对所述人工标注的目标端文本D1和所述机器翻译的目标端文本D2进行更新,再通过特定算法处理,对更新后的目标端文本D1和目标端文本D2进行评估。

【技术特征摘要】
1.一种语音翻译系统的效果评判方法,其特征在于,所述效果评判方法包括:步骤(1),对由N句人工标注的源语言文本S1组成的源语言实施语音识别操作,以获得相应的M句语音识别文本S2,同时对所述语音识别文本S2实施机器翻译以获得相应的M句目标端文本D2,其中,N和M均为正整数;步骤(2),基于所述源语言文本S1和语音识别文本S2,通过特定算法处理得到关于所述源语言文本S1和所述语言识别文本S2的索引信息;步骤(3),基于所述索引信息,对所述人工标注的目标端文本D1和所述机器翻译的目标端文本D2进行更新,再通过特定算法处理,对更新后的目标端文本D1和目标端文本D2进行评估。2.如权利要求1所述的一种语音翻译系统的效果评判方法,其特征在于,在步骤(1)中,在实施所述语音识别操作前,从源语言文本数据库中任意摘选相应的N句文本字段,接着对所述N句文本字段组成的语段进行语义通顺性的分数评判,并在所述分数评判结果满足预设条件的情况下,对所述语段进行人工标注处理后形成所述源语言文本S1,其中所述人工标注处理包括对所述语段进行错别字修正、语法修正和逻辑修正中的至少一者。3.如权利要求1所述的一种语音翻译系统的效果评判方法,其特征在于,在步骤(1)中,在实施所述语音识别操作后,还对所述源语言文本S1进行语音识别后的识别结果进行文本修正处理,以得到所述语音识别文本S2,经过所述文本修正处理后,所述源语言文本S1和所述语音识别文本S2之间在语义层面上存在多对多的映射关系;其中,所述文本修正处理包括对所述识别结果实施文本语句顺滑处理和文本语句断句处理中的至少一者。4.如权利要求1所述的一种语音翻译系统的效果评判方法,其特征在于,在步骤(1)中,实施所述机器翻译包括在预定的翻译机器集合中,根据所述语音识别文本S2的语种类型、语音文本持续时间和语速中的至少一者对语音识别文本S2的识别难度进行评价,并所述评价的结果从所述翻译机器集合中选择符合要求的翻译机器进行翻译,以得到所述目标端文本D2。5.如权利要求1所述的一种语音翻译系统的效果评判方法,其特征在于,在步骤(2)中,通过特定算法处理得到所述源语言文本S1和所述语言识别文本S2的索引信息包括利用文本评估算法BLEU对所述源语言文本S1中的每一句与所述语言识别文本S2中的每一句两两之间依次进行匹配处理和卷积运算后得到一M*N的矩阵A,其中,所述匹配处理是用于获取所述源语言文本S1中的每一句与所述语言识别文本S2中的每一句相互之间的匹配准确率,所述卷积运算是针对所述匹配准确率...

【专利技术属性】
技术研发人员:陈巍华
申请(专利权)人:云知声上海智能科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1