一种多语言同声互译的方法和设备技术

技术编号:20389938 阅读:51 留言:0更新日期:2019-02-20 02:52
本发明专利技术提供了一种多语言同声互译的方法和设备,该方法包括:对拾音装置生成的语音文件进行语种语境的识别;将识别语种语境后的语音文件进行文本化处理,并将文本化处理后的语音文件切分成多个语音文件单位,以分别识别计算和翻译;将多个所述语音文件单位分发到多个处理器,由多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译;以及将经识别和翻译的所述语音文件单位重组为翻译后的文本文件,并将所述翻译后的文本文件以语音文件的形式播出。本发明专利技术还公开了多语言同声互译的设备。本发明专利技术充分利用了多个处理器并行分布式计算的优势,充分利用了每个处理器的计算能力,识别和翻译准确率高,速度快,发音标准。

【技术实现步骤摘要】
一种多语言同声互译的方法和设备
本专利技术涉及多语言的语音识别和文本语音处理领域,特别是一种多多语言同声互译方法和设备。
技术介绍
目前的多语言同声互译技术已经发展为利用多处理器集群的多语言同声互译方式,其中,每个处理器可能利用多个中央处理单元(CPU)采用多线程的方式进行多语言同声互译。其中,每个处理器以一个语音文件为单位来进行多语言同声互译。与该处理器相对应的多个CPU虽然利用多线程的方式来进行数据处理,但是对于一个语音文件而言,数据处理是由多个CPU串行进行的。因此,识别效率受限于处理器的多个CPU的多线程处理速度。现有的多语言同声互译设备识别速度慢、效率低、开发难度大,并且需要芯片厂商的大力支持才能完成。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种至少部分地解决上述问题的多语言同声互译的方法和设备。根据本专利技术一个方面,提供了一种多语言同声互译方法,其中,包括:对拾音装置生成的语音文件进行语种语境的识别;将识别语种语境后的语音文件进行文本化处理,并将文本化处理后的语音文件切分成多个语音文件单位,以分别识别计算和翻译;将多个所述语音文件单位分发到多个处理器,由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译;以及将经识别和翻译的所述语音文件单位重组为翻译后的文本文件,并将所述翻译后的文本文件以语音文件的形式播出。上述的方法,其中,对拾音装置生成的语音文件进行语种语境的识别进一步包括:根据所述拾音装置生成的语音文件的语音选择对话语种;根据所述对话语种和第一个所述语音文件选择对话语境;以及自动反复确认所述拾音装置生成的语音文件的所述对话语种和对话语境。上述的方法,其中,将经识别的所述语音文件单位重组为翻译后的文本文件之后,还包括:检查所述翻译后的文本文件的准确率和/或语音质量评估值,对生成的所述翻译后的文本文件进行语法和语音音质校正。上述的方法,其中,所述语音质量评估值包括峰值信噪比和结构相似性指标。上述的方法,其中,将多个所述语音文件单位分发到多个处理器之前,检测所述多个处理器的计算能力,并根据所述多个处理器的计算能力将多个所述语音文件单位分发到所述多个处理器,进一步包括:检测所述多个处理器的数目;检测所述多个处理器中的核心的数目;和/或检测所述多个处理器中的核心的主频。上述的方法,其中,在由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译之后,所述方法进一步包括:检查所述经识别和翻译的所述语音文件单位的结果;以及将识别和翻译结果不符合预定条件的所述语音文件单位再次分发到所述多个处理器,以进行重新识别和翻译。上述的方法,其中,在将识别和翻译结果不符合预定条件的所述语音文件单位再次分发到所述多个处理器之前,所述方法进一步包括:根据识别结果,调整所述多个处理器中与所述识别结果不符合预定条件的所述语音文件单位对应的所述处理器的识别参数;将所述识别结果不符合预定条件的所述语音文件单位再次分发到所述多个处理器中的与之对应的所述处理器。上述的方法,其中,在检查所述经识别和翻译的所述语音文件单位的结果之后,所述方法进一步包括:释放所述多个处理器中与识别结果符合预定条件的所述语音文件单位对应的处理器。上述的方法,其中,对拾音装置生成的语音文件进行语种语境的识别进一步包括:对所述语音文件的语音内容进行个性信息变化检测,以识别所述对话语境的切换。根据本专利技术另一方面,还提供了一种多语言同声互译设备,其中,包括拾音装置、切分装置、分发翻译装置和重组播音装置,所述拾音装置用于对语音进行识别并生成的语音文件;所述切分装置用于对所述语音文件进行文本化处理,并将文本化处理后的语音文件切分成多个语音文件单位;所述分发翻译装置用于将多个所述语音文件单位分发到多个处理器,由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译;以及所述重组播音装置用于将经识别和翻译的所述语音文件单位重组为翻译后的文本文件,并将所述翻译后的文本文件以语音文件的形式播出。上述多语言同声互译方法和设备充分利用了多个处理器分布式计算的优势,有效利用了每个处理器的计算能力,识别速度快,准确率高。由此,真正实现了多语言同声互译。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过结合附图对本专利技术实施例进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与本专利技术实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1示出了根据本专利技术一个实施例的多语言同声互译方法的流程图;图2示出了根据本专利技术另一个实施例的多语言同声互译方法的流程图;图3示出了根据本专利技术一个实施例的多语言同声互译设备的示意性框图。具体实施方式为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术中描述的实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本专利技术的保护范围之内。参见图1和图2,图1示出了根据本专利技术一个实施例的多语言同声互译方法的流程图,图2示出了根据本专利技术另一个实施例的多语言同声互译方法的流程图。本专利技术对语音文件进行识别和翻译处理,以获得语音识别和翻译。如图1所示,该多语言同声互译方法,包括如下步骤:步骤S100、对拾音装置10生成的语音文件进行语种语境的识别,采用语音识别和翻译技术来对语音文件进行识别和翻译处理。将数据量巨大的语音文件切分成一个个语音识别和翻译,以分别识别处理。在后续步骤中,以一个语音文件的识别和翻译为单位进行多语言同声互译;该步骤S100可进一步包括:步骤S110、根据所述拾音装置10生成的语音文件的语音选择对话语种;步骤S120、根据所述对话语种和第一个所述语音文件选择对话语境;以及步骤S130、自动反复确认所述拾音装置10生成的语音文件的所述对话语种和对话语境。其中,对拾音装置10生成的语音文件进行语种语境的识别还可进一步包括:步骤S140、对所述语音文件的语音内容进行个性信息变化检测,以识别所述对话语境的切换。具体地,首先可以对语音文件进行分析,以确定其类型。例如,根据语音标准查找语音文件中的数据,并根据所找到的数据确定多语言的类型。然后,可以根据多语言的类型,读取语音文件中的数据,将所述语音文件进行语音识别和翻译。可选根据语音文件的多语言类型进行识别和翻译处理。在语音编码序列中,设备首先对听到的语音文件进行文字识别,然后对文本文件进行翻译,最后将翻译后的文本文件以语音文件的方式播出。可选根据会话语境切换多语言类型,然后对语音文件进行识别和翻译处理。与文本数据不同,语音数据不仅包括时间信息还包括个性信息。可以对语音内容进行个性信息变化检测。如果发生了变化,那么可以据此认为语音语境发生了切换。即可根据语音语境切换本文档来自技高网...

【技术保护点】
1.一种多语言同声互译的方法,其特征在于,包括:对拾音装置生成的语音文件进行语种语境的识别;将识别语种语境后的语音文件进行文本化处理,并将文本化处理后的语音文件切分成多个语音文件单位,以分别识别计算和翻译;将多个所述语音文件单位分发到多个处理器,由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译;以及将经识别和翻译的所述语音文件单位重组为翻译后的文本文件,并将所述翻译后的文本文件以语音文件的形式播出。

【技术特征摘要】
1.一种多语言同声互译的方法,其特征在于,包括:对拾音装置生成的语音文件进行语种语境的识别;将识别语种语境后的语音文件进行文本化处理,并将文本化处理后的语音文件切分成多个语音文件单位,以分别识别计算和翻译;将多个所述语音文件单位分发到多个处理器,由所述多个处理器以并行的方式对分到的所述语音文件单位执行分布式识别计算和翻译;以及将经识别和翻译的所述语音文件单位重组为翻译后的文本文件,并将所述翻译后的文本文件以语音文件的形式播出。2.如权利要求1所述的方法,其特征在于,对拾音装置生成的语音文件进行语种语境的识别进一步包括:根据所述拾音装置生成的语音文件的语音选择对话语种;根据所述对话语种和第一个所述语音文件选择对话语境;以及自动反复确认所述拾音装置生成的语音文件的所述对话语种和对话语境。3.如权利要求2所述的方法,其特征在于,将经识别的所述语音文件单位重组为翻译后的文本文件之后,还包括:检查所述翻译后的文本文件的准确率和/或语音质量评估值,对生成的所述翻译后的文本文件进行语法和语音音质校正。4.如权利要求3所述的方法,其特征在于,所述语音质量评估值包括峰值信噪比和结构相似性指标。5.如权利要求3所述的方法,其特征在于,将多个所述语音文件单位分发到多个处理器之前,检测所述多个处理器的计算能力,并根据所述多个处理器的计算能力将多个所述语音文件单位分发到所述多个处理器,进一步包括:检测所述多个处理器的数目;检测所述多个处理器中的核心的数目;和/或检测所述多个处理器中的核心的主频。6.如权利要求1至5中任一项所述的方法,其特征在于,在由所述多个处理器以并行的方式对分到的所述语音文件单位执行...

【专利技术属性】
技术研发人员:杜含章
申请(专利权)人:盛云未来北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1