一种多语种语音翻译方法及系统技术方案

技术编号:33618620 阅读:21 留言:0更新日期:2022-06-02 00:38
本发明专利技术公开了一种多语种语音翻译方法及系统,涉及语音翻译技术领域,首先获取源语音音频和目标语种类别;对源语音音频进行音频预处理,得到预处理后的源语音音频;对于预处理后的源语音音频,进行语种识别,得到待翻译的源语种类别;依据源语种类别,采用对应的语音识别模型,将预处理后的源语音音频转换成源语音文本;将源语音文本输入文本翻译模型中,得到目标语种文本。本发明专利技术能够克服源语音的噪声影响,提高模型识别的准确率,并且能够对多种不同的语言类型进行准确的识别和翻译,提高用户的使用体验感。户的使用体验感。户的使用体验感。

【技术实现步骤摘要】
一种多语种语音翻译方法及系统


[0001]本专利技术涉及语音翻译
,更具体的说是涉及一种多语种语音翻译方法及系统。

技术介绍

[0002]随着人工智能、自然语言处理等技术的发展,语音翻译技术在同传、外语教学等场景中得到了广泛的应用。语音翻译的目的是将一种语言的语音转化为另一种语言的文本。
[0003]语音翻译过程通常包括两个步骤,即,由语音翻译模型实现语音识别和文本翻译。具体地,首先,将一段语音经过语音识别技术,识别成与之同一语种的文本,然后,利用文本翻译技术将该识别文本翻译成另一语种的文本,从而实现语音翻译过程。
[0004]但是,联合语音识别技术和文本翻译技术进行语音翻译,存在错误累积的缺点,尤其对于初始的语音识别这一环节,容易受到源语音的噪声影响,导致识别结果准确率较低,并且由于大多的语音翻译仅支持单一的语种翻译,对于不同语种的音频进行翻译时,由于模型的单一性限制,导致语音识别不准确,因此,如何提高语音翻译过程,尤其是语音识别环节的准确性,是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种多语种语音翻译方法及系统。
[0006]为了实现上述目的,本专利技术提供如下技术方案:
[0007]一种多语种语音翻译方法,包括以下步骤:
[0008]步骤1、获取源语音音频和目标语种类别;
[0009]步骤2、对源语音音频进行音频预处理,得到预处理后的源语音音频;
[0010]步骤3、对于预处理后的源语音音频,进行语种识别,得到待翻译的源语种类别;
[0011]步骤4、依据源语种类别,采用对应的语音识别模型,将预处理后的源语音音频转换成源语音文本;
[0012]步骤5、将源语音文本输入文本翻译模型中,得到目标语种文本。
[0013]可选的,所述步骤2中,所述预处理包括语音增强和噪声过滤。通过语音预处理,消除源语音音频中的噪声信息,提高后续进行特征提取和语音识别的准确率。
[0014]可选的,所述步骤3中,进行语种识别的具体过程为:
[0015]步骤3.1、对于待识别的语音音频,进行特征提取,得到多个音频特征;
[0016]步骤3.2、基于神经网络的注意力机制,选出主要音频特征;
[0017]步骤3.3、基于所述主要音频特征,确定语种识别结果。
[0018]基于音频中的主要音频特征来确定该音频的语种类别,克服了部分音频中掺杂其他语言而无法准确确定待翻译音频语种的问题。
[0019]可选的,所述步骤3.1中,进行特征提取的具体过程为:
[0020]对待识别的语音音频进行分段,对于每段语音音频,提取其ZCPA特征作为音频特
征。选用ZCPA特征作为音频特征,能够更好地反映音频的特点,克服音频中的噪声影响,提高系统鲁棒性。
[0021]可选的,所述步骤3.3中,需调用预设的语种特征库,根据音频特征,确定语种识别结果。
[0022]可选的,所述步骤4中,预设有多个语音识别模型,用于对不同语种的语音音频进行语音识别。
[0023]可选的,所述步骤4中,对语音识别模型进行训练的方法为:
[0024]使用网络爬虫获取不同语种的训练数据,所述训练数据中至少包括语音音频和对应的语音文本;
[0025]使用对应语种的训练数据,训练对应的神经网络模型,得到多个语音识别模型。
[0026]可选的,所述步骤5中,进行文本翻译的过程为:
[0027]调取目标语种类别的词向量库和语法规则库;
[0028]将源语音文本输入文本翻译模型中,依据对应的词向量库和语法规则库,进行词向量整合,得到目标语种文本。
[0029]一种多语种语音翻译系统,包括语音采集装置、交互装置、存储器和处理器、文本显示装置;所述处理器分别与语音采集装置、交互装置、存储器、文本显示装置连接;
[0030]所述语音采集装置用于采集源语音音频;
[0031]所述交互装置用于获取目标语种类别;
[0032]所述处理器内存储有计算机程序,用于对源语音音频进行处理,得到目标语种文本;所述处理器执行所述计算机程序时实现如上任一所述的一种多语种语音翻译方法;
[0033]所述存储器,包含有多个数据库;
[0034]所述文本显示装置用于显示目标语种文本。
[0035]可选的,所述交互装置和文本显示装置集成于一体,通过显示屏的方式进行交互和文本显示。
[0036]经由上述的技术方案可知,本专利技术公开提供了一种多语种语音翻译方法及系统,与现有技术相比,具有以下有益效果:
[0037]本专利技术对源语音音频进行预处理操作,进行增强和噪声过滤,提高后续进行特征提取和语音识别的准确率。基于ZCPA特征进行语种识别,准确识别出待翻译音频语种类别,进而选取对应的语音识别模型进行语音识别,将源语音音频转换成源语音文本,并对该文本进行翻译,得到最终的目标语种文本。本专利技术能够克服源语音的噪声影响,提高模型识别的准确率,并且能够对多种不同的语言类型进行准确的识别和翻译,提高用户的使用体验感。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0039]图1为本专利技术的方法步骤示意图;
[0040]图2为本专利技术的系统结构示意图。
具体实施方式
[0041]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]本专利技术实施例公开了一种多语种语音翻译方法,参见图1,包括以下步骤:
[0043]步骤1、获取源语音音频和目标语种类别;
[0044]步骤2、对源语音音频进行音频预处理,得到预处理后的源语音音频;
[0045]其中,预处理包括语音增强和噪声过滤。在具体实施例中,音频的预处理包括自适应滤波器法、谱减法、维纳滤波法等。
[0046]步骤3、对于预处理后的源语音音频,进行语种识别,得到待翻译的源语种类别。
[0047]在具体实施例中,进行语种识别的具体过程为:
[0048]步骤3.1、对待识别的语音音频进行分段,对于每段语音音频,提取其ZCPA特征作为音频特征,进而得到多个音频特征;
[0049]步骤3.2、基于神经网络的注意力机制,选出多个音频特征中的主要音频特征;
[0050]步骤3.3、基于所述主要音频特征,调用预设的语种特征库,确定最终的语种识别结果。所述语种特征库中存储有多个语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语种语音翻译方法,其特征在于,包括以下步骤:步骤1、获取源语音音频和目标语种类别;步骤2、对源语音音频进行音频预处理,得到预处理后的源语音音频;步骤3、对于预处理后的源语音音频,进行语种识别,得到待翻译的源语种类别;步骤4、依据源语种类别,采用对应的语音识别模型,将预处理后的源语音音频转换成源语音文本;步骤5、将源语音文本输入文本翻译模型中,得到目标语种文本。2.根据权利要求1所述的一种多语种语音翻译方法,其特征在于,所述步骤2中,所述预处理包括语音增强和噪声过滤。3.根据权利要求1所述的一种多语种语音翻译方法,其特征在于,所述步骤3中,进行语种识别的具体过程为:步骤3.1、对于待识别的语音音频,进行特征提取,得到多个音频特征;步骤3.2、基于神经网络的注意力机制,选出主要音频特征;步骤3.3、基于所述主要音频特征,确定语种识别结果。4.根据权利要求3所述的一种多语种语音翻译方法,其特征在于,所述步骤3.1中,进行特征提取的具体过程为:对待识别的语音音频进行分段,对于每段语音音频,提取其ZCPA特征作为音频特征。5.根据权利要求3所述的一种多语种语音翻译方法,其特征在于,所述步骤3.3中,需调用预设的语种特征库,根据音频特征,确定语种识别结果。6.根据权利要求1所述的一种多语种语音翻译方法,其特征在于,所述步骤4中,预设有多个语音识别模型,用于对不...

【专利技术属性】
技术研发人员:陈倩
申请(专利权)人:郑州科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1