语音机器翻译方法及装置制造方法及图纸

技术编号:19424906 阅读:26 留言:0更新日期:2018-11-14 10:32
本发明专利技术提供一种语音机器翻译方法及装置,涉及基于深度学习的数据处理技术领域。该方法包括:采集语音信息,并将语音信息转换为待翻译语料;将待翻译语料输入训练后的翻译模型;将待翻译语料转换为中间语料向量;将中间语料向量转换为与预设语种对应的目标语料,其中,预设语种与待翻译语料对应的语种不同。本方案通过将采集的语音信息转换为待翻译语料,然后待翻译语料转换为中间语料向量,并将中间语料向量转换为与预设语种对应的目标语料,一方面可对语音直接进行翻译,另一方面有助于简化构建多语种之间的翻译模型,降低系统的复杂度,以及可降低系统在翻译过程中运算资源的消耗。

【技术实现步骤摘要】
语音机器翻译方法及装置
本专利技术涉及基于深度学习的数据处理
,具体而言,涉及一种语音机器翻译方法及装置。
技术介绍
在利用机器实现语言翻译的
中,从最初完全基于靠人编纂的规则的机器翻译方法,到现在的神经机器翻译(NeuralMachineTranslation,NMT),深度学习技术与自然语言处理(NaturalLanguageProcessing,NLP)结合是实现机器翻译的常用手段。而在现有的NMT技术中,训练复杂度高,可解释性差。例如,在现有技术中,通常只能对文本形式的语料进行翻译,另外一个翻译模型通常只能对两种固定的语种进行翻译,若需要对其他语种进行翻译或将待翻译语料翻译为其他语种,需要单独建立两种语种对应的翻译模型,从而增加了系统的复杂度以及系统运算资源的消耗。
技术实现思路
为了克服上述现有技术中的不足,本专利技术提供一种语音机器翻译方法及装置。为了实现上述目的,本专利技术较佳实施例所提供的技术方案如下所示:本专利技术较佳实施例提供一种语音机器翻译方法,所述方法包括:采集语音信息,并将所述语音信息转换为待翻译语料;将所述待翻译语料输入训练后的翻译模型;将所述待翻译语料转换为中间语料向量;将所述中间语料向量转换为与预设语种对应的目标语料,其中,所述预设语种与所述待翻译语料对应的语种不同。可选地,上述采集语音信息的步骤之前,所述方法包括:获取训练语料库,包括多条训练语料;针对每条所述训练语料,将所述训练语料中的每个字和/或词转换为词向量,每个所述词向量预先关联有与至少一类所述预设语种对应的字或词;使用所述训练语料库,采用深度学习算法对预设翻译模型进行训练,得到所述训练后的翻译模型。可选地,上述将所述待翻译语料转换为中间语料向量的步骤,包括:将所述待翻译语料中的字和/或词转换为相应的待翻译词向量,将各个所述待翻译词向量进行组合得到所述中间语料向量。可选地,上述将所述中间语料向量转换为与预设语种对应的目标语料的步骤,包括:将所述待翻译词向量与所述训练后的翻译模型中的词向量进行匹配,得到所述待翻译词向量与所述词向量的相似度;将所述训练语料库中相似度最大的词向量在所述预设语种中所关联的字或词作为所述待翻译词向量在所述预设语种中对应的字或词;将每个所述待翻译词向量所对应的字或词进行排列组合,得到所述目标语料。可选地,上述将每个所述待翻译词向量所对应的字或词进行组合,得到所述目标语料的步骤,包括:对每个所述待翻译词向量所对应的字或词根据所述预设语种的语法进行排序组合,得到所述目标语料。可选地,上述将所述中间语料向量转换为与所述预设语种对应的目标语料的步骤之后,所述方法还包括:语音播放所述目标语料。本专利技术实施例还提供一种语音机器翻译装置,所述语音机器翻译装置包括:采集转换单元,用于采集语音信息,并将所述语音信息转换为待翻译语料;输入单元,用于将所述待翻译语料输入训练后的翻译模型;第一转换单元,用于将所述待翻译语料转换为中间语料向量;第二转换单元,用于将所述中间语料向量转换为与预设语种对应的目标语料,其中,所述预设语种与所述待翻译语料对应的语种不同。可选地,上述语音机器翻译装置还包括第三转换单元及模型训练单元,在所述采集转换单元获得待翻译语料之前,所述输入单元,还用于获取训练语料库,包括多条训练语料;所述第三转换单元,用于针对每条所述训练语料,将所述训练语料中的每个字和/或词转换为词向量,每个所述词向量预先关联有与至少一类所述预设语种对应的字或词;所述模型训练单元,用于使用所述训练语料库,采用深度学习算法对预设翻译模型进行训练,得到所述训练后的翻译模型。可选地,上述第一转换单元还用于:将所述待翻译语料中的字和/或词转换为相应的待翻译词向量,将各个所述待翻译词向量进行组合得到所述中间语料向量。可选地,上述第二转换单元还用于:将所述待翻译词向量与所述训练后的翻译模型中的词向量进行匹配,得到所述待翻译词向量与所述词向量的相似度;将所述训练语料库中相似度最大的词向量在所述预设语种中所关联的字或词作为所述待翻译词向量在所述预设语种中对应的字或词;将每个所述待翻译词向量所对应的字或词进行排列组合,得到所述目标语料。相对于现有技术而言,本专利技术提供的语音机器翻译方法及装置,通过将采集的语音信息转换为待翻译语料,然后待翻译语料转换为中间语料向量,并将中间语料向量转换为与预设语种对应的目标语料,一方面可对语音直接进行翻译,另一方面有助于简化构建多语种之间的翻译模型,降低系统的复杂度,以及可降低系统在翻译过程中运算资源的消耗。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举本专利技术较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提供的电子设备的方框示意图。图2为本专利技术实施例提供的语音机器翻译方法的流程示意图之一。图3为本实施例提供的语种翻译的示意图。图4为本专利技术实施例提供的语音机器翻译方法的流程示意图之二。图5为本专利技术实施例提供的语音机器翻译装置的方框示意图。图标:10-电子设备;11-处理单元;12-存储单元;100-语音机器翻译装置;110-采集转换单元;120-输入单元;130-第一转换单元;140-第二转换单元。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。下面结合附图,对本专利技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。请参照图1,为本专利技术实施例提供的电子设备10的方框示意图。本专利技术实施例提供的电子设备10可以用于执行机器翻译方法的各步骤。比如,该电子设备10可以用于将汉语语种的文档翻译成英语语种的文档。在本实施例中,电子设备10可以是,但不限于,智能手机、个人电脑(personalcomputer,PC)、平板电脑、个人数字助理(personaldigitalassistant,PDA)、移动上网设备(mobileInternetdevice,MID)等。在本实施例中,电子设备10可以包括处理单元11、存储单元12以及语音机器翻译装置100,处理单元11、存储单元12以及语音机器翻译装置100各个元件之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互本文档来自技高网...

【技术保护点】
1.一种语音机器翻译方法,其特征在于,所述方法包括:采集语音信息,并将所述语音信息转换为待翻译语料;将所述待翻译语料输入训练后的翻译模型;将所述待翻译语料转换为中间语料向量;将所述中间语料向量转换为与预设语种对应的目标语料,其中,所述预设语种与所述待翻译语料对应的语种不同。

【技术特征摘要】
1.一种语音机器翻译方法,其特征在于,所述方法包括:采集语音信息,并将所述语音信息转换为待翻译语料;将所述待翻译语料输入训练后的翻译模型;将所述待翻译语料转换为中间语料向量;将所述中间语料向量转换为与预设语种对应的目标语料,其中,所述预设语种与所述待翻译语料对应的语种不同。2.根据权利要求1所述的方法,其特征在于,所述采集语音信息的步骤之前,所述方法包括:获取训练语料库,包括多条训练语料;针对每条所述训练语料,将所述训练语料中的每个字和/或词转换为词向量,每个所述词向量预先关联有与至少一类所述预设语种对应的字或词;使用所述训练语料库,采用深度学习算法对预设翻译模型进行训练,得到所述训练后的翻译模型。3.根据权利要求2所述的方法,其特征在于,所述将所述待翻译语料转换为中间语料向量的步骤,包括:将所述待翻译语料中的字和/或词转换为相应的待翻译词向量,将各个所述待翻译词向量进行组合得到所述中间语料向量。4.根据权利要求3所述的方法,其特征在于,所述将所述中间语料向量转换为与预设语种对应的目标语料的步骤,包括:将所述待翻译词向量与所述训练后的翻译模型中的词向量进行匹配,得到所述待翻译词向量与所述词向量的相似度;将所述训练语料库中相似度最大的词向量在所述预设语种中所关联的字或词作为所述待翻译词向量在所述预设语种中对应的字或词;将每个所述待翻译词向量所对应的字或词进行排列组合,得到所述目标语料。5.根据权利要求4所述的方法,其特征在于,所述将每个所述待翻译词向量所对应的字或词进行组合,得到所述目标语料的步骤,包括:对每个所述待翻译词向量所对应的字或词根据所述预设语种的语法进行排序组合,得到所述目标语料。6.根据权利要求1所述的方法,其特征在于,所述将...

【专利技术属性】
技术研发人员:吴严忠
申请(专利权)人:深圳市译家智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1