用于语音翻译的方法、装置、电子设备和存储介质制造方法及图纸

技术编号:19748264 阅读:18 留言:0更新日期:2018-12-12 05:15
本公开的实施例提供了一种用于语音翻译的方法、装置、电子设备和计算机可读存储介质。在该方法中,确定与来自用户的、源语言形式的源语音数据中的命名实体相对应的音素序列,音素序列包括源语言形式的至少一个音素;基于音素序列和用户的地理位置,确定命名实体的目标语言形式的目标文字表示;以及基于目标文字表示,生成与源语音数据相对应的、目标语言形式的目标语音数据。本公开的实施例可以改进语音翻译的准确性。

【技术实现步骤摘要】
用于语音翻译的方法、装置、电子设备和存储介质
本公开的实施例一般地涉及信息处理
,并且更特别地,涉及一种用于语音翻译的方法、装置、电子设备和计算机可读存储介质。
技术介绍
语音翻译是指将一种语言(也称为源语言)的语音转换为另一种语言(也称为目标语言)的语音,其可以解决使用不同语言的人们跨语言的沟通问题。传统的语音翻译设备的主要工作原理是首先进行语音识别,然后调用机器翻译系统得到译文,最后调用语音合成将译文输出为语音。然而,这种传统的语音翻译方案仅利用了用户输入的语音信息,而没有利用其他可能的相关信息。这可能导致语音翻译的效果不佳,在许多语音翻译的场景中将无法满足用户的需求。
技术实现思路
本公开的实施例涉及一种用于语音翻译的方法、装置、电子设备和计算机可读存储介质。在本公开的第一方面,提供了一种用于语音翻译的方法。该方法包括:确定与来自用户的、源语言形式的源语音数据中的命名实体相对应的音素序列,音素序列包括源语言形式的至少一个音素。该方法还包括:基于音素序列和用户的地理位置,确定命名实体的目标语言形式的目标文字表示。该方法进一步包括:基于目标文字表示,生成与源语音数据相对应的、目标语言形式的目标语音数据。在本公开的第二方面,提供了一种用于语音翻译的装置。该装置包括:第一确定模块,被配置为确定与来自用户的、源语言形式的源语音数据中的命名实体相对应的音素序列,音素序列包括源语言形式的至少一个音素。该装置还包括:第二确定模块,被配置为基于音素序列和用户的地理位置,确定命名实体的目标语言形式的目标文字表示。该装置进一步包括:生成模块,被配置为基于目标文字表示,生成与源语音数据相对应的、目标语言形式的目标语音数据。在本公开的第三方面,提供了一种电子设备。该电子设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现第一方面的方法。在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其他特征通过以下的描述将变得容易理解。附图说明通过参考附图阅读下文的详细描述,本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施例,其中:图1示出了本公开的一些实施例能够在其中实现的示例环境的示意图;图2示出了根据本公开的实施例的用于语音翻译的方法的示意性流程图;图3示出了根据本公开的实施例的用于语音翻译的装置的示意性框图;以及图4示出了一种可以被用来实施本公开的实施例的设备的示意性框图。贯穿所有附图,相同或者相似的参考标号被用来表示相同或者相似的组件。具体实施方式下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解,描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开,而并非以任何方式限制本公开的范围。如上文指出的,传统的语音翻译方案仅利用了用户输入的语音信息,而没有利用其他可能的相关信息。这可能导致语音翻译的效果不佳,在很多语音翻译的场景中将无法满足用户的需求。作为具体的示例,如果用户需要翻译的语音是“请问youming地铁站怎么走?”时,传统的语音翻译方案可能出现翻译错误。例如,由于不具有与用户相关的地理位置信息和知识,传统的语音翻译方案可能将用户的上述语音中的地名“youming”误识别为形容词“有名”,进而导致翻译错误,最终给出错误的翻译语音“howtogotothefamousstation?”。作为另外的示例,在可能的其他语音翻译场景中,读音相同的多个地点可能实际上具有不同的名称,因此具有不同的语音翻译。例如,对于汉语拼音的发音“dongchong”,深圳有一个地方名为“东冲”,而香港也有一个名为“东涌”的地方。又例如,对于汉语拼音的发音“zhongguo”,日本有一个地区也叫“中国”。在另外的场景中,相同的地名在不同的地理位置可能具有完全不同的读音,例如“汉堡王”在澳大利亚习惯上称为“HungryJack’s”,等等。专利技术人通过研究发现,传统的语音翻译方案在上述语音翻译场景中无法取得令人满意的翻译结果。主要原因在于,在进行语音翻译的过程中,传统的方案没有考虑到与用户有关的地理位置信息,从而导致对用户语音的识别和翻译都会存在不准确的问题。专利技术人通过研究还发现,用户的地理位置信息对于提高语音翻译的准确性有非常大的帮助。例如,对于命名实体,诸如人名、地名、机构名、专有名词等,在语音翻译的过程中引入用户的地理位置信息,可以提高对用户语音中所提及的命名实体的翻译准确性。在上文描述的场景中,考虑到用户所在的地理位置可以消除命名实体的歧义,获得更准确的译文。鉴于专利技术人的以上分析和研究,本公开的实施例提出了一种用于语音翻译的方法、装置、电子设备和计算机可读存储介质,以改进语音翻译的准确性。本公开的实施例通过利用用户的地理位置信息,可以消除语音识别和语音翻译中存在的歧义,进而提高语音翻译准确性。本公开的实施例尤其适合用于出境旅游等场景,可以应用在移动电话的翻译应用程序、翻译机等产品中。下面结合附图来描述本公开的若干实施例。图1示出了本公开的一些实施例能够在其中实现的示例环境100的示意图。如图1所示,在示例环境100中,用户110使用一种语言(也称为源语言)向计算设备120发出语音而产生语音数据,也称为源语音数据115。在该示例中,源语言为中文,并且用户110以中文说出“请问,去有明地铁站怎么走?”。例如,用户110可能正在日本进行出境旅游,而需要计算设备120将上述源语音数据115翻译成另一种语言,也称为目标语言。计算设备120获取源语音数据115,并将源语音数据115转换为目标语言的语音数据,称之为目标语音数据125。在该示例中,目标语言是英语。应当理解,上述示例仅仅是为了说明的目的,而无意限制本公开的实施例的范围。例如,在其他实施例中,源语言也可以是英语、法语、日语等任何语言,目标语言也可以是中文、法语、日语等任何语言。将理解,计算设备120可以是任意类型的移动终端、固定终端或便携式终端,包括移动电话、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还预见到的是,计算设备120能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。此外,应当注意,在本公开的上下文中,术语“语音”是指具有语言属性的音频。尽管图1示出了由用户110来发出语音,但这仅仅是示例性的。在其他实施例中,语音也可以由扬声器等电子设备发出。因此,除非上下文另外明确指出语音仅可以由用户110发出,否则由用户110发出的“语音”不限于源自用户110,而是也可以由其他设备或装置发出。图2示出了根据本公本文档来自技高网
...

【技术保护点】
1.一种用于语音翻译的方法,包括:确定与来自用户的、源语言形式的源语音数据中的命名实体相对应的音素序列,所述音素序列包括源语言形式的至少一个音素;基于所述音素序列和所述用户的地理位置,确定所述命名实体的目标语言形式的目标文字表示;以及基于所述目标文字表示,生成与所述源语音数据相对应的、目标语言形式的目标语音数据。

【技术特征摘要】
1.一种用于语音翻译的方法,包括:确定与来自用户的、源语言形式的源语音数据中的命名实体相对应的音素序列,所述音素序列包括源语言形式的至少一个音素;基于所述音素序列和所述用户的地理位置,确定所述命名实体的目标语言形式的目标文字表示;以及基于所述目标文字表示,生成与所述源语音数据相对应的、目标语言形式的目标语音数据。2.根据权利要求1所述的方法,其中确定与命名实体相对应的音素序列包括:将所述源语音数据识别为源语言形式的源文本;对所述源文本进行分词以确定所述命名实体的源语言形式的源文字表示;以及将所述源文字表示转换为源语言形式的音素序列。3.根据权利要求2所述的方法,其中对所述源文本进行分词包括:确定与所述地理位置相关联的、源语言形式的命名实体集合;以及基于所述命名实体集合对所述源文本进行分词。4.根据权利要求1所述的方法,其中确定所述命名实体的目标语言形式的目标文字表示包括:以所述音素序列和所述地理位置为索引,在预定词典中查找与所述命名实体相关联的条目,所述条目包括所述音素序列、所述目标文字表示和所述地理位置;以及从所述条目获得所述目标文字表示。5.根据权利要求4所述的方法,其中所述条目还包括以下至少一项:所述命名实体的源语言形式的源文字表示、以及所述命名实体的类型。6.根据权利要求1所述的方法,其中生成目标语言形式的目标语音数据包括:将所述源语音数据识别为源语言形式的源文本;将所述源文本翻译为目标语言形式的目标文本;利用所述目标文字表示来调整所述目标文本;以及将经调整的所述目标文本转换为所述目标语音数据。7.一种用于语音翻译的装置,包括:第一确定模块,被配置为确定与来自用户的、源语言形式的源语音数据中的命名实体相对应的音素序列,所述音素序列包括源语言形式的至少一个音素;第二确定模块,被配置为基于所述音素序列和所述用户的地理位置,确定所述命名实体的目标语言形式的目标文字表...

【专利技术属性】
技术研发人员:何中军吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1