通话中的翻译制造技术

技术编号:14693930 阅读:44 留言:0更新日期:2017-02-23 16:53
经由通信系统的通信网络从源用户的远程源用户设备接收讲源语言的源用户与讲目标语言的目标用户之间的通话的通话音频,该通话音频包括以源语言的源用户话音。对该通话音频执行自动话音识别过程。使用话音识别过程的结果来以目标语言生成对该源用户的话音的翻译。将该源用户的话音的经翻译的合成话音音频版本与源用户的通话话音进行混合和/或与目标用户的话音的以源语言的经翻译的音频进行混合。将经混合音频信号经由该通信网络发送给目标用户的远程目标用户设备以用于在该通话期间向至少该目标用户输出。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
通信系统允许用户通过通信网络相互通信,例如通过在网络上进行通话。该网络可以是例如互联网或公共交换电话网络(PSTN)。在通话期间,可以在网络的节点之间传输音频和/或视频信号,从而允许用户通过该通信网络在通信会话中相互发送和接收音频数据(例如,话音)和/或视频数据(例如,网络摄像头视频)。这样的通信系统包括互联网协议语音或视频(VoIP)系统。为了使用VoIP系统,用户在用户设备上安装并执行客户端软件。该客户端软件建立VoIP连接并且提供诸如注册和用户认证之类的其他功能。除了语音通信,该客户端还可以针对通信模式而建立连接,例如,向用户提供即时消息传送(“IM”)、SMS消息传送、文件转移和语音信箱服务。
技术实现思路
提供了该
技术实现思路
以用简化的形式介绍在以下的具体实施方式中所进一步描述的概念的选择。该
技术实现思路
不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在用于限制所要求保护的主题的范围。根据第一方面,公开了用于在通信系统中使用的语言翻译中继系统。通信系统用于实现至少讲源语言的源用户与讲目标语言的目标用户之间的语音或视频通话。中继系统包括输入端、话音识别组件、翻译组件、输出组件、以及混合组件。所述输入端被配置为经由所述通信系统的通信网络接收来自源用户的远程源用户设备的通话的通话音频。所述通话音频包括源用户的以源语言的话音。所述话音识别组件被配置为对所述通话音频执行自动话音识别过程。所述翻译组件被配置为使用所述话音识别过程的结果来生成以目标语言的对源用户的话音翻译。所述翻译包括用于在目标用户设备处播放的对源用户的话音的以目标语言的经翻译的合成话音音频版本,所述合成话音是基于所述话音识别过程的结果而生成的。所述混合组件被配置为将合成话音与源用户的通话音频进行混合和/或与目标用户的话音的以源语言的经翻译的音频进行混合,从而生成经混合的音频信号。所述输出端被配置为经由通信网络将经混合的音频信号发送给目标用户的至少一个远程目标用户设备,以用于在通话期间输出给所述目标用户。根据第二方面,在通信系统的语言翻译中继系统处执行方法。所述通信系统用于实现讲源语言的至少源用户与讲目标语言的目标用户之间的语音或视频通话。通话的通话音频是经由通信系统的通信网络从源用户的远程源用户设备接收的,所述通话音频包括源用户的以源语言的话音。对通话音频执行自动话音识别过程。使用话音识别过程的结果来以目标语言生成对源用户的话音的翻译。所述翻译包括用于在目标用户设备处播放的源用户的话音的以目标语言的经翻译的合成话音音频版本,所述合成话音是基于所述话音识别过程的结果而生成的。将所述合成话音与源用户的通话音频进行混合和/或与所述目标用户的话音的以源语言的经翻译的音频进行混合,从而生成经混合的音频信号。将经混合的音频信号经由通信网络发送给目标用户的远程目标用户设备,以用于在通话期间输出给至少所述目标用户。根据第三方面,公开了包括存储在计算机可读存储介质上的计算机程序代码的计算机程序产品,当被执行时,所述计算机代码被配置为实现在本文中所公开的方法或系统中的任何方法或系统。附图说明为了更好地理解主题并且示出如何实行主题,现在将仅仅作为示例对以下的附图进行参考,其中:图1是通信系统的示意图;图2是用户设备的示意框图;图3是服务器的示意框图;图4A是示出了通信系统功能的功能框图;图4B是示出了图4A的组件中的一些组件的功能框图;图5是促进作为通话的一部分的用户之间的通信的方法的流程图;图6是操作待在客户端用户界面上显示的翻译器化身的方法的流程图;图7A到7E示意性地示出了各种示例性场景中的翻译器化身行为;图8是基于通知的翻译系统的功能框图。具体实施方式现在将仅仅作为示例来描述实施例。首先参考图1,其示出了通信系统100,所述通信系统100在该实施例中是基于分组的通信系统,但在其他实施例中可以不是基于分组的。通信系统的第一用户102a(用户A或“Alice”)对可以被示出为连接至通信网络106的用户设备104a进行操作。第一用户(Alice)在下文中也由于将变得明显的原因而被称为“源用户”。通信网络106可以例如是互联网。用户设备104被布置为从设备的用户102a接收信息并且向设备的用户102a输出信息。用户设备104a运行由与通信系统100相关联的软件供应商所提供的通信客户端118a。该通信客户端118a是在用户设备104a中的本地处理器上执行的软件程序,该软件程序允许用户设备104a通过网络106来建立通信事件,例如音频通话、音频和视频通话(等效地被称为视频通话)、即时消息传送通信会话等。图1还示出了具有用户设备104b的第二用户102b(用户B或“Bob”),所述用户设备104b执行客户端118b以便以与用户设备104a执行客户端118a以通过网络106进行通信的相同方式通过网络106进行通信。因此用户A和B(102a和102b)可以通过通信网络106相互通信。第二用户(Bob)在下文中也因为将会再次变得明显的原因而被称为“目标用户”。可以存在连接至通信网络106的更多的用户,但是为了清楚起见,在图1中仅仅示出了连接至网络106的两个用户102a和102b。在可替代的实施例中,应当注意的是,用户设备104a和/或104b可以经由未在图1中示出的额外的中间网络连接至通信网络106。例如,如果用户设备中的一个用户设备是特定类型的移动设备,则其可以经由蜂窝移动网络(未在图1中示出)(例如,GSM或UMTS网络)连接至通信网络106。可以使用客户端118a、118b以各种方式来建立Alice与Bob之间的通信事件。例如,通话可以通过Alice和Bob中的一人向另一人发出该另一人接受的通话邀请(直接地或间接地通过诸如服务器或控制器之类的中间网络实体)来建立,并且可以通过Alice和Bob中的一人在其客户端处选择结束而终止该通话。可替代地,如在下文中更加详细地解释说明的,通话可以通过请求系统100中的另一个实体与作为参与者的Alice和Bob建立通话来建立,所述通话是Alice、Bob和该事件中的该实体之间的多方(具体而言是3方)通话。每个通信客户端实例118a、118b具有登录/认证设施,所述登录/认证设施将用户设备104a、104b与其相应的用户102a、102b相关联,例如通过用户在客户端处输入用户名(或传达该用户在系统100中的标识的其他适当用户标识符)和密码,并且作为认证过程的一部分而将所述用户名和密码与在通信系统100的服务器(等)处所存储的用户账户数据进行验证。因此,由通信系统100内的相关联的用户标识符(例如,用户名)来唯一地标识用户,其中,将每个用户名映射至可以向其发送针对经标识的用户的数据(例如,通话音频/视频)的相应的客户端实例。用户可以具有在与相同的登录/注册细节相关联的其他设备上运行的通信客户端实例。在具有特定的用户名的相同的用户可以同时登录到不同设备上的相同的客户端应用的多个实例中的情况下,服务器(或类似的设备)被布置为将用户名(用户ID)映射至那些多个实例中的所有实例,并且也将单独的子标识符(sub-ID)映射至每个特定的个体实例。因此,该通信系统能够在区分不同实例的同时仍然针对通信系统内的用户而本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/62/201580027476.html" title="通话中的翻译原文来自X技术">通话中的翻译</a>

【技术保护点】
一种用于在通信系统中使用的语言翻译中继系统,所述通信系统用于实现至少讲源语言的源用户与讲目标语言的目标用户之间的语音或视频通话,所述中继系统包括:输入端,其被配置为经由所述通信系统的通信网络从所述源用户的远程源用户设备接收所述通话的通话音频,所述通话音频包括以所述源话音的所述源用户的话音;话音识别组件,其被配置为对所述通话音频执行自动话音识别过程;翻译组件,其被配置为使用所述话音识别过程的结果来生成对所述源用户的话音的以所述目标语言的翻译,所述翻译包括用于在所述目标用户设备处播放的所述源用户的话音的以所述目标语言的经翻译的合成话音音频版本,所述合成话音是基于所述话音识别过程的所述结果来生成的;混合组件,其被配置为将所述合成话音与所述源用户的通话音频进行混合和/或与所述目标用户的话音的以所述源语言的经翻译的音频进行混合,从而生成经混合的音频信号;以及输出端,其被配置为经由所述通信网络将所述经混合的音频信号发送至至少所述目标用户的远程目标用户设备,以用于在所述通话期间输出给所述目标用户。

【技术特征摘要】
【国外来华专利技术】2014.05.27 US 62/003,380;2015.02.11 US 14/620,1421.一种用于在通信系统中使用的语言翻译中继系统,所述通信系统用于实现至少讲源语言的源用户与讲目标语言的目标用户之间的语音或视频通话,所述中继系统包括:输入端,其被配置为经由所述通信系统的通信网络从所述源用户的远程源用户设备接收所述通话的通话音频,所述通话音频包括以所述源话音的所述源用户的话音;话音识别组件,其被配置为对所述通话音频执行自动话音识别过程;翻译组件,其被配置为使用所述话音识别过程的结果来生成对所述源用户的话音的以所述目标语言的翻译,所述翻译包括用于在所述目标用户设备处播放的所述源用户的话音的以所述目标语言的经翻译的合成话音音频版本,所述合成话音是基于所述话音识别过程的所述结果来生成的;混合组件,其被配置为将所述合成话音与所述源用户的通话音频进行混合和/或与所述目标用户的话音的以所述源语言的经翻译的音频进行混合,从而生成经混合的音频信号;以及输出端,其被配置为经由所述通信网络将所述经混合的音频信号发送至至少所述目标用户的远程目标用户设备,以用于在所述通话期间输出给所述目标用户。2.根据权利要求1所述的语言翻译中继系统,其中,所述通信系统的用户是由相关联的用户标识符唯一地标识的,所述中继系统被配置为实现翻译器代理,所述翻译器代理也是由相关联的用户标识符唯一地标识的,从而促进与所述代理的通信,大体上就像它是所述通信系统的另一个用户一样;其中,所述翻译器代理配置为:响应于请求所述翻译器代理参与所述通话的翻译请求,而在参与所述通话的同时实现所述话音识别过程以及所述翻译的生成。3.根据权利要求1或2所述的语言翻译中继系统,其中,所述翻译还包括用于在所述目标用户设备处显示的和/或用于在所述目标用户设备处转换成合成话音的、所述源用户的话音的以所述目标语言的经翻译的文本版本,所述目标语言文本是基于所述话音识别过程的所述结果生成的,其中,所述输出端还被配置为将所述经翻译的文本版本发送至所述目标用户设备。4.根据权利要求1、2、或3所述的语言中继翻译系统是由所述通信网络的一个或多个服务器实施的。5.根据前述任何一项权利要求所述的语言翻译中继系统,包括进一步的输入端,所述进一步的输入端被配置为经由所述网络从所述目标用户设备接收所述通话的进一步的通话音频,所述进一步的通话音频包括以所述目标语言的所述目标用户的话音;其中,所述通话音频和所述进一步的通话音频是作为分离的音频信号接收的,并且所述中继系统被配置为与所述源用户的话音的所述翻译分离地生成待发送给所述源用户的、对所述目标用户的话音的以所述源语言的进一步的翻译。6.根据权利要求5所述的语言翻译系统,其中,所述通话具有作为额外的参与者的讲第三语言的至少第三用户,所述翻译器中继系统被配置为与对所述源用户的话音和所述目标用户的话音的所述翻译分离地生成待发送给至少所述源用户的、对所述第三用户的话音的以所述源语言的第三翻译和/或待发送给至少所述目标用户的、对所述第三用户的话音的以所述目标语言的第四翻译。7.根据前述任何一项权利要求所述的语言翻译中继系统,包括另一个输出端,其被配置为将与所述话音识别过程的所述结果相关的信息发送给所述源用户的所述源用户设备和/或所述目标用户的所述目标用户设备。8.根据权利要求7所述的语言中继翻译系统,包括另一个输入端,其连接以经由所述网络从所述源用户的所述源用户设备接收反馈数据,所述反馈数据传达与所述话音识别过程的所述结果相关的源用户反馈,其中,所述话音识别组件是基于所接收到的反馈数据来配置的。9.一种在通信系...

【专利技术属性】
技术研发人员:A·奥厄A·A·梅内塞斯J·N·林德布鲁姆F·富雷斯乔P·P·N·格雷博里奥
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利