AR中的自然语言翻译制造技术

技术编号:29601058 阅读:32 留言:0更新日期:2021-08-06 20:05
所公开的用于在AR中执行自然语言翻译的计算机实现的方法可以包括访问音频输入流,该音频输入流包括说话的用户以第一语言说出的词语。该方法接下来可以包括对音频输入流中的词语执行主动噪声消除,使得口语词语在到达收听用户之前被抑制。此外,该方法可以包括处理音频输入流以识别说话的用户说出的词语,并将识别出的说话的用户说出的词语翻译成不同的第二语言。该方法还可以包括使用翻译后的词语生成不同的第二语言的口语词语,并且向收听用户回放所生成的第二语言的口语词语。还公开了各种其他方法、系统和计算机可读介质。

【技术实现步骤摘要】
【国外来华专利技术】AR中的自然语言翻译相关申请的交叉引用本申请要求2018年10月25日提交的第16/170,639号美国非临时申请的权益,其公开内容通过此引用以其整体被并入。背景现代智能手机和其他电子设备能够执行各种各样的功能。这些功能很多都是由手机的核心操作系统提供的,并且可以通过应用添加很多附加功能。现在大多数现代智能手机内置的一项功能是被称为“文本到语音(text-to-speech)”或TTS的功能。TTS允许用户将词语(word)或短语键入电子设备,并且电子设备将呈现计算机化的话音(voice)来说出所写的词语。TTS功能也可用于向用户朗读文档或书籍。TTS的逆转是语音到文本(speech-to-text,STT),这也是大多数现代智能手机通常提供的功能。此外,许多智能手机可以运行执行语言翻译的应用。例如,在某些情况下,用户可以启动一个应用,该应用监听一种语言的话音输入,将词语翻译成另一种语言,然后将翻译后的语言的词语回放给用户。在其他情况下,应用可以翻译词语,并将词语以书面形式呈现给用户。概述如下文将更详细描述的,本公开描述了与说另一种语言的人交流的方法。然而,与传统技术相反,这里的实施例实现了主动噪声消除,以使用外语说话的人静音,并向收听用户回放外语说话者的词语的翻译。因此,当收听用户将看到外语说话者的嘴唇在动时,收听用户将只听到外语说话者的词语的翻译版本。通过去除外语说话者的词语并用收听者理解的词语代替它们,收听者将更容易理解说话者。这里的系统实时地操作,使得收听者基本上在外语说话者说出词语时就听到外语说话者的词语的翻译版本,而不是同时听到外语说话者和翻译,或者在外语说话者说话时必须等待,然后输出翻译版本。此外,由于实现了主动噪声消除,收听用户将只听到翻译后的词语,而不是听到外语说话者的词语和翻译后的词语。这将极大地增强收听用户对对话的理解,并使人们能够更轻松地、以更高水平的理解进行交流。在某些情况下,可以在增强现实(AR)或虚拟现实(VR)设备上提供主动噪声消除和翻译功能。实际上,在一个示例中,佩戴AR头戴式装置的收听用户可能与说收听用户无法理解的语言的外语说话者交谈。当外语说话者说话时,收听用户的AR头戴式装置可以对外语说话者的词语应用主动噪声消除。然后,在听筒(earpiece)中或通过其他听觉装置,通过AR头戴式装置将外语说话者的翻译后的词语回放给收听用户。这可以实时发生,因此,收听用户可以清楚准确地听懂外语说话者的词语。在这样的实施例中,收听用户将只听到外语说话者的词语的翻译版本,而不必试图过滤或忽略外语说话者的口语词语。如果外语说话者也戴着这样的AR头戴式装置,则两个人可以来回交谈,每个人都用自己的母语说话,并且每个人都听到用自己的母语的回答,而不会被说话者的实际词语(无论如何,收听者都无法理解它们)所阻碍。此外,在一些实施例中,对收听者说翻译后的词语的话音可以被个性化为听起来好像它来自说外语的用户。在一个示例中,用于在AR中执行自然语言翻译的计算机实现的方法可以包括访问从说话的用户接收的音频输入流。音频输入流可以包括说话的用户以第一语言说出的词语。该方法接下来可以包括对从说话的用户接收的音频输入流中的词语执行主动噪声消除,使得口语词语在到达收听用户之前被抑制。此外,该方法可以包括处理音频输入流以识别说话的用户说出的词语,并将识别出的说话的用户说出的词语翻译成不同的第二语言。该方法还可以包括使用翻译后的词语生成不同的第二语言的口语词语,并且向收听用户回放所生成的第二语言的口语词语。在一些示例中,生成的口语词语可以针对说话的用户被个性化,使得所生成的第二语言的口语词语听起来好像是由说话的用户说出的。在一些示例中,个性化生成的口语词语可以进一步包括处理音频输入流以确定说话的用户对各种词语或音节如何发音,以及将确定的发音应用于生成的口语词语。在回放生成的口语词语期间,当计算机确定说话的用户对词语或音节如何发音时,个性化可以被动态地应用于被回放的词语。在一些示例中,说话的用户可以提供话音样本。在接收音频输入流之前,这些话音样本可用于确定说话的用户对词语或音节如何发音。在一些示例中,向收听用户回放生成的口语词语可以进一步包括确定说话的用户正在从哪个方向说话,并且将生成的口语词语的回放空间化为听起来好像该口语词语来自所确定的说话的用户的方向。确定说话的用户正在从哪个方向说话可以包括接收与说话的用户相关联的设备的位置数据,基于接收到的位置数据确定说话的用户正在从哪个方向说话,以及将生成的口语词语的回放空间化为听起来好像该口语词语来自所确定的说话的用户的方向。在一些示例中,确定说话的用户正在说话的方向还可以包括计算来自说话的用户的声波的到达方向,基于计算的到达方向确定说话的用户正在从哪个方向说话,以及将生成的口语词语的回放空间化为听起来好像该口语词语来自所确定的说话的用户的方向。在一些示例中,确定说话的用户正在从哪个方向说话可以进一步包括跟踪收听用户的眼睛的移动,基于跟踪到的收听用户的眼睛的移动来确定说话的用户正在从哪个方向说话,以及将生成的口语词语的回放空间化为听起来好像该口语词语来自所确定的说话的用户的方向。在一些示例中,处理音频输入流以识别说话的用户说出的词语可以包括实现语音到文本(STT)程序以识别说话的用户说出的词语,以及实现文本到语音(TTS)程序以生成翻译后的口语词语。该方法还可以包括下载与说话的用户相关联的话音简档,并使用下载的与说话的用户相关联的话音简档来个性化生成的口语词语,使得回放的第二语言生成的口语词语听起来好像是说话的用户说出的。在一些示例中,该方法可以进一步包括访问与说话的用户相关联的存储的音频数据,然后使用访问的存储的音频数据来个性化生成的口语词语。这样,以第二语言回放的生成的口语词语可以听起来好像是由说话的用户说出的。在一些示例中,该方法可以进一步包括解析说话的用户说出的词语,确定这些词语中的至少一个是以收听用户理解的语言说出的,以及暂停对以收听用户理解的语言说出的词语的主动噪声消除。在一些示例中,音频输入流包括由至少两个不同的说话的用户说出的词语。该方法然后可以包括根据不同的话音模式区分这两个说话的用户,并为第一说话的用户生成口语词语,同时对两个说话的用户执行主动噪声消除。此外,在一些示例中,该方法可以包括存储为第二说话的用户生成的口语词语,直到第一用户已经停止说话达指定的时间量,然后回放为第二说话的用户生成的口语词语。在一些示例中,该方法进一步包括在第一说话的用户说话时为第二说话的用户创建话音模型。该方法还可以包括针对两个说话的用户中的每一个个性化生成的口语词语,使得生成的第二语言的口语词语听起来好像来自每个说话的用户的话音。此外,用于在AR中执行自然语言翻译的相应系统可以包括存储在存储器中的几个模块,包括访问音频输入流的音频访问模块,该音频输入流包括说话的用户以第一语言说出的词语。该系统还可以包括噪声消除模块,该噪声消除模块对音频输入流中的词语执行主动噪声消除,以便口语词语在到达收听用户之前被抑本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:/n访问音频输入流,所述音频输入流包括说话的用户以第一语言说出的一个或更多个词语;/n对所述音频输入流中的一个或更多个词语执行主动噪声消除,使得口语词语在到达收听用户之前被抑制;/n处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语;/n将识别出的所述说话的用户说出的词语翻译成不同的第二语言;/n使用翻译后的词语生成不同的所述第二语言的口语词语;和/n向所述收听用户回放所生成的所述第二语言的口语词语。/n

【技术特征摘要】
【国外来华专利技术】20181025 US 16/170,6391.一种计算机实现的方法,包括:
访问音频输入流,所述音频输入流包括说话的用户以第一语言说出的一个或更多个词语;
对所述音频输入流中的一个或更多个词语执行主动噪声消除,使得口语词语在到达收听用户之前被抑制;
处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语;
将识别出的所述说话的用户说出的词语翻译成不同的第二语言;
使用翻译后的词语生成不同的所述第二语言的口语词语;和
向所述收听用户回放所生成的所述第二语言的口语词语。


2.根据权利要求1所述的计算机实现的方法,其中,所生成的口语词语针对所述说话的用户被个性化,使得所生成的所述第二语言的口语词语听起来好像是由所述说话的用户说出的。


3.根据权利要求2所述的计算机实现的方法,其中,使所生成的口语词语个性化进一步包括:
处理所述音频输入流以确定所述说话的用户对一个或更多个词语或音节如何发音;和
将确定的发音应用于所生成的口语词语。


4.根据权利要求3所述的计算机实现的方法,其中,当所述计算机确定所述说话的用户对所述词语或音节如何发音时,在回放所生成的口语词语期间,个性化被动态地应用于被回放的词语。


5.根据权利要求3所述的计算机实现的方法,其中,所述说话的用户提供一个或更多个话音样本,在接收所述音频输入流之前,所述计算机使用所述话音样本确定所述说话的用户对所述词语或音节中的一个或更多个如何发音。


6.根据权利要求1所述的计算机实现的方法,其中,向所述收听用户回放所生成的口语词语进一步包括:
确定所述说话的用户正在从哪个方向说话;和
将所生成的口语词语的回放空间化为听起来好像所述口语词语来自所确定的所述说话的用户的方向。


7.根据权利要求6所述的计算机实现的方法,其中,确定所述说话的用户正在从哪个方向说话进一步包括:
接收与所述说话的用户相关联的设备的位置数据;
基于接收到的位置数据确定所述说话的用户正在从哪个方向说话;和
将所生成的口语词语的回放空间化为听起来好像所述口语词语来自所确定的所述说话的用户的方向。


8.根据权利要求6所述的计算机实现的方法,其中,确定所述说话的用户正在从哪个方向说话进一步包括:
计算来自所述说话的用户的声波的到达方向;
基于所计算的到达方向来确定所述说话的用户正在从哪个方向说话;和
将所生成的口语词语的回放空间化为听起来好像所述口语词语来自所确定的所述说话的用户的方向。


9.根据权利要求6所述的计算机实现的方法,其中,确定所述说话的用户正在从哪个方向说话进一步包括:
跟踪所述收听用户的眼睛的移动;
基于所跟踪的所述收听用户的眼睛的移动来确定所述说话的用户正在从哪个方向说话;和
将所生成的口语词语的回放空间化为听起来好像所述口语词语来自所确定的所述说话的用户的方向。


10.根据权利要求1所述的计算机实现的方法,其中,处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语包括实现语音到文本(STT)程序以识别所述说话的用户说出的词语,以及实现文本到语音(TTS)程序以生成翻译后的口语词语。


11.一种系统,包括:
至少一个物理处理器;
物理存储器,其包括计算机可执行指令,所述计算机可执行指令在由所述物理处理器执行时使所述物理处理器:
访问音频输入流,所述音频输入流包括说话的用户以第一语言说出的一个或更多个词语;
对所述音频输入流中的一个或更多个词语执行主动噪声消除,使得口语词语在到达收听用户之前被抑制;
处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语;
将识别出的所述说话的用户说出的词语翻译成不同的第二语言;
使用翻译后的词语生成不同的所述第二语言的口语词语;和
向所述收听用户回放所生成的所述第二语言的口语词语。


12.根据权利要求11所述的系统,进一步包括:
下载与所述说话的用户相关联的话音简档;和
使用所下载的与所述说话的用户相关联的话音简档来使所生成的口语词语个性化,使得回放的所生成的所述第二语言的口语词语听起来好像是由所述说话的用户说出的。


13.根据权利要求11所述的系统,进一步包括:
访问与所述说话的用户相关联的存储的音频数据的一个或更多个部分;和
使用所访问的存储的音频数据来使所生成的口语词语个性化,使得以所述第二语言回放的所生成的口语词语听起来好像是由所述说话的用户说出的。


14.根据权利要求11所述的系统,进一步包括:
解析所述说话的用户说出的词语;
确定所述词语中的至少一个是以所述收听用户理解的语言说出的;和
暂停对以所述收听用户理解的语言说出的词语的主动噪声消除。


15.根据权利要求11所述的系统,进一步包括:
确定所述音频输入流包括由至少两个不同的说话的用户说出的词语;
根据一个或更多个话音模式区分这两个说话的用户;和
为第一说话的用户生成口语词语,同时对两个说话的用户执行主动噪声消除。


16.根据权利要求15所述的系统,进一步包括:
存储为第二说话的用户生成的口语词语,直到所述第一用户已经停止说话指定的时间量;和
回放为所述第二说话的用户生成的口语词语。


17.根据权利要求16所述的系统,进一步包括针对所述两个说话的用户中的每一个使生成的口语词语个性化,使得生成的所述第二语言的口语词语听起来好像来自每个说话的用户的话音。


18.根据权利要求11所述的系统,其中,存储在所述物理存储器上的所述计算机可执行指令的至少一部分由与所述系统分离的至少一个远程物理处理器处理。


19.根据权利要求18所述的系统,其中,一个或更多个策略指示何时以及所述计算机可执行指令的哪些部分将在与所述系统分离的所述至少一个远程物理处理器上被处理。


20.一种非暂时性计算机可读介质,其包括一个或更多个计算机可执行指令,所述一个或更多个计算机可执行指令在由计算设备的至少一个处理器执行时使所述计算设备:
访问音频输入流,所述音频输入流包括说话的用户以第一语言说出的一个或更多个词语;
对所述音频输入流中的一个或更多个词语执行主动噪声消除,使得口语词语在到达收听用户之前被抑制;
处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语;
将识别出的所述说话的用户说出的词语翻译成不同的第二语言;
使用翻译后的词语生...

【专利技术属性】
技术研发人员:安德鲁·洛维特安东尼奥·约翰·米勒菲利普·罗宾逊斯科特·赛尔丰
申请(专利权)人:脸谱科技有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1