AR中的自然语言翻译制造技术

技术编号：29601058 阅读：32 留言：0更新日期：2021-08-06 20:05

所公开的用于在AR中执行自然语言翻译的计算机实现的方法可以包括访问音频输入流，该音频输入流包括说话的用户以第一语言说出的词语。该方法接下来可以包括对音频输入流中的词语执行主动噪声消除，使得口语词语在到达收听用户之前被抑制。此外，该方法可以包括处理音频输入流以识别说话的用户说出的词语，并将识别出的说话的用户说出的词语翻译成不同的第二语言。该方法还可以包括使用翻译后的词语生成不同的第二语言的口语词语，并且向收听用户回放所生成的第二语言的口语词语。还公开了各种其他方法、系统和计算机可读介质。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】AR中的自然语言翻译相关申请的交叉引用本申请要求2018年10月25日提交的第16/170,639号美国非临时申请的权益，其公开内容通过此引用以其整体被并入。背景现代智能手机和其他电子设备能够执行各种各样的功能。这些功能很多都是由手机的核心操作系统提供的，并且可以通过应用添加很多附加功能。现在大多数现代智能手机内置的一项功能是被称为“文本到语音(text-to-speech)”或TTS的功能。TTS允许用户将词语(word)或短语键入电子设备，并且电子设备将呈现计算机化的话音(voice)来说出所写的词语。TTS功能也可用于向用户朗读文档或书籍。TTS的逆转是语音到文本(speech-to-text，STT)，这也是大多数现代智能手机通常提供的功能。此外，许多智能手机可以运行执行语言翻译的应用。例如，在某些情况下，用户可以启动一个应用，该应用监听一种语言的话音输入，将词语翻译成另一种语言，然后将翻译后的语言的词语回放给用户。在其他情况下，应用可以翻译词语，并将词语以书面形式呈现给用户。概述如下文将更详细描述的，本公开描述了与说另一种语言的人交流的方法。然而，与传统技术相反，这里的实施例实现了主动噪声消除，以使用外语说话的人静音，并向收听用户回放外语说话者的词语的翻译。因此，当收听用户将看到外语说话者的嘴唇在动时，收听用户将只听到外语说话者的词语的翻译版本。通过去除外语说话者的词语并用收听者理解的词语代替它们，收听者将更容易理解说话者。这里的系统实时地操作，使得收听者基本上在外语说话者说出...

【技术保护点】
1.一种计算机实现的方法，包括：/n访问音频输入流，所述音频输入流包括说话的用户以第一语言说出的一个或更多个词语；/n对所述音频输入流中的一个或更多个词语执行主动噪声消除，使得口语词语在到达收听用户之前被抑制；/n处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语；/n将识别出的所述说话的用户说出的词语翻译成不同的第二语言；/n使用翻译后的词语生成不同的所述第二语言的口语词语；和/n向所述收听用户回放所生成的所述第二语言的口语词语。/n

【技术特征摘要】
【国外来华专利技术】20181025 US 16/170,6391.一种计算机实现的方法，包括：
访问音频输入流，所述音频输入流包括说话的用户以第一语言说出的一个或更多个词语；
对所述音频输入流中的一个或更多个词语执行主动噪声消除，使得口语词语在到达收听用户之前被抑制；
处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语；
将识别出的所述说话的用户说出的词语翻译成不同的第二语言；
使用翻译后的词语生成不同的所述第二语言的口语词语；和
向所述收听用户回放所生成的所述第二语言的口语词语。

2.根据权利要求1所述的计算机实现的方法，其中，所生成的口语词语针对所述说话的用户被个性化，使得所生成的所述第二语言的口语词语听起来好像是由所述说话的用户说出的。

3.根据权利要求2所述的计算机实现的方法，其中，使所生成的口语词语个性化进一步包括：
处理所述音频输入流以确定所述说话的用户对一个或更多个词语或音节如何发音；和
将确定的发音应用于所生成的口语词语。

4.根据权利要求3所述的计算机实现的方法，其中，当所述计算机确定所述说话的用户对所述词语或音节如何发音时，在回放所生成的口语词语期间，个性化被动态地应用于被回放的词语。

5.根据权利要求3所述的计算机实现的方法，其中，所述说话的用户提供一个或更多个话音样本，在接收所述音频输入流之前，所述计算机使用所述话音样本确定所述说话的用户对所述词语或音节中的一个或更多个如何发音。

6.根据权利要求1所述的计算机实现的方法，其中，向所述收听用户回放所生成的口语词语进一步包括：
确定所述说话的用户正在从哪个方向说话；和
将所生成的口语词语的回放空间化为听起来好像所述口语词语来自所确定的所述说话的用户的方向。

7.根据权利要求6所述的计算机实现的方法，其中，确定所述说话的用户正在从哪个方向说话进一步包括：
接收与所述说话的用户相关联的设备的位置数据；
基于接收到的位置数据确定所述说话的用户正在从哪个方向说话；和
将所生成的口语词语的回放空间化为听起来好像所述口语词语来自所确定的所述说话的用户的方向。

8.根据权利要求6所述的计算机实现的方法，其中，确定所述说话的用户正在从哪个方向说话进一步包括：
计算来自所述说话的用户的声波的到达方向；
基于所计算的到达方向来确定所述说话的用户正在从哪个方向说话；和
将所生成的口语词语的回放空间化为听起来好像所述口语词语来自所确定的所述说话的用户的方向。

9.根据权利要求6所述的计算机实现的方法，其中，确定所述说话的用户正在从哪个方向说话进一步包括：
跟踪所述收听用户的眼睛的移动；
基于所跟踪的所述收听用户的眼睛的移动来确定所述说话的用户正在从哪个方向说话；和
将所生成的口语词语的回放空间化为听起来好像所述口语词语来自所确定的所述说话的用户的方向。

10.根据权利要求1所述的计算机实现的方法，其中，处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语包括实现语音到文本(STT)程序以识别所述说话的用户说出的词语，以及实现文本到语音(TTS)程序以生成翻译后的口语词语。

11.一种系统，包括：
至少一个物理处理器；
物理存储器，其包括计算机可执行指令，所述计算机可执行指令在由所述物理处理器执行时使所述物理处理器：
访问音频输入流，所述音频输入流包括说话的用户以第一语言说出的一个或更多个词语；
对所述音频输入流中的一个或更多个词语执行主动噪声消除，使得口语词语在到达收听用户之前被抑制；
处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语；
将识别出的所述说话的用户说出的词语翻译成不同的第二语言；
使用翻译后的词语生成不同的所述第二语言的口语词语；和
向所述收听用户回放所生成的所述第二语言的口语词语。

12.根据权利要求11所述的系统，进一步包括：
下载与所述说话的用户相关联的话音简档；和
使用所下载的与所述说话的用户相关联的话音简档来使所生成的口语词语个性化，使得回放的所生成的所述第二语言的口语词语听起来好像是由所述说话的用户说出的。

13.根据权利要求11所述的系统，进一步包括：
访问与所述说话的用户相关联的存储的音频数据的一个或更多个部分；和
使用所访问的存储的音频数据来使所生成的口语词语个性化，使得以所述第二语言回放的所生成的口语词语听起来好像是由所述说话的用户说出的。

14.根据权利要求11所述的系统，进一步包括：
解析所述说话的用户说出的词语；
确定所述词语中的至少一个是以所述收听用户理解的语言说出的；和
暂停对以所述收听用户理解的语言说出的词语的主动噪声消除。

15.根据权利要求11所述的系统，进一步包括：
确定所述音频输入流包括由至少两个不同的说话的用户说出的词语；
根据一个或更多个话音模式区分这两个说话的用户；和
为第一说话的用户生成口语词语，同时对两个说话的用户执行主动噪声消除。

16.根据权利要求15所述的系统，进一步包括：
存储为第二说话的用户生成的口语词语，直到所述第一用户已经停止说话指定的时间量；和
回放为所述第二说话的用户生成的口语词语。

17.根据权利要求16所述的系统，进一步包括针对所述两个说话的用户中的每一个使生成的口语词语个性化，使得生成的所述第二语言的口语词语听起来好像来自每个说话的用户的话音。

18.根据权利要求11所述的系统，其中，存储在所述物理存储器上的所述计算机可执行指令的至少一部分由与所述系统分离的至少一个远程物理处理器处理。

19.根据权利要求18所述的系统，其中，一个或更多个策略指示何时以及所述计算机可执行指令的哪些部分将在与所述系统分离的所述至少一个远程物理处理器上被处理。

20.一种非暂时性计算机可读介质，其包括一个或更多个计算机可执行指令，所述一个或更多个计算机可执行指令在由计算设备的至少一个处理器执行时使所述计算设备：
访问音频输入流，所述音频输入流包括说话的用户以第一语言说出的一个或更多个词语；
对所述音频输入流中的一个或更多个词语执行主动噪声消除，使得口语词语在到达收听用户之前被抑制；
处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语；
将识别出的所述说话的用户说出的词语翻译成不同的第二语言；
使用翻译后的词语生...

【专利技术属性】
技术研发人员：安德鲁·洛维特，安东尼奥·约翰·米勒，菲利普·罗宾逊，斯科特·赛尔丰，
申请(专利权)人：脸谱科技有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人