利用深度信息识别语音的方法、系统及计算机可读介质技术方案

技术编号：28048768 阅读：21 留言：0更新日期：2021-04-09 23:40

在一种实施方式中，方法包括：接收多个第一图像，所述多个第一图像包括说出话语的说话人的至少一个口相关部，每个第一图像具有深度信息；利用所述多个第一图像提取多个视位特征，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的；利用所述多个视位特征确定与所述说出的话语相对应的词语序列，所述词语序列包括至少一个词语；以及通过人机界面(HMI)输出模型利用所述词语序列来输出响应。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】利用深度信息识别语音的方法、系统及计算机可读介质相关申请的交叉引用本申请要求于2018年9月4日递交的名称为“METHOD,SYSTEM,ANDCOMPUTER-READABLEMEDIUMFORRECOGNIZINGSPEECHUSINGDEPTHINFORMATION”的美国申请NO.62/726,595的优先权。本公开内容的背景1.
本公开内容涉及语音识别领域，尤其涉及利用深度信息识别言语的方法、系统及计算机可读介质。2.
技术介绍
自动语音识别可以用于识别人类的话语，生成可以用于使智能设备和机器人为各种应用程序执行动作的输出。唇读是一种利用视觉信息来识别人类的话语的语音识别。但唇读难以准确地生成输出。
技术实现思路
本公开内容的目的是提出用于利用深度信息识别语音的方法、系统及计算机可读介质。在本公开内容的第一方面中，一种方法包括：至少一个处理器接收多个第一图像，所述多个第一图像包括说出话语的说话者的至少一个口相关部，每个第一图像具有深度信息；所述至少...

【技术保护点】
1.一种方法，包括：/n至少一个处理器接收多个第一图像，所述多个第一图像包括说出话语的说话者的至少一个口相关部，每个第一图像具有深度信息；/n所述至少一个处理器利用所述多个第一图像提取多个视位特征，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的；/n所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列，所述词语序列包括至少一个词语；以及/n一个人机界面(HMI)输出模型利用所述词语序列来输出响应。/n

【技术特征摘要】
【国外来华专利技术】20180904 US 62/7265951.一种方法，包括：
至少一个处理器接收多个第一图像，所述多个第一图像包括说出话语的说话者的至少一个口相关部，每个第一图像具有深度信息；
所述至少一个处理器利用所述多个第一图像提取多个视位特征，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的；
所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列，所述词语序列包括至少一个词语；以及
一个人机界面(HMI)输出模型利用所述词语序列来输出响应。

2.根据权利要求1所述的方法，还包括：
当所述说话者正在说出所述话语时，一个相机生成照射所述说话者的舌头的红外光；以及
所述相机摄取所述多个第一图像。

3.根据权利要求1所述的方法，其中，
所述至少一个处理器接收所述多个第一图像的步骤包括：
所述至少一个处理器接收多个图像集，其中，每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像，所述对应第三图像具有增强所述对应第二图像的深度信息的颜色信息；以及
所述至少一个处理器利用所述多个第一图像提取所述多个视位特征的步骤包括：
所述至少一个处理器利用所述多个图像集提取所述多个视位特征，其中，所述多个图像集包括第一图像集，所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。

4.根据权利要求1所述的方法，其中，所述至少一个处理器利用所述多个第一图像提取所述多个视位特征的步骤包括：
所述至少一个处理器生成对应于所述多个第一图像的多个口相关部嵌入，其中，每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素；以及
所述至少一个处理器追踪所述口相关部的形变，从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境，生成所述多个视位特征。

5.根据权利要求4所述的方法，其中，所述RNN包括双向长短期记忆(LSTM)网络。

6.根据权利要求1所述的方法，其中，所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括：
所述至少一个处理器确定映射到所述多个视位特征的字符的多个概率分布；以及
所述至少一个处理器实现的一个连接时序分类(CTC)损失层利用映射到所述多个视位特征的字符的所述多个概率分布来确定所述词语序列。

7.根据权利要求1所述的方法，其中，所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括：
所述至少一个处理器实现的一个解码器利用所述多个视位特征确定与所述说出的话语相对应的所述词语序列。

8.根据权利要求1所述的方法，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头、嘴唇、牙齿和面部肌肉的深度信息获得的。

9.一种系统，包括：
至少一个存储器，配置成存储多个程序指令；
至少一个处理器，配置成执行所述多个程序指令，所述多个程序指令使所述至少一个处理器执行多个步骤，所述多个步骤包括：
接收多个第一图像，所述多个第一图像包括说出话语的说话者的至少一个口相关部，每个第一图像具有深度信息；
利用所述多个第一图像提取多个视位特征，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的；和
利用所述多个视位特征确定与所述说出的话语相对应的词语序列，所述词语序列包括至少一个词语；以及
一个人机界面(HMI)输出模型，配置成利用所述词语序列来输出响应。

10.根据权利要求9所述的系统，还包括：
一个相机，配置成：
当所述说话者正在说出所述话语时，生成照射所述说话者的舌头的红外...

【专利技术属性】
技术研发人员：林袁，何朝文，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人