用于获取信息的方法及装置制造方法及图纸

技术编号:18861638 阅读:28 留言:0更新日期:2018-09-05 14:45
本申请实施例公开了用于获取信息的方法及装置。该方法的一具体实施方式包括:从获取的人脸视频中获取角度信息和初始嘴唇动作视频,上述角度信息用于表征上述人脸视频中人脸面向的角度;通过上述角度信息对上述初始嘴唇动作视频进行修正,得到修正嘴唇动作视频;将上述修正嘴唇动作视频导入预先训练的唇语识别模型,得到对应上述修正嘴唇动作视频的文字信息,上述唇语识别模型用于表征修正嘴唇动作视频与文字信息之间的对应关系。该实施方式提高了获取唇语对应的文字信息的准确性。

Method and device for obtaining information

The application embodiment discloses a method and device for acquiring information. One specific embodiment of the method includes: obtaining angle information and initial lip action video from the acquired face video, which are used to characterize the face orientation angle in the face video; correcting the initial lip action video by the above angle information to obtain the corrected lip action video; The modified lip action video is imported into the pre-trained lip language recognition model to obtain the text information corresponding to the modified lip action video. The lip language recognition model is used to characterize the corresponding relationship between the modified lip action video and the text information. The implementation method improves the accuracy of obtaining the corresponding text information of lip language.

【技术实现步骤摘要】
用于获取信息的方法及装置
本申请实施例涉及计算机
,具体涉及用于获取信息的方法及装置。
技术介绍
随着信息科技的发展,人们越来越多地通过电子设备进行信息交互。人们可以通过电子设备上信息交互应用的文字输入或语音输入等功能向信息接收方发送信息。例如,用户可以通过电子设备上的信息交互应用提供的虚拟键盘输入文字信息,并将该文字信息发送给信息接收方;或通过信息交互应用提供的语音输入功能输入语音信息,信息交互应用可以将该语音信息直接发送给信息接收方或将该语音信息转换为文字再发送给信息接收方。
技术实现思路
本申请实施例的目的在于提出了用于获取信息的方法及装置。第一方面,本申请实施例提供了一种用于获取信息的方法,该方法包括:从获取的人脸视频中获取角度信息和初始嘴唇动作视频,上述角度信息用于表征上述人脸视频中人脸面向的角度;通过上述角度信息对上述初始嘴唇动作视频进行修正,得到修正嘴唇动作视频;将上述修正嘴唇动作视频导入预先训练的唇语识别模型,得到对应上述修正嘴唇动作视频的文字信息,上述唇语识别模型用于表征修正嘴唇动作视频与文字信息之间的对应关系。在一些实施例中,上述通过上述角度信息对上述初始嘴唇动作视频进行修正,得到修正嘴唇动作视频,包括:对于上述初始嘴唇动作视频包含的每一帧图像,通过上述角度信息对该图像进行修正,得到对应该图像的修正图像;将修正图像组合起来得到修正嘴唇动作视频。在一些实施例中,上述唇语识别模型包括卷积神经网络、循环神经网络和全连接层。在一些实施例中,上述将上述修正嘴唇动作视频导入预先训练的唇语识别模型,得到对应上述修正嘴唇动作视频的文字信息,包括:将上述修正嘴唇动作视频输入至上述卷积神经网络,得到上述修正嘴唇动作视频的各帧图像的图像特征向量,其中,上述卷积神经网络用于表征视频与视频的各帧图像的图像特征向量之间的对应关系;将上述修正嘴唇动作视频的各帧图像的图像特征向量输入至上述循环神经网络,得到上述修正嘴唇动作视频的视频特征向量,其中,上述循环神经网络用于表征视频的各帧图像的图像特征向量与视频的视频特征向量之间的对应关系,视频的视频特征向量用于表征视频的各帧图像的图像特征向量之间的关联关系;将上述修正嘴唇动作视频的视频特征向量输入至上述全连接层,得到上述文字信息,其中,上述全连接层用于表征视频的视频特征向量与文字信息之间的对应关系。在一些实施例中,上述唇语识别模型通过如下步骤训练得到:获取多个样本嘴唇动作视频和上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的样本文字信息;将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频作为输入,将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的样本文字信息作为输出,训练得到上述唇语识别模型。在一些实施例中,上述将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频作为输入,将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的样本文字信息作为输出,训练得到上述唇语识别模型,包括:执行以下训练步骤:将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频依次输入至初始唇语识别模型,得到上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的预测文字信息;将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的预测文字信息与该样本嘴唇动作视频所对应的样本文字信息进行比较,得到上述初始唇语识别模型的识别准确率,确定上述识别准确率是否大于预设准确率阈值,若大于上述预设准确率阈值,则将上述初始唇语识别模型作为训练完成的唇语识别模型。在一些实施例中,上述将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频作为输入,将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的样本文字信息作为输出,训练得到上述唇语识别模型,包括:响应于不大于上述预设准确率阈值,调整上述初始唇语识别模型的参数,并继续执行上述训练步骤。第二方面,本申请实施例提供了一种用于获取信息的装置,该装置包括:信息获取单元,用于从获取的人脸视频中获取角度信息和初始嘴唇动作视频,上述角度信息用于表征上述人脸视频中人脸面向的角度;修正单元,用于通过上述角度信息对上述初始嘴唇动作视频进行修正,得到修正嘴唇动作视频;文字信息获取单元,用于将上述修正嘴唇动作视频导入预先训练的唇语识别模型,得到对应上述修正嘴唇动作视频的文字信息,上述唇语识别模型用于表征修正嘴唇动作视频与文字信息之间的对应关系。在一些实施例中,上述修正单元包括:修正图像获取子单元,用于对于上述初始嘴唇动作视频包含的每一帧图像,通过上述角度信息对该图像进行修正,得到对应该图像的修正图像;修正嘴唇动作视频获取子单元,用于将修正图像组合起来得到修正嘴唇动作视频。在一些实施例中,上述唇语识别模型包括卷积神经网络、循环神经网络和全连接层。在一些实施例中,上述文字信息获取单元包括:图像特征向量获取子单元,用于将上述修正嘴唇动作视频输入至上述卷积神经网络,得到上述修正嘴唇动作视频的各帧图像的图像特征向量,其中,上述卷积神经网络用于表征视频与视频的各帧图像的图像特征向量之间的对应关系;视频特征向量获取子单元,用于将上述修正嘴唇动作视频的各帧图像的图像特征向量输入至上述循环神经网络,得到上述修正嘴唇动作视频的视频特征向量,其中,上述循环神经网络用于表征视频的各帧图像的图像特征向量与视频的视频特征向量之间的对应关系,视频的视频特征向量用于表征视频的各帧图像的图像特征向量之间的关联关系;文字信息获取子单元,用于将上述修正嘴唇动作视频的视频特征向量输入至上述全连接层,得到上述文字信息,其中,上述全连接层用于表征视频的视频特征向量与文字信息之间的对应关系。在一些实施例中,上述装置包括唇语识别模型训练单元,唇语识别模型训练单元包括:样本信息获取子单元,用于获取多个样本嘴唇动作视频和上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的样本文字信息;唇语识别模型训练子单元,用于将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频作为输入,将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的样本文字信息作为输出,训练得到上述唇语识别模型。在一些实施例中,上述唇语识别模型训练子单元包括:唇语识别模型训练模块,用于将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频依次输入至初始唇语识别模型,得到上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的预测文字信息;将上述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的预测文字信息与该样本嘴唇动作视频所对应的样本文字信息进行比较,得到上述初始唇语识别模型的识别准确率,确定上述识别准确率是否大于预设准确率阈值,若大于上述预设准确率阈值,则将上述初始唇语识别模型作为训练完成的唇语识别模型。在一些实施例中,上述唇语识别模型训练子单元还包括:参数调整模块,用于响应于不大于上述预设准确率阈值,调整上述初始唇语识别模型的参数,并继续执行上述训练步骤。第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;摄像头,用于采集图像;当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述第一方面的用于获取信息的方法。第四方面,本申请实施例提供了一种计算机可读介质,本文档来自技高网...

【技术保护点】
1.一种用于获取信息的方法,包括:从获取的人脸视频中获取角度信息和初始嘴唇动作视频,所述角度信息用于表征所述人脸视频中人脸面向的角度;通过所述角度信息对所述初始嘴唇动作视频进行修正,得到修正嘴唇动作视频;将所述修正嘴唇动作视频导入预先训练的唇语识别模型,得到对应所述修正嘴唇动作视频的文字信息,所述唇语识别模型用于表征修正嘴唇动作视频与文字信息之间的对应关系。

【技术特征摘要】
1.一种用于获取信息的方法,包括:从获取的人脸视频中获取角度信息和初始嘴唇动作视频,所述角度信息用于表征所述人脸视频中人脸面向的角度;通过所述角度信息对所述初始嘴唇动作视频进行修正,得到修正嘴唇动作视频;将所述修正嘴唇动作视频导入预先训练的唇语识别模型,得到对应所述修正嘴唇动作视频的文字信息,所述唇语识别模型用于表征修正嘴唇动作视频与文字信息之间的对应关系。2.根据权利要求1所述的方法,其中,所述通过所述角度信息对所述初始嘴唇动作视频进行修正,得到修正嘴唇动作视频,包括:对于所述初始嘴唇动作视频包含的每一帧图像,通过所述角度信息对该图像进行修正,得到对应该图像的修正图像;将修正图像组合起来得到修正嘴唇动作视频。3.根据权利要求1所述的方法,其中,所述唇语识别模型包括卷积神经网络、循环神经网络和全连接层。4.根据权利要求3所述的方法,其中,所述将所述修正嘴唇动作视频导入预先训练的唇语识别模型,得到对应所述修正嘴唇动作视频的文字信息,包括:将所述修正嘴唇动作视频输入至所述卷积神经网络,得到所述修正嘴唇动作视频的各帧图像的图像特征向量,其中,所述卷积神经网络用于表征视频与视频的各帧图像的图像特征向量之间的对应关系;将所述修正嘴唇动作视频的各帧图像的图像特征向量输入至所述循环神经网络,得到所述修正嘴唇动作视频的视频特征向量,其中,所述循环神经网络用于表征视频的各帧图像的图像特征向量与视频的视频特征向量之间的对应关系,视频的视频特征向量用于表征视频的各帧图像的图像特征向量之间的关联关系;将所述修正嘴唇动作视频的视频特征向量输入至所述全连接层,得到所述文字信息,其中,所述全连接层用于表征视频的视频特征向量与文字信息之间的对应关系。5.根据权利要求1所述的方法,其中,所述唇语识别模型通过如下步骤训练得到:获取多个样本嘴唇动作视频和所述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的样本文字信息;将所述多个样本嘴唇动作视频中的每个样本嘴唇动作视频作为输入,将所述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的样本文字信息作为输出,训练得到所述唇语识别模型。6.根据权利要求5所述的方法,其中,所述将所述多个样本嘴唇动作视频中的每个样本嘴唇动作视频作为输入,将所述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的样本文字信息作为输出,训练得到所述唇语识别模型,包括:执行以下训练步骤:将所述多个样本嘴唇动作视频中的每个样本嘴唇动作视频依次输入至初始唇语识别模型,得到所述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的预测文字信息;将所述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的预测文字信息与该样本嘴唇动作视频所对应的样本文字信息进行比较,得到所述初始唇语识别模型的识别准确率,确定所述识别准确率是否大于预设准确率阈值,若大于所述预设准确率阈值,则将所述初始唇语识别模型作为训练完成的唇语识别模型。7.根据权利要求6所述的方法,其中,所述将所述多个样本嘴唇动作视频中的每个样本嘴唇动作视频作为输入,将所述多个样本嘴唇动作视频中的每个样本嘴唇动作视频所对应的样本文字信息作为输出,训练得到所述唇语识别模型,包括:响应于不大于所述预设准确率阈值,调整所述初始唇语识别模型的参数,并继续执行所述训练步骤。8.一种用于获取信息的装置,包括:信息获取单元,用于从获取的人脸视频中获取角度信息和初始嘴唇动作视频,所述...

【专利技术属性】
技术研发人员:刘晓乾
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1