静默语音输入辨识方法、计算装置和计算机可读介质制造方法及图纸

技术编号：20746035 阅读：33 留言：0更新日期：2019-04-03 10:32

一种静默语音输入辨识方法、计算装置和计算机可读介质，静默语音输入辨识方法包括获得用户运动嘴部特征序列；利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动；在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下，判断用户是否在进行静音语言输入；在判定用户在进行静音语言输入的情况下，进行静音语言输入内容的识别。首先判断用户是否真的在进行静默语音输入，而不是用户的嘴部在进行其他的自然运动或者发出声音的语音，由此通过过滤掉无关输入，能够提高静默语音输入内容的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
静默语音输入辨识方法、计算装置和计算机可读介质
本专利技术总体地涉及唇语输入技术，特别是涉及唇语语音输入辨识方法、装置和计算机可读介质。
技术介绍
随着机器学习技术的发展以及计算设备性能的提升，静默语音输入(SilentSpeechInput)成为一种有潜力的用户输入交互方式。静默语音输入指的是如下与计算设备的输入交互方式，用户可以通过语音与计算设备进行通信，但用户并不真正发出语音，而只做出所说内容对应的嘴型。静默语音输入非常适合于在开会等不适合出声也不方便长时间利用手指进行输入的场合，具有非常好的隐秘性。一个支持静默语音输入的设备通过某种或多种特定的传感器(如肌电传感器，摄像头等)捕捉由用户嘴部运动产生的信号(或图像)来识别用户说出的内容。在本文中，我们针对的设备是通过摄像头(这个专利关心具体的捕获方式，通过任何方式都可以，摄像头是一种重要的方式)捕捉用户运动嘴部图像序列并进行识别的装置和设定。例如，在使用智能手机，电脑，或头戴装置时，用户通过静默语音的形式发出语音指令或内容，设备上的摄像头识别该指令或内容，然后计算设备做出相应的反应和反馈。其中的一个关键问题是计算设备如何判断用户是否真的在进行静默语音输入，而不是用户的嘴部在进行其他的自然运动或者发出声音的语音。。
技术实现思路
一个支持静默语音输入的设备通过某种或多种特定的传感器捕捉由用户嘴部运动产生的信号，对该信号进行分析来识别用户说出的内容。现有技术中，主要关注于如何处理嘴部运动信号来识别用户说出的内容，而尚不存在计算设备判断用户是否真的在进行静默语音输入的技术。本专利技术的专利技术人认为，人类有各种...

【技术保护点】
1.一种静默语音输入辨识方法，包括：获得用户运动嘴部特征序列；利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动；在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下，判断用户是否在进行静音语言输入；在判定用户在进行静音语言输入的情况下，进行静音语言输入内容的识别。

【技术特征摘要】
1.一种静默语音输入辨识方法，包括：获得用户运动嘴部特征序列；利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动；在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下，判断用户是否在进行静音语言输入；在判定用户在进行静音语言输入的情况下，进行静音语言输入内容的识别。2.根据权利要求1所述的静默语音输入辨识方法，所述运动嘴部特征序列是从肌电传感器捕获的运动嘴部图像序列提取的。3.根据权利要求1所述的静默语音输入辨识方法，所述运动嘴部特征序列是从通过摄像头捕获的运动嘴部图像序列提取的。4.根据权利要求3所述的静默语音输入辨识方法，所述运动嘴部图像数据为RGB数据、结构光、红外点云数据、深度点云数据中的一种或组合。5.根据权利要求3所述的静默语音输入辨识方法，所述运动嘴部图像序列是如下获得的：基于机器学习识别用户人脸位置并提取用户面部特征点，以及通过特征点获取用户嘴部的实时图像。6.根据权利要求1所述的静默语音输入辨识方法，输入嘴部运动判别器的用户运动嘴部特征序列至少包括标识三个状态的三个特征数据片：第一特征数据片为表征嘴部开始运动的特征数据...

【专利技术属性】
技术研发人员：喻纯，孙科，史元春，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人