当前位置: 首页 > 专利查询>清华大学专利>正文

静默语音输入辨识方法、计算装置和计算机可读介质制造方法及图纸

技术编号:20746035 阅读:33 留言:0更新日期:2019-04-03 10:32
一种静默语音输入辨识方法、计算装置和计算机可读介质,静默语音输入辨识方法包括获得用户运动嘴部特征序列;利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动;在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入;在判定用户在进行静音语言输入的情况下,进行静音语言输入内容的识别。首先判断用户是否真的在进行静默语音输入,而不是用户的嘴部在进行其他的自然运动或者发出声音的语音,由此通过过滤掉无关输入,能够提高静默语音输入内容的识别准确率。

【技术实现步骤摘要】
静默语音输入辨识方法、计算装置和计算机可读介质
本专利技术总体地涉及唇语输入技术,特别是涉及唇语语音输入辨识方法、装置和计算机可读介质。
技术介绍
随着机器学习技术的发展以及计算设备性能的提升,静默语音输入(SilentSpeechInput)成为一种有潜力的用户输入交互方式。静默语音输入指的是如下与计算设备的输入交互方式,用户可以通过语音与计算设备进行通信,但用户并不真正发出语音,而只做出所说内容对应的嘴型。静默语音输入非常适合于在开会等不适合出声也不方便长时间利用手指进行输入的场合,具有非常好的隐秘性。一个支持静默语音输入的设备通过某种或多种特定的传感器(如肌电传感器,摄像头等)捕捉由用户嘴部运动产生的信号(或图像)来识别用户说出的内容。在本文中,我们针对的设备是通过摄像头(这个专利关心具体的捕获方式,通过任何方式都可以,摄像头是一种重要的方式)捕捉用户运动嘴部图像序列并进行识别的装置和设定。例如,在使用智能手机,电脑,或头戴装置时,用户通过静默语音的形式发出语音指令或内容,设备上的摄像头识别该指令或内容,然后计算设备做出相应的反应和反馈。其中的一个关键问题是计算设备如何判断用户是否真的在进行静默语音输入,而不是用户的嘴部在进行其他的自然运动或者发出声音的语音。。
技术实现思路
一个支持静默语音输入的设备通过某种或多种特定的传感器捕捉由用户嘴部运动产生的信号,对该信号进行分析来识别用户说出的内容。现有技术中,主要关注于如何处理嘴部运动信号来识别用户说出的内容,而尚不存在计算设备判断用户是否真的在进行静默语音输入的技术。本专利技术的专利技术人认为,人类有各种嘴部运动,如咀嚼、打哈欠、无意识的嘴部运动如撇嘴等,如果直接就这些嘴部运动来识别语音输入,会引发非常大的错误,因此将这些嘴部运动与语音输入区分开是准确识别语音输入的前提。为此,本文提出了一种技术,供计算设备判断用户是否真的在进行静默语音输入,而不是用户的嘴部在进行其他的自然运动或者发出声音的语音。在本文中,我们针对的设备是通过摄像头(这个专利关心具体的捕获方式,通过任何方式都可以,摄像头是一种重要的方式)捕捉用户运动嘴部图像序列并进行识别的装置和设定。例如,在使用智能手机,电脑,或头戴装置时,用户通过静默语音的形式发出语音指令或内容,设备上的摄像头识别该指令或内容,然后计算设备做出相应的反应和反馈。鉴于上述情况,提出了本专利技术。根据本专利技术的一个方面,提供了一种静默语音输入辨识方法,包括:获得用户运动嘴部特征序列;利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动;在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入;在判定用户在进行静音语言输入的情况下,进行静音语言输入内容的识别。可选的,运动嘴部特征序列是从肌电传感器捕获的运动嘴部图像序列提取的。可选的,运动嘴部特征序列是从通过摄像头捕获的运动嘴部图像序列提取的。可选的,运动嘴部图像数据为RGB数据、结构光、红外点云数据、深度点云数据中的一种或组合。可选的,运动嘴部图像序列是如下获得的:基于机器学习识别用户人脸位置并提取用户面部特征点,以及通过特征点获取用户嘴部的实时图像。可选的,输入嘴部运动判别器的用户运动嘴部特征序列至少包括标识三个状态的三个特征数据片:第一特征数据片为表征嘴部开始运动的特征数据片,第二特征数据片为表征嘴部持续运动的特征数据片,第三特征数据片为表征嘴部停止运动的特征数据片。可选的,判别器为二分类器,是基于采集的用户数据使用机器学习方法训练得到的。可选的,在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入包括:依据预定的在静音语言输入情况下的嘴部特征与声音信号之间的匹配模型,判定嘴部特征序列与声音信号序列之间的匹配程度,并在匹配程度超过预定阈值的情况下,判定用户在进行静音语言输入。可选的,静默语音输入辨识方法还包括:在进行静音语言输入内容的识别之后,识别出的指令或内容来进行响应。根据本专利技术的另一方面,提供了一种计算装置,包括:传感器,能够捕捉用于嘴部运动信号;控制器和存储器,存储器上存储有计算机可执行指令,当所述计算机可执行指令当被控制器执行时,可操作来执行前述静默语音输入辨识方法。根据本专利技术的再一方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令当被计算机执行时,可操作来执行前述的静默语音输入辨识方法。利用本专利技术的静默语音输入辨识方法,计算装置首先判断用户是否真的在进行静默语音输入,而不是用户的嘴部在进行其他的自然运动或者发出声音的语音,由此通过过滤掉无关输入,能够提高静默语音输入内容的识别准确率。附图说明从下面结合附图对本专利技术实施例的详细描述中,本专利技术的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:图1示出了根据本专利技术实施例的、计算机执行的静默语音输入辨识方法1000的总体流程图。图2示出了根据本专利技术一个实施例的、硬件和/或软件模块的操作和信号流动示意图。具体实施方式为了使本领域技术人员更好地理解本专利技术,下面结合附图和具体实施方式对本专利技术作进一步详细说明。在介绍之前,解释一下有关术语在本文中的含义。静默语音输入,指嘴部做出说话动作,但不发声的输入行为,也有人称之为“唇语”。图1示出了根据本专利技术实施例的、计算机执行的静默语音输入辨识方法1000的总体流程图。在步骤S1100中,获得用户运动嘴部特征序列。这里的用户运动嘴部特征序列,可以是描绘用户嘴部运动的任何特征序列。例如可以是从通过摄像头捕获的运动嘴部图像序列提取的特征序列,关于运动嘴部图像数据,基于采用的对应光源和/或摄像机(普通摄像头、结构光源、红外摄像设备、立体相机),获得的图像数据可以是RGB数据、结构光数据、红外点云数据、深度点云数据中的一种或组合。在利用摄像头获得运动的嘴部的图像的情况下,可以例如如下获得运动嘴部图像序列:基于机器学习识别用户人脸位置并提取用户面部特征点,以及通过特征点获取用户嘴部的实时图像。在步骤S1200中,利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动。在一个示例中,输入嘴部运动判别器的用户运动嘴部特征序列至少包括标识三个状态的三个特征数据片:第一特征数据片为表征嘴部开始运动的特征数据片,第二特征数据片为表征嘴部持续运动的特征数据片,第三特征数据片为表征嘴部停止运动的特征数据片。例如,在运动嘴部特征序列为从用户嘴部图像提取的情况下,嘴部运动判别器从输入的用户嘴部图像序列提取用户嘴部运动序列,具体地,基于嘴部特征点和图像信息判断当前是在以下哪四种状态(1)嘴部开始运动(2)嘴部持续运动(3)嘴部停止运动(4)其他。提取用户嘴部运动序列操作的结果为得到从状态(1)到状态(3)之间的嘴部图像序列。该判别器需要采集用户数据,并使用机器学习的方法训练模型并进行识别。判别器为二分类器,是基于采集的用户数据使用机器学习方法训练得到的。判断嘴部运动是否是正在说出一段自然语言,而不是其他情况下产生的带有嘴部运动的混淆情况。混淆情况包括但不限于:用户在吃饭,打哈欠,无意识运动等。该判别器需要采集用户数本文档来自技高网...

【技术保护点】
1.一种静默语音输入辨识方法,包括:获得用户运动嘴部特征序列;利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动;在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入;在判定用户在进行静音语言输入的情况下,进行静音语言输入内容的识别。

【技术特征摘要】
1.一种静默语音输入辨识方法,包括:获得用户运动嘴部特征序列;利用预先训练的嘴部运动判别器来判断所述用户运动嘴部特征序列是在进行语言输入还是进行其它嘴部运动;在判断所述用户运动嘴部特征序列是表征在进行语言输入的情况下,判断用户是否在进行静音语言输入;在判定用户在进行静音语言输入的情况下,进行静音语言输入内容的识别。2.根据权利要求1所述的静默语音输入辨识方法,所述运动嘴部特征序列是从肌电传感器捕获的运动嘴部图像序列提取的。3.根据权利要求1所述的静默语音输入辨识方法,所述运动嘴部特征序列是从通过摄像头捕获的运动嘴部图像序列提取的。4.根据权利要求3所述的静默语音输入辨识方法,所述运动嘴部图像数据为RGB数据、结构光、红外点云数据、深度点云数据中的一种或组合。5.根据权利要求3所述的静默语音输入辨识方法,所述运动嘴部图像序列是如下获得的:基于机器学习识别用户人脸位置并提取用户面部特征点,以及通过特征点获取用户嘴部的实时图像。6.根据权利要求1所述的静默语音输入辨识方法,输入嘴部运动判别器的用户运动嘴部特征序列至少包括标识三个状态的三个特征数据片:第一特征数据片为表征嘴部开始运动的特征数据...

【专利技术属性】
技术研发人员:喻纯孙科史元春
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1