The embodiment of the invention provides a method and a device for effective speech recognition, the method includes recording voice data source object, face image data and obtain the sound source object; ASR recognition of the voice data, to obtain ASR recognition results, the ASR includes a plurality of speech recognition results the content and the corresponding voice recording time points; the face image data of the source object for mouth feature recognition, image frames, mouth image and the image corresponding to each frame opening access point in time; and, before and after the voice recording time points corresponding to the content of the speech on each preset time range. Whether the image corresponding to the image acquisition range of mouth this time; if so, record voice content corresponding to the effective speech. Through this method and device, the effective speech data can be identified from the ASR recognition results, which can effectively improve the application value of ASR recognition results.
【技术实现步骤摘要】
一种有效语音识别方法及装置
本专利技术属于多媒体
,尤其涉及一种有效语音识别方法及装置。
技术介绍
随着现代科技的飞速发展,各种电子设备,例如:手机、iPad、智能机器人等均具有录音和自动语音识别(AutomaticSpeechRecognition,ASR)的功能。然而,单纯的录音,每笔录音的同时会记录下背景噪音、环境噪音、回声等等,难免会将非真实的语音也记录下来,经过对录音数据的ASR识别,其ASR识别结果中必然同时包含有效的语音数据和无效的语音数据。那么,如何将ASR识别结果中的有效语音识别出来是需要解决的一项问题。
技术实现思路
综上所述,本专利技术实施例提供一种有效语音识别方法及装置,能够从ASR识别结果中识别有效的语音数据,有效提高ASR识别结果的应用价值。第一方面,本专利技术实施例提供一种有效语音识别方法,其特征在于,包括:记录声源对象的语音数据,同时获取所述声源对象的脸部图像数据;对所述语音数据进行ASR识别,获得ASR识别结果,所述ASR识别结果包括若干条语音内容及对应的语音记录时间点;对所述声源对象的脸部图像数据进行张口特征识别,获得若干帧张口图像和所述每帧张口图像对应的图像获取时间点;以及比对所述每条语音内容对应的语音记录时间点的前后预设时间范围内,是否有相应的张口图像的图像获取时间点在此范围内;若有,记录对应的语音内容为有效语音。进一步的,所述每条语音内容对应的语音记录时间点为:记录所述每条语音内容开始的时间点、记录所述每条语音内容中间的时间点、或者,记录所述每条语音内容结束的时间点。进一步的,所述获取所述声源对象的脸部图像数据具 ...
【技术保护点】
一种有效语音识别方法,其特征在于,包括:记录声源对象的语音数据,同时获取所述声源对象的脸部图像数据;对所述语音数据进行ASR识别,获得ASR识别结果,所述ASR识别结果包括若干条语音内容及对应的语音记录时间点;对所述声源对象的脸部图像数据进行张口特征识别,获得若干帧张口图像和所述每帧张口图像对应的图像获取时间点;以及比对所述每条语音内容对应的语音记录时间点的前后预设时间范围内,是否有相应的张口图像的图像获取时间点在此范围内;若有,记录对应的语音内容为有效语音。
【技术特征摘要】
1.一种有效语音识别方法,其特征在于,包括:记录声源对象的语音数据,同时获取所述声源对象的脸部图像数据;对所述语音数据进行ASR识别,获得ASR识别结果,所述ASR识别结果包括若干条语音内容及对应的语音记录时间点;对所述声源对象的脸部图像数据进行张口特征识别,获得若干帧张口图像和所述每帧张口图像对应的图像获取时间点;以及比对所述每条语音内容对应的语音记录时间点的前后预设时间范围内,是否有相应的张口图像的图像获取时间点在此范围内;若有,记录对应的语音内容为有效语音。2.根据权利要求1所述的方法,其特征在于,所述每条语音内容对应的语音记录时间点为:记录所述每条语音内容开始的时间点、记录所述每条语音内容中间的时间点、或者,记录所述每条语音内容结束的时间点。3.根据权利要求1所述的方法,其特征在于,所述获取所述声源对象的脸部图像数据具体包括:摄像头侦测到所述声源对象的人脸;聚焦所述人脸,使人脸范围占据所述摄像头镜头的预设值;以及获取所述声源对象的脸部图像数据。4.根据权利要求1所述的方法,其特征在于,所述对所述声源对象的脸部图像数据进行张口特征识别具体包括:定位所述脸部图像数据的嘴型特征;以及判断嘴型的张口高度与嘴唇高度的比例是否超过或等于预设的比例;当超过或等于,识别所述的脸部图像数据为张口图像;其中,所述张口高度为上嘴唇下边缘与下嘴唇上边缘之间的距离,所述嘴唇高度为上嘴唇上边缘与下嘴唇下边缘之间的距离。5.根据权利要求1所述的方法,其特征在于,所述每条语音内容对应的语音记录时间点的前后预设时间范围为所述语音记录时间点的前后1秒。6.一种有效语音识别...
【专利技术属性】
技术研发人员:蒋化冰,蔡汉嘉,廖凯,齐鹏举,方园,米万珠,舒剑,吴琨,管伟,罗璇,
申请(专利权)人:上海木爷机器人技术有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。