一种有效语音识别方法及装置制造方法及图纸

技术编号:16606488 阅读:38 留言:0更新日期:2017-11-22 16:29
本发明专利技术实施例提供一种有效语音识别的方法及装置,所述方法包括:记录声源对象的语音数据,同时获取所述声源对象的脸部图像数据;对所述语音数据进行ASR识别,获得ASR识别结果,所述ASR识别结果包括若干条语音内容及对应的语音记录时间点;对所述声源对象的脸部图像数据进行张口特征识别,获得若干帧张口图像和所述每帧张口图像对应的图像获取时间点;以及,比对所述每条语音内容对应的语音记录时间点的前后预设时间范围内,是否有相应的张口图像的图像获取时间点在此范围内;若有,记录对应的语音内容为有效语音。通过本方法及装置,能够从ASR识别结果中识别有效的语音数据,有效提高ASR识别结果的应用价值。

An effective speech recognition method and device

The embodiment of the invention provides a method and a device for effective speech recognition, the method includes recording voice data source object, face image data and obtain the sound source object; ASR recognition of the voice data, to obtain ASR recognition results, the ASR includes a plurality of speech recognition results the content and the corresponding voice recording time points; the face image data of the source object for mouth feature recognition, image frames, mouth image and the image corresponding to each frame opening access point in time; and, before and after the voice recording time points corresponding to the content of the speech on each preset time range. Whether the image corresponding to the image acquisition range of mouth this time; if so, record voice content corresponding to the effective speech. Through this method and device, the effective speech data can be identified from the ASR recognition results, which can effectively improve the application value of ASR recognition results.

【技术实现步骤摘要】
一种有效语音识别方法及装置
本专利技术属于多媒体
,尤其涉及一种有效语音识别方法及装置。
技术介绍
随着现代科技的飞速发展,各种电子设备,例如:手机、iPad、智能机器人等均具有录音和自动语音识别(AutomaticSpeechRecognition,ASR)的功能。然而,单纯的录音,每笔录音的同时会记录下背景噪音、环境噪音、回声等等,难免会将非真实的语音也记录下来,经过对录音数据的ASR识别,其ASR识别结果中必然同时包含有效的语音数据和无效的语音数据。那么,如何将ASR识别结果中的有效语音识别出来是需要解决的一项问题。
技术实现思路
综上所述,本专利技术实施例提供一种有效语音识别方法及装置,能够从ASR识别结果中识别有效的语音数据,有效提高ASR识别结果的应用价值。第一方面,本专利技术实施例提供一种有效语音识别方法,其特征在于,包括:记录声源对象的语音数据,同时获取所述声源对象的脸部图像数据;对所述语音数据进行ASR识别,获得ASR识别结果,所述ASR识别结果包括若干条语音内容及对应的语音记录时间点;对所述声源对象的脸部图像数据进行张口特征识别,获得若干帧张口图像和所述每帧张口图像对应的图像获取时间点;以及比对所述每条语音内容对应的语音记录时间点的前后预设时间范围内,是否有相应的张口图像的图像获取时间点在此范围内;若有,记录对应的语音内容为有效语音。进一步的,所述每条语音内容对应的语音记录时间点为:记录所述每条语音内容开始的时间点、记录所述每条语音内容中间的时间点、或者,记录所述每条语音内容结束的时间点。进一步的,所述获取所述声源对象的脸部图像数据具体包括:摄像头侦测到所述声源对象的人脸;聚焦所述人脸,使人脸范围占据所述摄像头镜头的预设值;获取所述声源对象的脸部图像数据。进一步的,所述对所述声源对象的脸部图像数据进行张口特征识别具体包括:定位所述脸部图像数据的嘴型特征;以及判断嘴型的张口高度与嘴唇高度的比例是否超过或等于预设的比例;当超过或等于,识别所述的脸部图像数据为张口图像;其中,所述张口高度为上嘴唇下边缘与下嘴唇上边缘之间的距离,所述嘴唇高度为上嘴唇上边缘与下嘴唇下边缘之间的距离。进一步的,所述每条语音内容对应的语音记录时间点的前后预设时间范围为所述语音记录时间点的前后1秒。第二方面,本专利技术实施例提供一种有效语音识别装置,包括:录音装置,用于记录声源对象的语音数据;摄像装置,用于与所述录音装置同步记录所述声源对象的脸部图像数据;ASR识别装置,用于对所述语音数据进行ASR识别,获得ASR识别结果,所述ASR识别结果包括若干条语音内容及对应的语音记录时间点;图像侦测装置,用于对所述声源对象的脸部图像数据进行张口特征识别,获得若干帧张口图像和所述每帧张口图像对应的图像获取时间点;以及有效语音提取装置,用于比对所述每条语音内容对应的语音记录时间点的前后预设时间范围内,是否有相应的张口图像的图像获取时间点在此范围内;若有,记录对应的语音内容为有效语音。进一步的,所述每条语音内容对应的语音记录时间点为:记录所述每条语音内容开始的时间点、记录所述每条语音内容中间的时间点、或者,记录所述每条语音内容结束的时间点。进一步的,所述摄像装置具体用于:侦测到所述声源对象的人脸;聚焦所述人脸,使人脸范围占据所述摄像装置镜头的预设值;获取所述声源对象的脸部图像数据。进一步的,所述图像侦测装置具体用于:定位所述脸部图像数据的嘴型特征;以及判断嘴型的张口高度与嘴唇高度的比例是否超过或等于预设的比例;当超过或等于,识别所述的脸部图像数据为张口图像;其中,所述张口高度为上嘴唇下边缘与下嘴唇上边缘之间的距离,所述嘴唇高度为上嘴唇上边缘与下嘴唇下边缘之间的距离。进一步的,所述每条语音内容对应的语音记录时间点的前后预设时间范围为所述语音记录时间点的前后1秒。通过本专利技术实施例提供的有效语音识别方法及装置,在记录声源对象的语音数据的同时获取声源对象的脸部图像数据,结合张口图像,识别语音数据ASR识别结果中的有效语音,能够准确过滤掉ASR识别结果中的背景噪音、环境噪音、非声源对象的语音内容,有效提高ASR识别结果的应用价值。附图说明为了更清楚地说明本专利技术或现有技术中的方案,下面将对实施例或现有技术描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例所提供的一种有效语音识别方法的流程示意图;图2为本专利技术实施例所提供的一种声源对象的脸部图像数据显示示意图;图3为本专利技术实施例所提供的一种ASR识别结果示意图;图4为本专利技术实施例所提供的一种每帧张口图像对应的图像获取时间点列表示意图;图5为本专利技术实施例所提供的一种张口图像识别数据流与ASR数据流结合比对判断有效语音的示意图;图6为本专利技术实施例所提供的另一种ASR识别结果示意图;图7为本专利技术实施例所提供的一种有效语音识别装置的组成结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,附图中给出了本专利技术的较佳实施例。本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本专利技术的公开内容的理解更加透彻全面。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本专利技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。实施例一本专利技术实施例一提供一种有效语音的识别方法,用以在记录声源对象的语音数据的同时获取声源对象的脸部图像数据,结合脸部的张口图像,识别出语音数据ASR识别结果中的有效语音,过滤掉背景噪音、环境噪音、以及非声源对象发出的语音内容等等。参阅图1,图示为本专利技术实施例提供的一种有效语音识别方法的流程示意图。步骤S1001:记录声源对象的语音数据,同时获取所述声源对象的脸部图像数据。本专利技术实施例中,记录声源对象的语音数据,同时也会将自然环境中的各种声音记录下来。步骤S1002:对所述语音数据进行ASR识别,获得ASR识别结果本文档来自技高网
...
一种有效语音识别方法及装置

【技术保护点】
一种有效语音识别方法,其特征在于,包括:记录声源对象的语音数据,同时获取所述声源对象的脸部图像数据;对所述语音数据进行ASR识别,获得ASR识别结果,所述ASR识别结果包括若干条语音内容及对应的语音记录时间点;对所述声源对象的脸部图像数据进行张口特征识别,获得若干帧张口图像和所述每帧张口图像对应的图像获取时间点;以及比对所述每条语音内容对应的语音记录时间点的前后预设时间范围内,是否有相应的张口图像的图像获取时间点在此范围内;若有,记录对应的语音内容为有效语音。

【技术特征摘要】
1.一种有效语音识别方法,其特征在于,包括:记录声源对象的语音数据,同时获取所述声源对象的脸部图像数据;对所述语音数据进行ASR识别,获得ASR识别结果,所述ASR识别结果包括若干条语音内容及对应的语音记录时间点;对所述声源对象的脸部图像数据进行张口特征识别,获得若干帧张口图像和所述每帧张口图像对应的图像获取时间点;以及比对所述每条语音内容对应的语音记录时间点的前后预设时间范围内,是否有相应的张口图像的图像获取时间点在此范围内;若有,记录对应的语音内容为有效语音。2.根据权利要求1所述的方法,其特征在于,所述每条语音内容对应的语音记录时间点为:记录所述每条语音内容开始的时间点、记录所述每条语音内容中间的时间点、或者,记录所述每条语音内容结束的时间点。3.根据权利要求1所述的方法,其特征在于,所述获取所述声源对象的脸部图像数据具体包括:摄像头侦测到所述声源对象的人脸;聚焦所述人脸,使人脸范围占据所述摄像头镜头的预设值;以及获取所述声源对象的脸部图像数据。4.根据权利要求1所述的方法,其特征在于,所述对所述声源对象的脸部图像数据进行张口特征识别具体包括:定位所述脸部图像数据的嘴型特征;以及判断嘴型的张口高度与嘴唇高度的比例是否超过或等于预设的比例;当超过或等于,识别所述的脸部图像数据为张口图像;其中,所述张口高度为上嘴唇下边缘与下嘴唇上边缘之间的距离,所述嘴唇高度为上嘴唇上边缘与下嘴唇下边缘之间的距离。5.根据权利要求1所述的方法,其特征在于,所述每条语音内容对应的语音记录时间点的前后预设时间范围为所述语音记录时间点的前后1秒。6.一种有效语音识别...

【专利技术属性】
技术研发人员:蒋化冰蔡汉嘉廖凯齐鹏举方园米万珠舒剑吴琨管伟罗璇
申请(专利权)人:上海木爷机器人技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1