一种基于图像识别和语音识别的声源定位方法及装置制造方法及图纸

技术编号：20652690 阅读：29 留言：0更新日期：2019-03-23 05:42

本发明专利技术公开一种基于图像识别和语音识别的声源定位方法，包括，实时捕捉图像信息，进行图像识别，并根据图像识别结果确定第一坐标位置；实时采集声源信息，进行语音识别，并根据语音识别结果确定第二坐标位置；根据第一坐标位置和第二坐标位置确定目标声源位置。本发明专利技术还公开了一种基于图像识别和语音识别的声源定位装置，根据本发明专利技术公开的方法和装置可以通过图像识别技术和麦克风阵列实现对声源的方向位置的精确定位，并且还可以通过图像识别技术和麦克风阵列对声源的方向位置的距离测量，这样可以达到更加精准的定位效果，实用性较高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图像识别和语音识别的声源定位方法及装置
本专利技术涉及语音识别和图像识别的
，特别是一种基于图像识别和语音识别的声源定位方法及装置。
技术介绍
随着科技发展，智能设备越来越普及，其中，声源定位对于一些智能设备来说是尤为重要的，目前市面上单纯依靠麦克风阵对声源进行定位，这样往往会导致结果不准确，而且对麦克风阵列的算法、布局、测试角度的精度都是有非常高的要求，基本上不能实现对定位的精度要求，即不能达到精准定位。这就会导致通过单纯的麦克风阵列来进行声源方向的定位，不能进行实际应用，或者应用效果非常差，这会影响语音交互设备的交互效果和用户体验。
技术实现思路
为了解决上述问题，专利技术人构思通过参考仿生原理(它是一门生物科学与技术科学交叉的边缘科学,其任务是将生物系统的优异能力及产生的功能应用到技术发展中，以更好地解决技术问题)，应用图像识别技术结合语音识别技术，来实现对声源方向的精准定位，这样就可以解决了纯依靠麦克风阵不能对声源的精准定位的问题。根据本专利技术的第一个方面，提供了一种基于图像识别和语音识别的声源定位方法，包括如下步骤实时捕捉图像信息，进行图像识...

【技术保护点】
1.基于图像识别和语音识别的声源定位方法，其特征在于，包括实时捕捉图像信息，进行图像识别，并根据图像识别结果确定第一坐标位置；实时采集声源信息，进行语音识别，并根据语音识别结果确定第二坐标位置；根据第一坐标位置和第二坐标位置确定目标声源位置。

【技术特征摘要】
1.基于图像识别和语音识别的声源定位方法，其特征在于，包括实时捕捉图像信息，进行图像识别，并根据图像识别结果确定第一坐标位置；实时采集声源信息，进行语音识别，并根据语音识别结果确定第二坐标位置；根据第一坐标位置和第二坐标位置确定目标声源位置。2.根据权利要求1所述的方法，其特征在于，所述目标声源位置包括目标声源坐标方位，所述根据第一坐标位置和第二坐标位置确定目标声源位置包括将第一坐标位置和第二坐标位置进行比对，在第一坐标位置和第二坐标位置的误差不大于预设阈值时，根据第一坐标位置进行定向声源信息采集；根据定向采集的声源信息进行语音识别，确定目标声源坐标方位。3.根据权利要求2所述的方法，其特征在于，所述目标声源位置还包括目标声源距离，所述根据第一坐标位置和第二坐标位置确定目标声源位置还包括根据定向采集的声源信息进行语音识别，确定目标声源距离。4.根据权利要求3所述的方法，其中，所述实时采集声源信息，进行语音识别，并根据语音识别结果确定第二坐标位置包括对实时采集的声源信息进行最大声强的语音识别，在识别出最大声强时，获取最大声强的音源坐标，将其确定为第二坐标位置。5.根据权利要求1至4任一项所述的方法，其特征在于，所述实时捕捉图像信息，进行图像识别，并根据图像识别结果确定第一坐标位置包括对捕捉的图像信息进行人像识别，在确定为...

【专利技术属性】
技术研发人员：雷玉雄，雷雄国，刘寒英，黄海艳，程栋梁，曾勋，陈庆安，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人