【技术实现步骤摘要】
音视频结合的定位方法、装置、电子设备以及存储介质
本申请涉及人工智能
,尤其涉及一种音视频结合的定位方法、装置、电子设备以及存储介质。
技术介绍
近年来,随着科技的发展,越来越多的人工智能设备出现在人们生活中,这些人工智能设备可以与用户进行交互,执行用户下达的各种指令,极大的方便了用户的生活或者工作。这些人工智能设备在与用户进行交互时,需要先对用户进行定位,才能准确的与相应的用户进行交互。在现有技术中,语音识别或者图像识别这两种定位方法在人工智能设备应用中还处于两个相对独立的领域。因此,人工智能设备在对用户进行定位时,一般都是通过语音识别或者图像识别其中的一种方式对用户进行定位。然而,在复杂的声学环境中,通过语音识别对用户进行定位时,定位结果就会不太准确,或者在人数比较多的环境中,通过图像识别对用户进行定位时,定位结果同样会不太准确。
技术实现思路
有鉴于此,本申请提供一种音视频结合的定位方法、装置、电子设备以及存储介质,以解决现有技术中通常通过语音识别或者图像识别其中的一种方式对用户进行定 ...
【技术保护点】
1.一种音视频结合的定位方法,其特征在于,包括:/n获取由图像采集部件采集得到的用户图像;/n利用所述用户图像,计算得到所述用户的嘴部坐标;/n获取所述用户到所述图像采集部件的距离;/n利用所述嘴部坐标以及所述用户到所述图像采集部件的距离,计算得到所述用户与所述图像采集部件的俯仰角;/n获取由音频采集部件采集的所述用户的语音信号;/n基于所述音频采集部件的坐标系,计算得到所述用户与所述图像采集部件的俯仰角所对应的用户与所述音频采集部件的俯仰角;/n利用所述语音信号以及所述用户与所述音频采集部件的俯仰角,对所述用户进行定位。/n
【技术特征摘要】 【专利技术属性】
1.一种音视频结合的定位方法,其特征在于,包括:
获取由图像采集部件采集得到的用户图像;
利用所述用户图像,计算得到所述用户的嘴部坐标;
获取所述用户到所述图像采集部件的距离;
利用所述嘴部坐标以及所述用户到所述图像采集部件的距离,计算得到所述用户与所述图像采集部件的俯仰角;
获取由音频采集部件采集的所述用户的语音信号;
基于所述音频采集部件的坐标系,计算得到所述用户与所述图像采集部件的俯仰角所对应的用户与所述音频采集部件的俯仰角;
利用所述语音信号以及所述用户与所述音频采集部件的俯仰角,对所述用户进行定位。
2.根据权利要求1所述的方法,其特征在于,所述利用所述用户图像,计算得到所述用户的嘴部坐标,包括:
从所述用户图像中提取出人体轮廓图;
基于所述人体轮廓图,获取所述用户的人体姿态参数;
利用所述人体姿态参数进行人体姿态估计,得到所述用户的骨架模型;
获取所述骨架模型中的头部坐标以及肩部中心关节点坐标,并利用所述头部坐标以及所述肩部中心关节点坐标计算得到所述嘴部坐标。
3.根据权利要求2所述的方法,其特征在于,所述基于所述人体轮廓图,获取所述用户的人体姿态参数,包括:
获取所述人体轮廓图的初始人体姿态参数;
基于所述初始人体姿态参数,预测得到多个当前时刻的人体姿态参数;
利用最优化算法,从多个所述当前时刻的人体姿态参数中查找出最匹配的人体姿态参数,作为所述用户的人体姿态参数。
4.根据权利要求1所述的方法,其特征在于,所述利用所述嘴部坐标以及所述用户到所述图像采集部件的距离,计算得到所述用户与所述图像采集部件的俯仰角,包括:
将所述嘴部坐标转换成所述图像采集部件所在坐标系中对应的坐标;
将转换后的坐标以及所述用户到所述图像采集部件的距离代入预设的公式,计算得到所述用户与所述图像采集部件的俯仰角。
5.根据权利要求1所述的方法,其特征在于,所述获取由音频采集部件采集的所述用户的语音信号,包括:
将所述音频采集部件采集到的原始语音信号进行数据预处理;
将处理后的语音信号进行子带分析,得到对应的频域信号;
对所述频域信号进行回声消除以及噪音消除,得到所述用户的语音信号。
技术研发人员:郝昊,李骊,
申请(专利权)人:北京华捷艾米科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。