人机对话方法、电子设备及计算机可读存储介质技术

技术编号：28041966 阅读：29 留言：0更新日期：2021-04-09 23:25

本发明专利技术公开一种人机对话方法，用于电子设备，电子设备配置有麦克风阵列和图像采集装置，该方法包括：通过麦克风阵列检测唤醒音频；根据所检测到的唤醒音频进行声源定位，确定声源方位；通过图像采集装置获取图像数据；根据图像数据确定对应于声源方位的说话人为唤醒人；通过图像采集装置追踪唤醒人；对唤醒人所在的最新方位的音频信号进行信号增强。本发明专利技术电子设备在被用户唤醒之后会的对话过程中持续基于图像采集装置来追踪当前对话任务中的唤醒人，时刻掌握当前唤醒人的方位，从而在对话过程中时刻对唤醒人实际所在方位的音频信号进行增强处理，提高了用于语音识别的音频信号的信噪比，提升了语音识别的准确率，确保了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
人机对话方法、电子设备及计算机可读存储介质
本专利技术涉及人机对话
，尤其涉及一种人机对话方法、电子设备及计算机可读存储介质。
技术介绍
人机对话智能语音机器人已慢慢走入我们的生活，给我们的生活带来及极大的便利。为了提升对用户语音信号的识别准确率，现有技术中通常采用声源定位的方式确定用户所在方位，然后对该方位的音频信号进行信号增强处理，并抑制其它方位的音频信号，从而获得高信噪比的用于语音识别的音频信号。然而专利技术人在实现本专利技术的过程中发现，用户在于智能语音机器人对话过程中可能会走动，从而相对于智能语义机器人的相对方位也就发生了变化，如果此时仍然对原方位的音频信号进行增强，对其它方位音频信号进行抑制的话，将会极大的影响对当前用户语音识别的准确率，严重影响用户体验。
技术实现思路
本专利技术实施例提供一种人机对话方法、电子设备及计算机可读存储介质，用于至少解决上述技术问题之一。第一方面，本专利技术实施例提供一种人机对话方法，用于电子设备，所述电子设备配置有麦克风阵列和图像采集装置，

【技术保护点】
1.一种人机对话方法，用于电子设备，所述电子设备配置有麦克风阵列和图像采集装置，所述方法包括：/n通过所述麦克风阵列检测唤醒音频；/n根据所检测到的唤醒音频进行声源定位，确定声源方位；/n通过所述图像采集装置获取图像数据；/n根据所述图像数据确定对应于所述声源方位的说话人为唤醒人；/n通过所述图像采集装置追踪所述唤醒人；/n对所述唤醒人所在的最新方位的音频信号进行信号增强。/n

【技术特征摘要】
1.一种人机对话方法，用于电子设备，所述电子设备配置有麦克风阵列和图像采集装置，所述方法包括：
通过所述麦克风阵列检测唤醒音频；
根据所检测到的唤醒音频进行声源定位，确定声源方位；
通过所述图像采集装置获取图像数据；
根据所述图像数据确定对应于所述声源方位的说话人为唤醒人；
通过所述图像采集装置追踪所述唤醒人；
对所述唤醒人所在的最新方位的音频信号进行信号增强。

2.根据权利要求1所述的方法，其特征在于，对所述唤醒人所在的最新方位的音频信号进行增强包括：
对所述唤醒人所在的最新方位的音频信号进行语音端点检测；
当所述音频信号中存在多段语音片段时，获取所述多段语音片段各自的起始时间和截止时间；
获取所述唤醒人所在的最新方位时的最新图像数据；
根据所述最新图像数据确定所述唤醒人开始说话的时间和截止说话的时间；
根据所述唤醒人开始说话的时间和截止说话的时间从所述多段语音片段中匹配出对应的语音片段；
对匹配出的语音片段进行信号增强。

3.根据权利要求1所述的方法，其特征在于，通过所述图像采集装置获取图像数据包括：当所述麦克风阵列检测唤醒音频时，通过所述图像采集装置获取图像数据。

4.根据权利要求3所述的方法，其特征在于，根据所述图像数据确定对应于所述声源方位的说话人为唤醒人包括：
根据所述图像数据确定对应于所述声源方位的说话人；
当所确定的说话人唯一时，确定该唯一说话人为唤醒人；
当所确定的说话人为多个说话人时，获取预设时间之前所述图像采集装置采集到的历史图像数据；

【专利技术属性】
技术研发人员：宋洪博，石韡斯，樊帅，朱成亚，邓建凯，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人