语音实时追踪定位方法、系统、终端及存储介质技术方案

技术编号：35594804 阅读：27 留言：0更新日期：2022-11-16 15:13

本发明专利技术实施例涉及通信技术领域，公开了语音实时追踪定位方法、系统、终端及存储介质。本发明专利技术中，基于设备采集的每帧音频数据实时计算语音方位估计值，并判断所述音频数据为语音数据或噪声数据；根据所述判断结果计算语音数据与噪声数据的相对能量比值；根据所述相对能量比值修正所述语音方位估计值，获得语音方位；输出语音实时追踪定位结果，包括所述语音方位。本发明专利技术在初步计算出语音方位后，通过语音数据和噪声数据信息修正语音方位，获得更准确的语音追踪定位结果，同时无需单独进行音频信号中语音信号的检测和区分，降低音频数据处理过程复杂度，保证语音追踪定位的实时性。保证语音追踪定位的实时性。保证语音追踪定位的实时性。

全部详细技术资料下载

【技术实现步骤摘要】
语音实时追踪定位方法、系统、终端及存储介质

[0001]本专利技术实施例涉及通信
，特别涉及一种语音实时追踪定位方法、系统、终端及存储介质。

技术介绍

[0002]随着信号处理技术和嵌入式芯片的发展和成熟，以及用户需求的增加，语音实时追踪定位技术正逐渐从纯研究领域走向产品应用，例如智能会议系统，其中涉及的语音追踪和说话人定位技术同人脸识别、自动聚焦等技术共同成为音视频信号处理技术的典型应用场景和设备之一。
[0003]语音追踪定位技术主要基于多麦克风阵列，技术上主要包括TDOA(Time Destination of Arrival，到达时延差)和DOA(Destination of Arrival，波达方向)两个估计方向，其中TDOA中以GCC(Generalized Cross Correlation，广义互相关)方法为核心，包括PHAT(Phase Transformation，相位变化)方法等。DOA方法中包括SRP(Steered
‑
response Power，可控波束响应)方法，...

【技术保护点】

【技术特征摘要】
1.一种语音实时追踪定位方法，其特征在于，包括：基于设备采集的每帧音频数据实时计算语音方位估计值，并判断所述音频数据为语音数据或噪声数据；根据判断结果计算所述语音数据与所述噪声数据的相对能量比值；根据所述相对能量比值修正所述语音方位估计值，获得语音方位；输出语音实时追踪定位结果，包括所述语音方位。2.根据权利要求1所述的语音实时追踪定位方法，其特征在于，所述判断音频数据为所述语音数据或所述噪声数据，包括：根据当前帧的音频数据计算当前帧的音频数据的能量；基于所述能量构造能量队列，并计算所述能量队列的能量二阶矩；其中，所述能量队列包含多帧音频数据的所述能量；若所述能量二阶矩大于预设的阈值，判断所述音频数据为语音数据；若所述能量二阶矩小于预设的阈值，判断所述音频数据为噪声数据，并将所述阈值更新为所述能量二阶矩；其中，所述阈值为预存的噪声模版数据的能量二阶矩。3.根据权利要求2所述的语音实时追踪定位方法，其特征在于，在所述根据判断结果计算所述语音数据与所述噪声数据的相对能量比值前，包括：基于所述语音方位估计值构造方位队列；其中，所述方位队列包含多帧音频数据的所述语音方位估计值；在所述根据判断结果计算所述语音数据与所述噪声数据的相对能量比值后，包括：基于所述相对能量比值更新所述能量队列和所述方位队列。4.根据权利要求2或3中任一项所述的语音实时追踪定位方法，其特征在于，所述基于设备采集的每帧音频数据为多通道采集的每帧麦克风信号数据；所述每帧音频数据包含在多个采样点获得的音频采样数据；所述基于设备采集的每帧音频数据实时计算语音方位估计值，包括：对当前帧的音频数据进行N点短时傅里叶变换；其中N为当前帧的音频数据包含的所述采样点数目；根据所述N点短时傅里叶变换结果计算当前帧的音频数据的空间谱，所述空间谱中所述音频采样数据出现峰值的方位网格点为所述语音方位估计值。5.根据权利要求4所述的语音实时追踪定位方法，其特征在于，所述根据当前帧的音频数据计算当前帧的音频数据的能量，包括：计算当前帧的音频数据的短时多通道麦克加权平均能量；所述根据所述相对能量比值修正所述语音方位估计值，获得语音方位，包括：用更新后的所述能量队列对更新后的所述方位队列进行加权，获得所述语音方位；计算公式为：其中，θ
frame
为所述语音方位，T为所述能量队列和所述方位队列的长度，e
t

【专利技术属性】
技术研发人员：权恒恒，高可攀，杨张辉，徐雅俊，刘赟，
申请(专利权)人：深圳市潮流网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人