一种追踪目标人的语义识别装置及识别方法制造方法及图纸

技术编号：17597198 阅读：75 留言：0更新日期：2018-03-31 10:20

本发明专利技术公开了一种追踪目标人的语义识别装置，包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块；麦克风阵列模块采集来自外界声场的多路音频信号并进行语音增强处理，处理后的音频信号只增强了外界声场中特定位置声源的音频信号；说话人辨识模块提取麦克风阵列模块采集的声纹特征，与目标人的声纹模型进行匹配，判断通过麦克风阵列模块增强处理后的特定声源信号是否来自于目标人；语义匹配模块识别音频中的语义信息并以一定形式输出。本发明专利技术配置了声纹提取模块和声源定位模块，可以在噪杂的外界声场中定位到目标人的声源位置，并通过音频数据缓存区和语义匹配模块将目标人的语音信号转换为目标人语义。

A semantic recognition device and recognition method for tracking target people

全部详细技术资料下载

【技术实现步骤摘要】
一种追踪目标人的语义识别装置及识别方法
本专利技术涉及语义识别领域，具体涉及一种追踪目标人的语义识别装置。
技术介绍
目前通用的语义识别装置，往往受到干扰声源的影响，在嘈杂的场合下无法达到较高的识别成功率；识别的目标不具有可选性，不适用于需要识别特定人语义的场合；当目标声源移动时，不容易达到较高的识别成功率。国内的申请公布号为CN105529026A，名称为“语音识别装置和语音识别方法”的专利。其包括收集器、第一存储器、学习器、第二存储器、特征向量提取器、语音识别器，致力于提供具有基于说话者的语音数据生成个人声学模型并且通过使用个人声学模型进行语音识别的优点的语音识别装置及语音识别算法。国内的申请公布号为CN106503513A，名称为“声纹识别方法及装置”的专利。其揭示了一种声纹识别方法及装置，包括获取麦克风采集到的声音信号，获取声音信号的声纹特征；将声纹特征进行匹配等方法。
技术实现思路
为了适用于需要识别特定人语义的场合，本专利技术公开了一种追踪目标人的语义识别装置，其配置了声纹提取模块和声源定位模块，可以在噪杂的外界声场中定位到目标人的声源位置；还配置了音频数据缓存区和语义匹配模块，将目标人的语音信号转换为目标人语义。本专利技术的目的是通过以下技术方案实现的：一种追踪目标人的语义识别装置，包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块。所述麦克风阵列模块包括语音增强模块以及麦克风矩阵；麦克风矩阵由多个麦克风音频接收端组成，多个麦克风音频接收端设置在外界声场中不同的特定空间位置，采集外界声场中的多路模拟音频信号；语音增强模块...
一种追踪目标人的语义识别装置及识别方法

【技术保护点】
一种追踪目标人的语义识别装置，其特征在于，包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块；所述麦克风阵列模块包括语音增强模块以及麦克风矩阵；麦克风矩阵由多个麦克风音频接收端组成，多个麦克风音频接收端设置在外界声场中不同的特定空间位置，采集外界声场中的多路模拟音频信号；语音增强模块用于将麦克风矩阵采集的多路模拟音频信号按照语音增强权系数进行加权合成，加权合成后的音频信号增强了外界声场中特定位置声源的模拟音频信号；所述说话人辨识模块包括声纹提取模块、声纹匹配模块以及声源定位模块：声纹提取模块与所述语音增强模块通讯连接，其接收语音增强模块合成的音频信号，并根据声纹提取算法，获取音频信号中表征特定人语音特征的声纹特征；声纹匹配模块分别与声纹提取模块以及存储模块的声纹存储库通讯连接，分别接收声纹存储库中的声纹模型以及声纹提取模块提取到的声纹特征信息，将声纹模型与声纹特征信息进行相似度匹配，并将相似度匹配结果反馈给声源定位模块；声源定位模块分别与声纹匹配模块及麦克风阵列模块通讯连接，其接收来自麦克风阵列模块的多路模拟音频信号，以此为依据获知外界声场中不同声源的位置范围...

【技术特征摘要】
1.一种追踪目标人的语义识别装置，其特征在于，包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块；所述麦克风阵列模块包括语音增强模块以及麦克风矩阵；麦克风矩阵由多个麦克风音频接收端组成，多个麦克风音频接收端设置在外界声场中不同的特定空间位置，采集外界声场中的多路模拟音频信号；语音增强模块用于将麦克风矩阵采集的多路模拟音频信号按照语音增强权系数进行加权合成，加权合成后的音频信号增强了外界声场中特定位置声源的模拟音频信号；所述说话人辨识模块包括声纹提取模块、声纹匹配模块以及声源定位模块：声纹提取模块与所述语音增强模块通讯连接，其接收语音增强模块合成的音频信号，并根据声纹提取算法，获取音频信号中表征特定人语音特征的声纹特征；声纹匹配模块分别与声纹提取模块以及存储模块的声纹存储库通讯连接，分别接收声纹存储库中的声纹模型以及声纹提取模块提取到的声纹特征信息，将声纹模型与声纹特征信息进行相似度匹配，并将相似度匹配结果反馈给声源定位模块；声源定位模块分别与声纹匹配模块及麦克风阵列模块通讯连接，其接收来自麦克风阵列模块的多路模拟音频信号，以此为依据获知外界声场中不同声源的位置范围，对于每个位置范围生成一组语音增强权系数，使得语音增强模块按照语音增强权系数合成多路音频后，外界声场中特定位置范围的音频信号被增强；所述音频数据缓存区分别与声纹匹配模块及语义匹配模块通讯连接，当声纹匹配模块匹配结果显示声纹匹配成功时，声纹匹配模块将当前经过语音增强后的音频数据暂存到音频数据缓存区暂存；所述存储模块包括语义存储库与声纹存储库；声纹存储库由一个或多个声纹模型组成，每一个声纹模型经过对目标语音训练获得；语义存储库一方面存储最小语义单元的的音频特征模型，另一方面存储符合语义逻辑的语言模型，用于在语义匹配模块中对实时语音的音频进行识别与翻译；所述语义匹配模块用于执行语义匹配过程，提取音频数据缓存区发来的语音信号中的语义段，与语义存储库中的现有语义进行匹配，最终输出目标人语义。2.如权利要求1所述的一种追踪目标人的语义识别装置，其特征在于，所述声源定位模块的工作过程可分为三个阶段：探索阶段：所述麦克风阵列采集到的多路模拟音频信号首先被传输入声源定位模块，声源定位模块依据多声源定位算法求解出当前外界声场中各个主要声源的空间位置范围；声源定位模块依据音强大小对当前主要声源进行排序，生成一有序声源集；标定阶段：在一定时间间隔内，以当前有序声源集中排序最靠前的声源作为标定声源，生成用于增强标定声源的语音增强权系数，并标定当前的语音增强权系数，将标定的语音增强权系数传送给语音增强模块进行音频信号合成；校正阶段：语音增强模块合成后的音频信号依次传输入声纹提取模块及声纹匹配模块，执行声纹匹...

【专利技术属性】
技术研发人员：王建华，王新群，赵洁，陈宇彬，何珺，丁录国，周乃鹏，
申请(专利权)人：吉林大学，
类型：发明
国别省市：吉林,22

全部详细技术资料下载我是这个专利的主人