当前位置: 首页 > 专利查询>吉林大学专利>正文

一种追踪目标人的语义识别装置及识别方法制造方法及图纸

技术编号:17597198 阅读:75 留言:0更新日期:2018-03-31 10:20
本发明专利技术公开了一种追踪目标人的语义识别装置,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块;麦克风阵列模块采集来自外界声场的多路音频信号并进行语音增强处理,处理后的音频信号只增强了外界声场中特定位置声源的音频信号;说话人辨识模块提取麦克风阵列模块采集的声纹特征,与目标人的声纹模型进行匹配,判断通过麦克风阵列模块增强处理后的特定声源信号是否来自于目标人;语义匹配模块识别音频中的语义信息并以一定形式输出。本发明专利技术配置了声纹提取模块和声源定位模块,可以在噪杂的外界声场中定位到目标人的声源位置,并通过音频数据缓存区和语义匹配模块将目标人的语音信号转换为目标人语义。

A semantic recognition device and recognition method for tracking target people

【技术实现步骤摘要】
一种追踪目标人的语义识别装置及识别方法
本专利技术涉及语义识别领域,具体涉及一种追踪目标人的语义识别装置。
技术介绍
目前通用的语义识别装置,往往受到干扰声源的影响,在嘈杂的场合下无法达到较高的识别成功率;识别的目标不具有可选性,不适用于需要识别特定人语义的场合;当目标声源移动时,不容易达到较高的识别成功率。国内的申请公布号为CN105529026A,名称为“语音识别装置和语音识别方法”的专利。其包括收集器、第一存储器、学习器、第二存储器、特征向量提取器、语音识别器,致力于提供具有基于说话者的语音数据生成个人声学模型并且通过使用个人声学模型进行语音识别的优点的语音识别装置及语音识别算法。国内的申请公布号为CN106503513A,名称为“声纹识别方法及装置”的专利。其揭示了一种声纹识别方法及装置,包括获取麦克风采集到的声音信号,获取声音信号的声纹特征;将声纹特征进行匹配等方法。
技术实现思路
为了适用于需要识别特定人语义的场合,本专利技术公开了一种追踪目标人的语义识别装置,其配置了声纹提取模块和声源定位模块,可以在噪杂的外界声场中定位到目标人的声源位置;还配置了音频数据缓存区和语义匹配模块,将目标人的语音信号转换为目标人语义。本专利技术的目的是通过以下技术方案实现的:一种追踪目标人的语义识别装置,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块。所述麦克风阵列模块包括语音增强模块以及麦克风矩阵;麦克风矩阵由多个麦克风音频接收端组成,多个麦克风音频接收端设置在外界声场中不同的特定空间位置,采集外界声场中的多路模拟音频信号;语音增强模块用于将麦克风矩阵采集的多路模拟音频信号按照语音增强权系数进行加权合成,加权合成后的音频信号增强了外界声场中特定位置声源的模拟音频信号;所述说话人辨识模块包括声纹提取模块、声纹匹配模块以及声源定位模块:声纹提取模块与所述语音增强模块通讯连接,其接收语音增强模块合成的音频信号,并根据声纹提取算法,获取音频信号中表征特定人语音特征的声纹特征;声纹匹配模块分别与声纹提取模块以及存储模块的声纹存储库通讯连接,分别接收声纹存储库中的声纹模型以及声纹提取模块提取到的声纹特征信息,将声纹模型与声纹特征信息进行相似度匹配,并将相似度匹配结果反馈给声源定位模块;声源定位模块分别与声纹匹配模块及麦克风阵列模块通讯连接,其接收来自麦克风阵列模块的多路模拟音频信号,以此为依据获知外界声场中不同声源的位置范围,对于每个位置范围生成一组语音增强权系数,使得语音增强模块按照语音增强权系数合成多路音频后,外界声场中特定位置范围的音频信号被增强;所述音频数据缓存区分别与声纹匹配模块及语义匹配模块通讯连接,当声纹匹配模块匹配结果显示声纹匹配成功时,声纹匹配模块将当前经过语音增强后的音频数据暂存到音频数据缓存区暂存;所述存储模块包括语义存储库与声纹存储库;声纹存储库由一个或多个声纹模型组成,每一个声纹模型经过对目标语音训练获得;语义存储库一方面存储最小语义单元的的音频特征模型,另一方面存储符合语义逻辑的语言模型,用于在语义匹配模块中对实时语音的音频进行识别与翻译;所述语义匹配模块用于执行语义匹配过程,提取音频数据缓存区发来的语音信号中的语义段,与语义存储库中的现有语义进行匹配,最终输出目标人语义。进一步地,所述的一种追踪目标人的语义识别装置,声源定位模块的工作过程可分为三个阶段:探索阶段:所述麦克风阵列采集到的多路模拟音频信号首先被传输入声源定位模块,声源定位模块依据多声源定位算法求解出当前外界声场中各个主要声源的空间位置范围;声源定位模块依据音强大小对当前主要声源进行排序,生成一有序声源集;标定阶段:在一定时间间隔内,以当前有序声源集中排序最靠前的声源作为标定声源,生成用于增强标定声源的语音增强权系数,并标定当前的语音增强权系数,将标定的语音增强权系数传送给语音增强模块进行音频信号合成;校正阶段:语音增强模块合成后的音频信号依次传输入声纹提取模块及声纹匹配模块,执行声纹匹配流程;若匹配结果显示为匹配成功,将一定时间间隔内的音频信号传输到音频数据缓存区当中,若匹配结果显示为匹配失败,在当前声源集中删除匹配失败的声源,其他声源的次序不发生变动,更新声源集并覆盖旧声源集。进一步地,所述的一种追踪目标人的语义识别装置,语义匹配模块包括音频剪切子模块、最小语义单元匹配子模块、语义缓存区以及语义拼接子模块;音频剪切子模块分别音频数据缓存区及最小语义单元匹配子模块通讯连接,接收来自音频数据缓存区的音频数据,按照静音检测的方法,识别出音频中的静音阶段,并以静音阶段为端点,剪切音频,得到的每个音频段均为最小语义单元音频段;最小语义单元匹配子模块分别接收来自音频剪切子模块的最小语义单元音频段及语义存储库中存储的最小语义单元模型,参照语义存储库,在最小语义单元音频段和最小语义单元模型之间进行相似度匹配,将最小语义单元音频段翻译为最小语义单元;语义缓存区分别与置于最小语义匹配子模块及语义拼接子模块通讯连接,将匹配成功的最小语义单元暂存;语义拼接子模块分别接收来自语义缓存区的最小语义单元以及存储于语义存储库中的语言模型,将匹配出的最小语义单元按照语言习惯组合为合理的目标人语义。进一步地,所述的一种追踪目标人的语义识别装置还包括大数据云端,其分别与语义匹配模块及存储模块通讯连接,用于存储语义匹配模块匹配出的目标人语义,还可对存储模块进行数据更新。本专利技术同时提供一种追踪目标人的语义识别方法,包括以下步骤:步骤一、通过多个布置在不同位置的麦克风音频接收端采集外界声场中原始语音的音频信号;步骤二、用声源定位模块获取外界声场中各个主要声源的位置范围,并按照各个主要声源的音强高低将声源排序,组成有序声源集;步骤三、判断当前声源集是否为空集,当声源集非空时进入步骤四;步骤四、在一定时间段内,选取当前声源集内排序最靠前的声源最为标定声源,生成用于增强标定声源的音频增强权系数并发送给语音增强模块;步骤五、语音增强模块按照收到的音频增强权系数,合成来自多个麦克风音频接收端的语音信号;步骤六、将步骤五合成的语音信号传输至声纹提取模块进行声纹特征提取,提取到的声纹特征被传输至声纹匹配模块,声纹匹配将声纹特征与声纹存储库中预存的声纹模型进行声纹匹配;步骤七、若步骤六声纹匹配结果显示为匹配失败,在当前声源集中删除匹配失败的声源,其他声源的次序不发生变动,更新声源集并覆盖旧声源集,重复步骤三至步骤六;步骤八、当步骤六声纹匹配结果显示为匹配成功,将该时间间隔内的音频信号传输到音频数据缓存区当中按照进入次序进行存储;步骤九、当音频数据缓存区中的音频数据量大于预设阈值时,进行语义匹配流程,将音频数据与语义存储库中的语义模型进行匹配,输出匹配到的语义。附图说明为易于说明本公开的原理与流程,易于实现本公开的装置,附图详解本公开的必要流程附图说明如下:图1是本语义识别装置的主要原理图,亦是本语义识别装置的一种示例性实例的模块配置方案图;图2是一种追踪特目标人的语义识别装置的主要步骤流程图;图3是根据一示例性实例示出的一种追踪目标人的语义识别装置的组件示意框图;图4是声源定位模块的工作阶段示意图;图5是语义匹配模块和语义存储库协同工作的响应关系示意图;图本文档来自技高网...
一种追踪目标人的语义识别装置及识别方法

【技术保护点】
一种追踪目标人的语义识别装置,其特征在于,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块;所述麦克风阵列模块包括语音增强模块以及麦克风矩阵;麦克风矩阵由多个麦克风音频接收端组成,多个麦克风音频接收端设置在外界声场中不同的特定空间位置,采集外界声场中的多路模拟音频信号;语音增强模块用于将麦克风矩阵采集的多路模拟音频信号按照语音增强权系数进行加权合成,加权合成后的音频信号增强了外界声场中特定位置声源的模拟音频信号;所述说话人辨识模块包括声纹提取模块、声纹匹配模块以及声源定位模块:声纹提取模块与所述语音增强模块通讯连接,其接收语音增强模块合成的音频信号,并根据声纹提取算法,获取音频信号中表征特定人语音特征的声纹特征;声纹匹配模块分别与声纹提取模块以及存储模块的声纹存储库通讯连接,分别接收声纹存储库中的声纹模型以及声纹提取模块提取到的声纹特征信息,将声纹模型与声纹特征信息进行相似度匹配,并将相似度匹配结果反馈给声源定位模块;声源定位模块分别与声纹匹配模块及麦克风阵列模块通讯连接,其接收来自麦克风阵列模块的多路模拟音频信号,以此为依据获知外界声场中不同声源的位置范围,对于每个位置范围生成一组语音增强权系数,使得语音增强模块按照语音增强权系数合成多路音频后,外界声场中特定位置范围的音频信号被增强;所述音频数据缓存区分别与声纹匹配模块及语义匹配模块通讯连接,当声纹匹配模块匹配结果显示声纹匹配成功时,声纹匹配模块将当前经过语音增强后的音频数据暂存到音频数据缓存区暂存;所述存储模块包括语义存储库与声纹存储库;声纹存储库由一个或多个声纹模型组成,每一个声纹模型经过对目标语音训练获得;语义存储库一方面存储最小语义单元的的音频特征模型,另一方面存储符合语义逻辑的语言模型,用于在语义匹配模块中对实时语音的音频进行识别与翻译;所述语义匹配模块用于执行语义匹配过程,提取音频数据缓存区发来的语音信号中的语义段,与语义存储库中的现有语义进行匹配,最终输出目标人语义。...

【技术特征摘要】
1.一种追踪目标人的语义识别装置,其特征在于,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块;所述麦克风阵列模块包括语音增强模块以及麦克风矩阵;麦克风矩阵由多个麦克风音频接收端组成,多个麦克风音频接收端设置在外界声场中不同的特定空间位置,采集外界声场中的多路模拟音频信号;语音增强模块用于将麦克风矩阵采集的多路模拟音频信号按照语音增强权系数进行加权合成,加权合成后的音频信号增强了外界声场中特定位置声源的模拟音频信号;所述说话人辨识模块包括声纹提取模块、声纹匹配模块以及声源定位模块:声纹提取模块与所述语音增强模块通讯连接,其接收语音增强模块合成的音频信号,并根据声纹提取算法,获取音频信号中表征特定人语音特征的声纹特征;声纹匹配模块分别与声纹提取模块以及存储模块的声纹存储库通讯连接,分别接收声纹存储库中的声纹模型以及声纹提取模块提取到的声纹特征信息,将声纹模型与声纹特征信息进行相似度匹配,并将相似度匹配结果反馈给声源定位模块;声源定位模块分别与声纹匹配模块及麦克风阵列模块通讯连接,其接收来自麦克风阵列模块的多路模拟音频信号,以此为依据获知外界声场中不同声源的位置范围,对于每个位置范围生成一组语音增强权系数,使得语音增强模块按照语音增强权系数合成多路音频后,外界声场中特定位置范围的音频信号被增强;所述音频数据缓存区分别与声纹匹配模块及语义匹配模块通讯连接,当声纹匹配模块匹配结果显示声纹匹配成功时,声纹匹配模块将当前经过语音增强后的音频数据暂存到音频数据缓存区暂存;所述存储模块包括语义存储库与声纹存储库;声纹存储库由一个或多个声纹模型组成,每一个声纹模型经过对目标语音训练获得;语义存储库一方面存储最小语义单元的的音频特征模型,另一方面存储符合语义逻辑的语言模型,用于在语义匹配模块中对实时语音的音频进行识别与翻译;所述语义匹配模块用于执行语义匹配过程,提取音频数据缓存区发来的语音信号中的语义段,与语义存储库中的现有语义进行匹配,最终输出目标人语义。2.如权利要求1所述的一种追踪目标人的语义识别装置,其特征在于,所述声源定位模块的工作过程可分为三个阶段:探索阶段:所述麦克风阵列采集到的多路模拟音频信号首先被传输入声源定位模块,声源定位模块依据多声源定位算法求解出当前外界声场中各个主要声源的空间位置范围;声源定位模块依据音强大小对当前主要声源进行排序,生成一有序声源集;标定阶段:在一定时间间隔内,以当前有序声源集中排序最靠前的声源作为标定声源,生成用于增强标定声源的语音增强权系数,并标定当前的语音增强权系数,将标定的语音增强权系数传送给语音增强模块进行音频信号合成;校正阶段:语音增强模块合成后的音频信号依次传输入声纹提取模块及声纹匹配模块,执行声纹匹...

【专利技术属性】
技术研发人员:王建华王新群赵洁陈宇彬何珺丁录国周乃鹏
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1