声源距离确定方法及装置制造方法及图纸

技术编号:16876304 阅读:75 留言:0更新日期:2017-12-23 13:36
本发明专利技术公开了一种声源距离确定方法及装置,该方法包括:接收用户语音信号;提取所述语音信号的频谱特征;将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征;将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音环境信息;基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。利用本发明专利技术,可以提高距离测定的准确性,而且无需借助第三方传感器。

Method and device for determining the distance of sound source

The invention discloses a method and a device for determining the distance from the source, the method comprises: receiving user speech signal; frequency characteristics of the speech signal; the speech spectrum characteristics of input pre built separation model, get the function characteristics of the reverberation impact coefficient of voice signal; the frequency spectrum characteristics of input the construction of speech environment analysis model, get the speech signal of speech environment information; the impact of reverberation function coefficient characteristics, voice environmental information and pre built sound source distance model to determine user voice and microphone based on distance information. Using the invention, the accuracy of distance measurement can be improved, and the third - party sensor is not needed.

【技术实现步骤摘要】
声源距离确定方法及装置
本专利技术涉及语音信号处理领域,具体涉及一种声源距离确定方法及装置。
技术介绍
随着人工智能技术的进步,人机语音交互也取得了长足的发展,各种语音助手APP和人机交互机器人大肆兴起。语音识别作为语音交互中必不可少的功能之一,其识别效果很大一部分取决于录音质量,现有的语音识别装置在录音质量较差时,往往整体识别效果会急剧下降,严重影响用户体验。因而,作为提升语音录音质量方法之一的:根据用户语音输入距离提醒和/或纠正用户语音输入习惯(如离麦克风近一些),对语音识别乃至整个语音交互体验尤为重要。现有的声源距离判断主要有以下两种场景:1、多麦克风场景,多是根据麦克风阵列硬件布置,以及各麦克风接收声源语音信号的时差,进行声源与各麦克风距离的判断。2、单麦克风场景,多是采用第三方传感器测定声源与麦克风的距离,如红外测距、多摄像头测距等。对于多麦克风场景,为了追求外观的精致,现在的收音设备尺寸越来越小,随之带来了因麦克风阵列集中而导致声源距离判定不准确的问题,比如,假设两个麦克风相距5cm,此时可能对于距离3米或5米的语音信号,其响应效果相差甚微,此时通过传统的距离判断方法其测本文档来自技高网...
声源距离确定方法及装置

【技术保护点】
一种声源距离确定方法,其特征在于,包括:接收用户语音信号;提取所述语音信号的频谱特征;将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征;并且将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音环境信息;基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。

【技术特征摘要】
1.一种声源距离确定方法,其特征在于,包括:接收用户语音信号;提取所述语音信号的频谱特征;将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征;并且将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音环境信息;基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。2.根据权利要求1所述的方法,其特征在于,所述语音分离模型、语音环境分析模型、以及声源距离判定模型采用前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合。3.根据权利要求1所述的方法,其特征在于,所述方法还包括按以下方式构建语音分离模型:确定语音分离模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:混响冲击函数系数特征;获取训练数据,所述训练数据为带噪带混响的语音数据;提取所述训练数据的频谱特征;基于所述训练数据的频谱特征,训练得到语音分离模型。4.根据权利要求1所述的方法,其特征在于,所述方法还包括按以下方式构建语音环境分析模型:确定语音环境分析模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:房间因子T60信息;获取训练数据,所述训练数据为带噪带混响的语音数据;提取所述训练数据的频谱特征;基于所述训练数据的频谱特征,训练得到语音环境分析模型。5.根据权利要求4所述的方法,其特征在于,所述语音环境分析模型为带瓶颈隐层的前馈神经网络;所述语音环境信息为:瓶颈隐层输出信息。6.根据权利要求1所述的方法,其特征在于,所述方法还包括按以下方式构建声源距离判定模型:确定声源距离判定模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:混响冲击函数系数特征和语音环境信息;所述输出层的输出包括:语音信号与麦克风的距离信息;获取训练数据,所述训练数据为带噪带混响的语音数据;提取所述训练数据的频谱特征;利用所述训练数据的频谱特征,分别获取所述训练数据的混响冲击函数系数特征和语音环境信息;基于所述训练数据的混响冲击函数系数特征和语音环境信息,训练得到声源距离判定模型。7.根据权利要求6所述的方法,其特征在于,所述声源距离判定模型为回归模型,其输出层节点为1个,表示语音信号与麦克风的距离信息为语音信号与麦克风的距离值;或者所述声源距离判定模型为分类模型,其输出层节点为多个,表示语音信号与麦克风的距离描述信息。8.根据权利要求3至7任一项所述的方法,其特征在于,所述获取训练数据包括:收集纯净的语音数据及多种不同的噪声数据;将所述噪声数据以不同信噪比、以及具有不同房间因子T60和距离的混响冲击响应函数加入所述纯净的语音数据,得到带噪带混响的语音数据。9.一种声源距离确定装置,其特征在于,包括:接收模块,用于接收用户语音信号;特征提取模块,用于提取所述语音信号的频谱特征;语音分离模块,用于将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征;语音环境分析模块,用于将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音...

【专利技术属性】
技术研发人员:喻涛潘嘉王海坤王智国胡国平胡郁刘庆峰
申请(专利权)人:讯飞智元信息科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1