一种基于柔性传感器的抗高噪声语音交互装置与方法制造方法及图纸

技术编号:39297186 阅读:7 留言:0更新日期:2023-11-07 11:05
一种基于柔性传感器的抗高噪声语音交互装置与方法,属于语音识别领域。将柔性传感器分布式地布局到可穿戴设备,弯曲地贴合于皮肤表面,进行下颚多个区域的语音振动信号的多通道采集;并直接将采集的机械振动转换为电信号,有效防止环境噪声及非使用者声音的干扰和误扰,无需额外的降噪结构,能够实现嘈杂环境下清晰、精准的拾音;通过建立自适应滤波模型,计算更新自适应滤波系数,分析获得多类物理噪声的分布功率谱,能够自适应的去除语音交互装置信号采集过程中的不可避免的多类型物理噪声,提高语音交互系统在多种复杂情况下应用的鲁棒性。本发明专利技术适用于语音识别领域,提高嘈杂环境下语音交互系统中,指令识别与通信交流的可靠性及灵敏度。可靠性及灵敏度。可靠性及灵敏度。

【技术实现步骤摘要】
一种基于柔性传感器的抗高噪声语音交互装置与方法


[0001]本专利技术涉及一种语音信号处理方法及装置,具体涉及一种基于柔性传感器的抗高噪声语音交互装置与方法,属于语音识别领域。

技术介绍

[0002]语音识别技术被认为是未来人与机器之间信息交换媒介中最自然、简便的方法,在军事、医疗、物联网等各个领域得到广泛应用。然而,在市场和工厂等嘈杂的环境下,存在巨大的环境噪声干扰,严重影响了语音交流的质量。尤其在军事通信领域,由于飞机和坦克的驾驶舱中存在强大的背景噪音,通过语音传输的重要情报被淹没将导致不可估量的损失。
[0003]针对背景噪声嘈杂、大风干扰和佩戴口罩等无法避免的环境条件,语音拾取后需要复杂的降噪算法以及额外的降噪装置,以减少或消除环境噪音的影响,提高语音的清晰度,但由于算法和设备的限制,对高分贝的环境噪音难以有效抑制。人体传声器(Body

conducted microphone,BCM)采用接触方式,采集人体骨头或者肌肉组织的振动产生语音信号,主要包括喉部、头骨和耳后等部位。其中,喉部传声器在几十年前就被应用于战斗机飞行员执行的任务中。常见的喉部传声器通常需要在喉结两侧各佩戴一个振动传感器,以拾取由喉部肌肉振动传输的语音信号(申请号:CN201320329508.7、CN201520265045.1),具有良好的抗噪性能。然而,大多数喉部传声器都是基于刚性的传感器件,需要额外的固定装置来确保与佩戴者的喉部紧密接触。存在以下缺点:1)传感器接触位置集中在声带附近为主,佩戴存在局限性;2)在使用的过程中传感器容易发生位置偏移,影响使用效果。
[0004]近年来,柔性传感器提供了一个很有前途的解决方案。基于压电、压阻和摩擦电效应的柔性传感器已被用于捕捉人体发声部位的振动,可以取代刚性的人体传声器,用于测量说话时声带的振动。然而,这些基于柔性传感器的语音识别系统也存在以下缺点:1)从声音学和语言学角度来看,虽然基于柔性传感器的接触式语音识别设备具有很高的抗扰度,但通过皮肤和肌肉振动等组织传输的语音信号的高频衰减严重、辅音音节丢失且中低频谐波能量改变,导致其在准确性、可懂度、可靠性等方面较差,难以满足高质量的语音通信与控制需求;2)从硬件的角度看,不可避免的存在物理噪声,传感器与紧贴的皮肤产生的摩擦噪声、极限运动时强力的风力摩擦噪声、人咀嚼或牙齿相碰时引入的噪声等,这些噪声也降低了骨导语音的通信质量;3)从实用性的角度来看,接触式语音识别系统会面临复杂多变的使用情况,例如柔性传感器受到外界的按压、碰撞等,这些无法避免的情况对语音振动信号的带来了严重的干扰,阻碍了实际场景中的进一步应用。

技术实现思路

[0005]针对现有接触式语音识别装置存在的如下缺陷:1)传感器接触位置集中在声带附近,佩戴存在局限性;2)使用过程中容易发生摩擦、按压,产生不可避免的物理噪声,缺少针对系统物理噪声去除的方法研究;3)所拾取的语音信号质量受限、可懂度低,难以满足高质
量的通信需求以及自然对话风格下的语音控制。本发的主要目的是提出一种基于柔性传感器的抗高噪声语音交互装置与方法,利用分布式柔性传感器实时采集下颚的声音振动信号,有效避免环境高分贝噪声对语音交互的影响,增强抗干扰能力;对语音振动信号进行自适应滤波与增强,提高接触式语音交互装置在多种复杂情况下信号采集的清晰度与稳定性,增强语音指令控制、通信交流的可靠性及灵敏度。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]本专利技术公开的一种基于柔性传感器的抗高噪声语音交互装置,包括语音智能分析模块、可穿戴装置、柔性传感器、耳机听筒、硬件放大器、蓝牙模块以及供电电源。可穿戴装置具有头盔的颐带外观,柔性传感器呈分布状排布在可穿戴装置上;硬件放大器将柔性传感器采集到的语音振动信号进行放大,并通过蓝牙模块将数据传输至语音智能分析模块;语音智能分析系统模块为系统控制中心,对语音信号采集模块所采集的信号进行预处理,并基于深度学习模型进行语音的增强和识别;耳机听筒位于可穿戴装置上,反馈用户语音及交互结果。
[0008]所述可穿戴装置具有头盔的颐带外观,佩戴在下颚发声区域进行低密度分布式采集;
[0009]所述柔性传感器可弯曲、可变形,由二维材料、电极和柔性基底构成。能够弯曲地贴合于皮肤表面进行多通道信号采集,同时采集用户说话时下颚不同区域的语音振动信号,将机械振动转换为电信号输出;
[0010]所述硬件放大器为一个小尺寸的多功能三运放仪表放大器,具有低功率、零漂移的特点,对采集到的语音振动信号进行放大,以获得更明显的声带振动特征。能够根据语音振动信号的特点,设置不同的阻值来改变信号的放大增益;
[0011]所述蓝牙模块集成无线电收发器,支持高数据传输率,实现数据的传输;
[0012]所述供电电源由锂电池和电池充放电控制电路组成,为所述语音识别系统提供所需的工作电压;
[0013]所述语音智能分析模块作为系统的控制中心,具有信号预处理、基于深度学习模型训练的语音增强和识别功能。
[0014]本专利技术公开的一种基于柔性传感器的抗高噪声语音交互方法,基于一种基于柔性传感器的抗高噪声语音交互装置实现,具体包含以下步骤:
[0015]步骤一:通过语音交互装置获取实时语音振动信号;
[0016]步骤二:基于步骤一所采集的语音振动信号,建立语音振动信号数据集,并拆分为训练集和测试集;
[0017]步骤三:对步骤二所述的语音振动信号数据集进行预处理,得到语音信号幅度谱X(k)。
[0018]3.1、将模拟信号转换为数字信号,采用采样定理将连续时间信号离散化;
[0019]3.2、采用一阶高通滤波器对离散后的语音信号进行预加重;
[0020]所述预加重采用一阶高通滤波器实现,传递函数为H(z)=1

αz
‑1,其中α是预加重系数,不大于0.9;其频率响应为其中f
s
为采样率,f为频率,取值范围为200Hz~4000Hz;
[0021]3.3、对所述预加重后的语音数据进行帧切割,得到多帧分段语音振动信号;
[0022]3.4、采用汉明窗对所述多帧分段语音振动信号进行加窗处理,以减小频谱泄露;
[0023]3.5、对加窗后的离散的语音序列x[n],进行快速傅里叶变换,将时域信号转换到频域,得到信号幅度谱X(k)。
[0024]步骤四:建立自适应滤波模型,更新滤波器系数,去除语音信号幅度谱X(k)中的物理噪声干扰成分,并将结果进行非线性放大,得到去除干扰后的语音振动信号保证所述语音交互装置在多种复杂情况下采集信号的清晰度与稳定性。
[0025]4.1、所述自适应滤波器模型为:
[0026][0027]其中,为预测信号,是经过自适应滤波器处理后得到的频域语音信号;X(k)为语音振动信号的幅度谱;β(f,n)表示第n个语音序列的自适应滤波器系数。
[0028]4.2、对包含系统物理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于柔性传感器的抗高噪声语音交互装置,其特征在于:包括语音智能分析模块、可穿戴装置、柔性传感器、耳机听筒、硬件放大器、蓝牙模块以及供电电源;可穿戴装置具有头盔的颐带外观,柔性传感器呈分布状排布在可穿戴装置上;硬件放大器将柔性传感器采集到的语音振动信号进行放大,并通过蓝牙模块将数据传输至语音智能分析模块;语音智能分析系统模块为系统控制中心,对语音信号采集模块所采集的信号进行预处理,并基于深度学习模型进行语音的增强和识别;耳机听筒位于可穿戴装置上,反馈用户语音及交互结果。2.如权利要求1所述的一种基于柔性传感器的抗高噪声语音交互装置,其特征在于:所述可穿戴装置具有头盔的颐带外观,佩戴在下颚发声区域进行低密度分布式采集;所述柔性传感器可弯曲、可变形,由二维材料、电极和柔性基底构成;能够弯曲地贴合于皮肤表面进行多通道信号采集,同时采集用户说话时下颚不同区域的语音振动信号,将机械振动转换为电信号输出;所述硬件放大器为一个小尺寸的多功能三运放仪表放大器,具有低功率、零漂移的特点,对采集到的语音振动信号进行放大,以获得更明显的声带振动特征;能够根据语音振动信号的特点,设置不同的阻值来改变信号的放大增益;所述蓝牙模块集成无线电收发器,支持高数据传输率,实现数据的传输;所述供电电源由锂电池和电池充放电控制电路组成,为所述语音识别系统提供所需的工作电压;所述语音智能分析模块作为系统的控制中心,具有信号预处理、基于深度学习模型训练的语音增强和识别功能。3.一种基于柔性传感器的抗高噪声的语音交互方法,基于一种基于柔性传感器的抗高噪声语音交互装置实现,其特征在于:具体包含以下步骤,步骤一:通过语音交互装置获取实时语音振动信号;步骤二:基于步骤一所采集的语音振动信号,建立语音振动信号数据集,并拆分为训练集和测试集;步骤三:对步骤二所述的语音振动信号数据集进行预处理,得到语音信号幅度谱X(k);步骤四:建立自适应滤波模型,更新滤波器系数,去除语音信号幅度谱X(k)中的物理噪声干扰成分,并将结果进行非线性放大,得到去除干扰后的语音振动信号保证所述语音交互装置在多种复杂情况下采集信号的清晰度与稳定性;步骤五:基于Mel频率倒谱系数,获取去除干扰后的语音振动信号的MFCC参数特征,依据MFCC参数特性进行语音振动信号的高频恢复、带宽扩展,实现语音的增强与识别。4.如权利要求3所述的一种基于柔性传感器的抗高噪声语音交互方法,其特征在于:步骤三的实现方式为,3.1、将模拟信号转换为数字信号,采用采样定理将连续时间信号离散化;3.2、采用一阶高通滤波器对离散后的语音信号进行预加重;所述预加重采用一阶高通滤波器实现,传递函数为H(z)=1

αz
‑1,其中α是预加重系数,不大于0.9;其频率响应为其中f
s
为采样率,f为频率,取值范围为200Hz~4000Hz;
3.3、对所述预加重后的语音数据进行帧切割,得到多帧分段语音振动信号;3.4、采...

【专利技术属性】
技术研发人员:郑德智孙颖原世纪樊尚春
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1