一种基于多模态的声音动态识别方法技术

技术编号:41507657 阅读:38 留言:0更新日期:2024-05-30 14:47
本发明专利技术公开了一种基于多模态的声音动态识别方法,包括以下步骤:在待识别声纹特征中标记出属于指定对象声音的目标声纹特征和不属于指定对象声音的噪声声纹特征,分别统计目标声纹特征和噪声声纹特征的信息量;对目标声纹特征进行深度学习得到目标声纹识别模型,对噪声声纹特征进行深度学习得到噪声声纹识别模型,基于目标声纹特征和噪声声纹特征的信息量进行目标声纹识别模型和噪声声纹识别模型的融合得到目标声纹动态识别模型。本发明专利技术实现目标声纹的精准性与声音识别阶段的动态适配,目标声纹动态识别模型伴随指定对象声音样本数变化的情况会提升指定对象声音的识别适配性,进而保证声音识别的精度效果。

【技术实现步骤摘要】

本专利技术涉及声音识别,具体涉及一种基于多模态的声音动态识别方法


技术介绍

1、

2、现有的小蜜蜂扩音器存在着弊端,不能识别指定对象的声音从而仅对指定对象进行扩音,降低无效背景噪音的干扰,现有的声音识别方法多采用参照匹配算法,利用事先存储的声音作参照进行实时接收声音的识别,以实现在实时声音中标记出指定对象声音,但该种识别模式并不适用于指定对象声音样本未知或者指定对象声音样本数较少的情况,指定对象声音样本未知或者指定对象声音样本数较少的情况会导致设置为参照的指定对象声音的表征性不足,进而导致声音识别的精度效果较差。


技术实现思路

1、本专利技术的目的在于提供一种基于多模态的声音动态识别方法,以解决现有技术中指定对象声音样本未知或者指定对象声音样本数较少的情况会导致设置为参照的指定对象声音的表征性不足,导致声音识别的精度效果较差的技术问题。

2、为解决上述技术问题,本专利技术具体提供下述技术方案:

3、一种基于多模态的声音动态识别方法,包括以下步骤:>

4、步骤s1本文档来自技高网...

【技术保护点】

1.一种基于多模态的声音动态识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态的声音动态识别方法,其特征在于:分别利用LPCC特征提取算法和MFCC特征提取算法提取可采集区域范围内的同频段内的各个声音的LPCC特征和MFCC特征作为可采集区域范围内的同频段内的各个声音的待识别声纹特征。

3.根据权利要求1所述的一种基于多模态的声音动态识别方法,其特征在于:所述在待识别声纹特征中标记出属于指定对象声音的目标声纹特征和不属于指定对象声音的噪声声纹特征,包括:

4.根据权利要求1所述的一种基于多模态的声音动态识别方法,其特征在于:所...

【技术特征摘要】

1.一种基于多模态的声音动态识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态的声音动态识别方法,其特征在于:分别利用lpcc特征提取算法和mfcc特征提取算法提取可采集区域范围内的同频段内的各个声音的lpcc特征和mfcc特征作为可采集区域范围内的同频段内的各个声音的待识别声纹特征。

3.根据权利要求1所述的一种基于多模态的声音动态识别方法,其特征在于:所述在待识别声纹特征中标记出属于指定对象声音的目标声纹特征和不属于指定对象声音的噪声声纹特征,包括:

4.根据权利要求1所述的一种基于多模态的声音动态识别方法,其特征在于:所述分别统计目标声纹特征和噪声声纹特征的信息量,包括:

5.根据权利要求4所述的一种基于多模态的声音动态识别方法,其特征在于:所述对目标声纹特征进行深度学习得到目标声纹识别模型,包括:

6.根据权利要求...

【专利技术属性】
技术研发人员:陈佳炜董伟曹琪魏志豪陈凯磊叶聿中周袁成
申请(专利权)人:华中科技大学同济医学院附属协和医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1