【技术实现步骤摘要】
语音信号的特征获取方法及装置
[0001]本公开涉及数据处理
,具体涉及一种语音信号的特征获取方法及装置。
技术介绍
[0002]语音作为人与人之间交流最普遍的方式,包含了说话人性别、年龄、情感、稳定与否等许多有效且重要的信息。由于语音中包含丰富的信息,并且语音数据采集的可行性较高,提取语音中的不同特征以表示所需要的信息,在当前人工智能、医学诊断等多个领域都具有可观的应用前景。尤其在医疗领域,语音检测方法具有采集方便、非接触、无创等优点,在操作和采集上与其他信号相比有着明显的优势,因此通过语音诊断相关病症备受瞩目。
[0003]在目前现有的能够表征语音信号深层信息的特征中,传统声学特征虽然物理意义明确、可解释性强,但由于传统声学特征只针对时域或者频域提取特征,从而忽略了语音中其它因素带来的直接影响,导致检测精度不高。而基于深度学习获取的语音信号特征虽然检测精度高,但深度学习存在可解释性差、模型的黑盒问题,而且医学领域普遍存在数据集规模较小的局限性,基于深度学习进行语音分析研究,存在过拟合的风险。
专利技 ...
【技术保护点】
【技术特征摘要】
1.一种语音信号的特征获取方法,其特征在于,包括:对待分析的语音信号进行时频化处理,获取所述语音信号的语谱图;统计获取所述语谱图内各能量点的方向信息;根据所述语谱图内各能量点的方向信息,基于核密度估计算法建立形式背景,所述形式背景以能量点作为对象,能量点所含有的方向区间作为属性,用于描述所述语谱图中能量点与其所含有的方向区间之间的对应关系;根据所述形式背景,建立所述语音信号的方向共生属性拓扑图,所述方向共生属性拓扑图用于描述所述形式背景中属性对之间的共生关系。2.根据权利要求1所述的方法,其特征在于,所述对待分析的语音信号进行时频化处理,获取所述语音信号的语谱图,包括:按照以下公式对所述语音信号进行短时傅立叶变换:其中,x(u)为语音信号,w(u
‑
t)为窗函数,t表示时间,f表示频率,u
‑
t∈[0,L
‑
1],所述L为所述窗函数的步长;以P(t,f)作为所述语音信号的语谱图的表达式,按照以下公式计算P(t,f):P(t,f)=|STFT(t,f)|2;所述P(t,f)表示在时刻t和频率f下的能量值。3.根据权利要求2所述的方法,其特征在于,所述w(u
‑
t)为汉明窗的窗函数。4.根据权利要求2或3所述的方法,其特征在于,所述统计获取所述语谱图内各能量点的方向信息,包括:对所述语谱图按照以下公式如下进行滑窗处理:P(t,f)=[P1(t,f),P2(t,f),
…
,P
n
(t,f)];其中,n为所述语谱图中子区域窗口的数量,P
i
(t,f)表示所述语谱图的第i个子区域窗口;按照以下公式计算子区域窗口P
i
(t,f)下时频混合域内(t0,f0)处能量点的方向变化率)处能量点的方向变化率其中,所述l表示所述子区域窗口P
i
(t,f)下时频混合域内(t0,f0)处能量点的方向,表示在子区域窗口下时频混合域内(t0,f0)处的能量点(t0,f0)的时间变化率,表示在子区域窗口下的时频混合域内(t0,f0)处的能量点(t0,f0)的频率变化率,所述为所述语谱图内时频平面坐标轴到(t0,f0)处能量点的方向l的夹角。5.根据权利要求4所述的方法,其特征在于,所述根据所述语谱图内各能量点的方向信息,基于核密度估计算法建立形式背景,包括:
按照以下公式,对子区域窗口P
i
(t,f)下时频混合域内(t0,f0)处能量点的方向变化率值分布进行核概率密度估计,得到(t0,f0)处能量点方向变化率的近似分布函数)处能量点方向变化率的近似分布函数其中,为独立同分布里的a
r
个样本点,a
r
为子区域窗口P
i
(t,f)下时频混合域内(t0,f0)处能量点的所有方向变化率的数量,h>0为一个平滑系数,k
el
(
·
)为核函数;按照以下公式,对子区域窗口P
i
(t,f)下时频混合域内(t0,f0)处能量点的方向值分布进行核概率密度估计,得到(t0,f0)处能量点的方向值的近似分布函数)处能量点的方向值的近似分布函数其中,为独立同分布里的a
f
个样本点,a
f
为子区域窗口P
i
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。