一种用于AI语音通讯的语音数据增强方法、系统及装置制造方法及图纸

技术编号:35459544 阅读:14 留言:0更新日期:2022-11-03 12:24
本申请涉及装置智能控制领域,具体涉及一种用于AI语音通讯的语音数据增强方法、系统及装置,包括:获取语音信号,将语音信号转化为语音数字信号,利用该语音数字信号得到其声波图和语谱图,利用跨模态思想将一维的声波图转换为二维的语谱灰度图,获取声波图和语谱灰度图的变化时间段,对两者变化时间段求并集得到组合时间段,组合时间段将语谱灰度图分为多个语谱灰度图段,计算每个语谱灰度图段内每个像素点的自适应窗口及衰减系数,利用每个语谱灰度图段内每个像素点的自适应窗口及衰减系数得到去噪后的灰度值,进而得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到增强后的语音信号,本发明专利技术实现了语音信号的增强。强。强。

【技术实现步骤摘要】
一种用于AI语音通讯的语音数据增强方法、系统及装置


[0001]本申请涉及装置智能控制领域,具体涉及一种用于AI语音通讯的语音数据增强方法、系统及装置。

技术介绍

[0002]近年来,语音通讯技术发展的越来越迅速。然而在进行语音通讯过程中,语音往往会受到环境噪声的影响。因此语音数据的增强对于语音通讯技术的发展极为重要。
[0003]语音增强是在复杂的背景环境下获得清晰语音的一种数据处理技术。传统的语音数据增强方法往往是谱减法、维纳滤波、小波去噪方法,在利用谱减法时,由于使用静音段的噪声作为当前帧的噪声,因此部分语音区域会出现较大的残留噪声;而维纳滤波的噪声功率谱是通过对静音段估计得到的,所以滤波效果不佳;小波的去噪变化的阈值设置不当,影响理想的降噪效果;因此,亟待一种用于AI语音通讯的语音数据增强方法、系统及装置解决现有去噪方法存在较大残留噪声,降噪效果不佳的问题。

技术实现思路

[0004]本专利技术提供基于大数据的图像智能压缩方法,以解决现有去噪方法存在较大残留噪声、降噪效果不佳的问题。
[0005]本专利技术的一种用于AI语音通讯的语音数据增强方法,采用如下技术方案:
[0006]S1、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;
[0007]S2、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;
[0008]S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
[0009]S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口;
[0010]S5、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。
[0011]进一步的,所述获取语谱灰度图的分割时间区间段的方法是:
[0012]获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;
[0013]设置阈值,获取大于阈值的最大灰度值差值所对应的时间帧集合;
[0014]利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。
[0015]进一步的,所述获取语谱灰度图的分割时间区间段的方法是:
[0016]获取声波图中每两个相邻时间帧的幅值差值,获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;
[0017]对幅值差值和最大灰度值差值分别设置差值阈值,获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合;
[0018]利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合;
[0019]对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段,利用组合时间段分割语谱灰度图得到语谱灰度图的分割时间区间段。
[0020]进一步的,所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是:
[0021]当语谱灰度图段内的最大灰度值大于阈值时,该语谱灰度图段为正常语音语谱灰度图段;
[0022]当语谱灰度图段内的最大灰度值小于阈值时,该语谱灰度图段为噪声语谱灰度图段。进一步的,所述每个像素点的初始窗口的分布度的具体表达式为:
[0023]γ
pq
=th(0.6ε
pq
+0.4δ
pq
)
[0024]式中:γ
pq
表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,ε
pq
表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度均值,δ
pq
表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度值的方差。
[0025]进一步的,所述得到每个像素点的自适应窗口的具体表达式为:
[0026]若语谱灰度图段为正常语音语谱灰度图段,则该语谱灰度图段内每个像素点的自适应窗口的表达式为:
[0027][0028]式中:ω2
pq
表示第p段语谱灰度图段内第q个像素点的自适应窗口,γ
pq
表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,y
q
表示第p段语谱灰度图段内第q个像素点的频率,μ
1p
表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数,μ
2p
表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数,10表示正常语音语谱灰度图段内像素点的初始窗口尺寸。
[0029]若语谱灰度图段为噪声语谱灰度图段,则该语谱灰度图段内每个像素点的自适应窗口的表达式为:
[0030][0031]式中:ω1
pq
表示第p段语谱灰度图段内第q个像素点的自适应窗口,γ
pq
表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,y
q
表示第p段语谱灰度图段内第q个像素点的频率,μ
1p
表示第p段语谱灰度图段内第q个像素点初始窗口长的超参数,μ
2p
表示第p段语谱灰度图段内第q个像素点初始窗口宽的超参数,3表示噪声数字信号像素点的初始窗口
尺寸。
[0032]进一步的,所述每个像素点的衰减系数的表达式为:
[0033][0034]式中:ω(x)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗口,G(b)表示“雾状”语谱灰度图中以像素点x为中心的自适应窗中b点的灰度值,整体表示暗通道图像,A表示全局信息变量。
[0035]一种用于AI语音通讯的语音数据增强系统,包括:
[0036]语音采集模块、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;
[0037]信号判定模块、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;
[0038]获取自适应窗口模块、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;
[0039]利用每个像素点的初始窗口分布度及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于AI语音通讯的语音数据增强方法,其特征在于,包括:S1、采集语音信号,并获取该语音信号的语谱图,将该语谱图转化为语谱灰度图,其中,将该语谱图中的能量值作为语谱灰度图的灰度值;S2、获取语谱灰度图的分割时间区间段,利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段,并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段;S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口,分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点,利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度;S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口;S5、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数,利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值,利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图,对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。2.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述获取语谱灰度图的分割时间区间段的方法是:获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;设置阈值,获取大于阈值的最大灰度值差值所对应的时间帧集合;利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。3.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述获取语谱灰度图的分割时间区间段的方法是:获取声波图中每两个相邻时间帧的幅值差值,获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值;对幅值差值和最大灰度值差值分别设置差值阈值,获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合;利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合;对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段,利用组合时间段分割语谱灰度图得到语谱灰度图的分割时间区间段。4.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是:当语谱灰度图段内的最大灰度值大于阈值时,该语谱灰度图段为正常语音语谱灰度图段;当语谱灰度图段内的最大灰度值小于阈值时,该语谱灰度图段为噪声语谱灰度图段。5.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是:设置阈值,若语谱灰度图段内语音信号的最大灰度值大于阈值,则将该语谱灰度图段作为正常语音语谱灰度图段,若语谱灰度图段内语音信号的最大灰度值小于阈值T,则将该
语谱灰度图段作为噪声语谱灰度图段。6.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法,其特征在于,所述每个像素点的初始窗口的分布度的具体表达式为:γ
pq
=th(0.6ε
pq
+0.4δ
pq
)式中:γ
pq
表示第p段语谱灰度图段内第q个像素点初始窗口的分布度,ε
pq
表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度均值,δ
...

【专利技术属性】
技术研发人员:孙立民李曙东马斌
申请(专利权)人:天津中科听芯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1