一种用于AI语音通讯的语音数据增强方法、系统及装置制造方法及图纸

技术编号：35459544 阅读：14 留言：0更新日期：2022-11-03 12:24

本申请涉及装置智能控制领域，具体涉及一种用于AI语音通讯的语音数据增强方法、系统及装置，包括：获取语音信号，将语音信号转化为语音数字信号，利用该语音数字信号得到其声波图和语谱图，利用跨模态思想将一维的声波图转换为二维的语谱灰度图，获取声波图和语谱灰度图的变化时间段，对两者变化时间段求并集得到组合时间段，组合时间段将语谱灰度图分为多个语谱灰度图段，计算每个语谱灰度图段内每个像素点的自适应窗口及衰减系数，利用每个语谱灰度图段内每个像素点的自适应窗口及衰减系数得到去噪后的灰度值，进而得到去雾后的语谱灰度图，对去雾后的语谱灰度图进行映射变换得到增强后的语音信号，本发明专利技术实现了语音信号的增强。强。强。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于AI语音通讯的语音数据增强方法、系统及装置

[0001]本申请涉及装置智能控制领域，具体涉及一种用于AI语音通讯的语音数据增强方法、系统及装置。

技术介绍

[0002]近年来，语音通讯技术发展的越来越迅速。然而在进行语音通讯过程中，语音往往会受到环境噪声的影响。因此语音数据的增强对于语音通讯技术的发展极为重要。
[0003]语音增强是在复杂的背景环境下获得清晰语音的一种数据处理技术。传统的语音数据增强方法往往是谱减法、维纳滤波、小波去噪方法，在利用谱减法时，由于使用静音段的噪声作为当前帧的噪声，因此部分语音区域会出现较大的残留噪声；而维纳滤波的噪声功率谱是通过对静音段估计得到的，所以滤波效果不佳；小波的去噪变化的阈值设置不当，影响理想的降噪效果；因此，亟待一种用于AI语音通讯的语音数据增强方法、系统及装置解决现有去噪方法存在较大残留噪声，降噪效果不佳的问题。

技术实现思路

[0004]本专利技术提供基于大数据的图像智能压缩方法，以解决现有去噪方法存在较大残留噪声、降噪效果不佳的问题。
[0005]本专利技术的一种用于AI语音通讯的语音数据增强方法，采用如下技术方案：
[0006]S1、采集语音信号，并获取该语音信号的语谱图，将该语谱图转化为语谱灰度图，其中，将该语谱图中的能量值作为语谱灰度图的灰度值；
[0007]S2、获取语谱灰度图的分割时间区间段，利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段，并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱...

【技术保护点】

【技术特征摘要】
1.一种用于AI语音通讯的语音数据增强方法，其特征在于，包括：S1、采集语音信号，并获取该语音信号的语谱图，将该语谱图转化为语谱灰度图，其中，将该语谱图中的能量值作为语谱灰度图的灰度值；S2、获取语谱灰度图的分割时间区间段，利用分割时间区间段将该语谱灰度图分割为多段语谱灰度图段，并将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段；S3、分别对正常语音语谱灰度图段和噪声语谱灰度图段设置初始窗口，分别将正常语音语谱灰度图段和噪声语谱灰度图段中每个像素点作为设置的初始窗口的中心像素点，利用每个初始窗口中所有像素点的灰度值的均值和方差得到每个像素点的初始窗口分布度；S4、利用每个像素点的初始窗口分布度及该初始窗口中所有像素点的频率得到每个像素点的自适应窗口；S5、根据每个像素点所在自适应窗口中所有像素点在语谱灰度图中的灰度值获得该像素点的衰减系数，利用每个像素点的的衰减系数及灰度值得到每个像素点去雾后的灰度值，利用每个像素点去雾后的灰度值得到去雾后的语谱灰度图，对去雾后的语谱灰度图进行映射变换得到去噪后的语音信号。2.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述获取语谱灰度图的分割时间区间段的方法是：获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值；设置阈值，获取大于阈值的最大灰度值差值所对应的时间帧集合；利用最大灰度值差值所对应的时间帧集合得到语谱灰度图的分割时间区间段。3.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述获取语谱灰度图的分割时间区间段的方法是：获取声波图中每两个相邻时间帧的幅值差值，获取语谱灰度图在语音基频范围内每两个相邻时间帧的最大灰度值差值；对幅值差值和最大灰度值差值分别设置差值阈值，获取大于对应差值阈值的幅值差值和最大灰度值差值所对应的时间帧的集合；利用幅值差值和最大灰度值差值所对应的时间帧的集合分别得到声波图和语谱灰度图的变化时间段集合；对声波图和语谱灰度图的变化时间段集合求并集得到组合时间段，利用组合时间段分割语谱灰度图得到语谱灰度图的分割时间区间段。4.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是：当语谱灰度图段内的最大灰度值大于阈值时，该语谱灰度图段为正常语音语谱灰度图段；当语谱灰度图段内的最大灰度值小于阈值时，该语谱灰度图段为噪声语谱灰度图段。5.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述将所有的语谱灰度图段分为正常语音语谱灰度图段和噪声语谱灰度图段的方法是：设置阈值，若语谱灰度图段内语音信号的最大灰度值大于阈值，则将该语谱灰度图段作为正常语音语谱灰度图段，若语谱灰度图段内语音信号的最大灰度值小于阈值T，则将该
语谱灰度图段作为噪声语谱灰度图段。6.根据权利要求1所述的一种用于AI语音通讯的语音数据增强方法，其特征在于，所述每个像素点的初始窗口的分布度的具体表达式为：γ
pq
＝th(0.6ε
pq
+0.4δ
pq
)式中：γ
pq
表示第p段语谱灰度图段内第q个像素点初始窗口的分布度，ε
pq
表示第p段语谱灰度图段内第q个像素点的初始窗口内灰度均值，δ
...

【专利技术属性】
技术研发人员：孙立民，李曙东，马斌，
申请(专利权)人：天津中科听芯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人