System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种壮语音频提取方法技术_技高网
当前位置: 首页 > 专利查询>广西大学专利>正文

一种壮语音频提取方法技术

技术编号:41011340 阅读:4 留言:0更新日期:2024-04-18 21:47
本发明专利技术提出了一种壮语音频提取方法,包括通过视频处理得到第一文本集合和壮语语音,所述第一文本集合包括多个第一文本A和对应的文本时间轴a,步骤二,输入视频,提取音频文件,对音频文件进行傅里叶变换得到音频频谱,设定波形幅值阈值,过滤杂音,所述杂音为波形幅值低于阈值的音频,得到目标音频B和目标音频时间轴b,步骤三,将文本时间轴a和目标音频的时间轴b对齐,并调整文字语句时间轴a的长度与目标音频时间轴的长度b一致;该方案先是从时间域对齐音频和文本,在时间域对齐的基础上增加频率域对齐,使结果更准确,本方案从频率域和时间域对齐音频和文本,以保证文本和音频信息完全对应。

【技术实现步骤摘要】

本专利技术涉及语音提取领域,具体涉及一种壮语音频提取方法


技术介绍

1、说话人识别技术是一种跨多领域知识的综合技术。由于不同人的声带、声道、甚至是口唇的形态不同,发声习惯不同,产生出来的声音会有不同程度的差异,这些差异或许很微小,但是在经过优秀的特征提取之后,这种差异会被逐渐放大,从而衍生出“声纹”这一生物特征。声纹特征像指纹特征或者眼睛的虹膜特征一样,在可靠性和唯一性这两方面能够做到较好的保证,这就使其满足了作为身份识别的生物特征的前提条件。所以现在的声纹识别技术在金融安全、社保安全、通信安全等安全领域以及智能家居方面都有了较多的使用;

2、壮语语音翻译模型训练需要建立准确的壮语语音数据库,其中包括壮语音频及对应的文本,文本一般为汉字,但因为壮语本身的语言结构和和汉字存在较大差异,导致直接根据语音长度切割或文本长度切割的话,文本和音频可能会存在不对应的情况,数据库内肮脏音频增多,数据库效果差,因此本专利技术提出一种壮语音频提取方法以解决现有技术中存在的问题。


技术实现思路

1、针对现有技术的不足,本专利技术提出一种壮语音频提取方法,该壮语音频提取方法是将从频率域对齐音频和文本,在时间域对齐的基础上增加从频率域对齐,使结果更准确,本方案从时间域和频率域对齐音频和文本,以保证文本和音频信息完全对应。

2、本专利技术的技术方案是这样实现的:一种壮语音频提取方法,包括以下步骤;

3、步骤一:通过视频处理得到第一文本集合和壮语语音,所述第一文本集合包括多个第一文本a和对应的文本时间轴a;

4、步骤二:输入视频,提取音频文件,对音频文件进行傅里叶变换得到音频频谱,设定波形幅值阈值,过滤杂音,所述杂音为波形幅值低于阈值的音频,得到目标音频b和目标音频时间轴b;

5、步骤三:将文本时间轴a和目标音频的时间轴b对齐,并调整文字语句时间轴a的长度与目标音频时间轴的长度b一致,得到多个第二文本c和第二文本对应的时间轴c;

6、步骤四:根据第二文本对应的时间轴c在第二步中的音频文件截取最终音频,通过调整后的第二文本去截取最终音频,保证音频内容和文本内容完全一致,提高翻译的准确率。

7、步骤五:获取混合语音样本数据,混合语音样本数据为单通道语音信号,混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种噪音和向导语音,向导语音包括对应于目标对象的语音。

8、步骤六:构建语音分离网络,语音分离网络包括编码器、全局编码器、向导模块、分离模块和解码器,编码器和全局编码器用于输出语音信号的特征,向导模块用于根据向导语音和混合语音样本数据的比对结果输出权重值,分离模块用于获取目标语音的高维映射;所述解码器用于对数据进行解码得到目标语音。

9、步骤七:将所述混合语音样本数据输入语音分离网络得到预测目标语音。

10、步骤八:基于预设损失函数和所述预测目标语音更新所述语音分离网络得到语音提取模型。

11、步骤九:利用所述语音提取模型从待处理语音数据中提取目标对象语音信号;所述待处理语音数据包括单通道语音信号。

12、进一步改进在于:在所述步骤四中第二文本对应的时间轴c包括多个时间段,多个时间段用于一次性截取出多个最终音频,在目标视频和第一文本一一对应的情况下,可以直接进行剪切。

13、进一步改进在于:在所述步骤三中目标音频b包括目标音频1、2、3,其中一个目标音频假设为目标音频1对应多个第一文本,此时目标音频1需要被裁减,裁剪步骤位于步骤三,包括第一文本1起点对齐目标音频起点,输入第一文本1终点,得到第二文本1,第一文本2起点对齐输入第一文本1终点,输入第一文本2终点,得到第二文本2,第一文本n起点对齐输入第一文本n-1终点,输入第一文本n终点,得到第二文本n,目标音频1裁剪完毕,由于模型训练有音频时长的限制,当目标音频过长时会包含多个第一文本,要根据第一文本进行剪切。

14、进一步改进在于:步骤三中目标音频b包括目标音频1、2、3,其中一个目标音频假设为目标音频1对应包含不良语句倒装句,语序颠倒有歧义,此时目标音频1需要被裁减,裁剪步骤位于步骤三,包括,对不良语句进行语义确认,分为连续段1、2、3、n,连续段1、2、3、n定义为第一文本1、2、3、n,第一文本1起点对齐目标音频起点,输入第一文本1终点,得到第二文本1,第一文本2起点对齐输入第一文本1终点,输入第一文本2终点,得到第二文本2,第一文本n起点对齐输入第一文本n-1终点,输入第一文本n终点,得到第二文本n目标音频1裁剪完毕壮语中的倒装句目前通过人为识别去判定。

15、进一步改进在于:建立倒转结构语音库在步骤三中目标音频b包括目标音频1、2、3,其中一个目标音频假设为目标音频1对应包含倒转结构,此时目标音频1需要被裁减,裁剪步骤位于步骤三,包括,对目标音频1进行语义确认,识别倒转结构,对比倒转结构语音库,进行连续段切割1、2、3n,连续段1、2、3、n定义为第一文本1、2、3、n,第一文本1起点对齐目标音频起点,输入第一文本1终点,得到第二文本1,第一文本2起点对齐输入第一文本1终点,输入第一文本2终点,得到第二文本2,第一文本n起点对齐输入第一文本n-1终点,输入第一文本n终点,得到第二文本n,目标音频1裁剪完毕(短句中存在倒转结构,例如“晚今”、“家我”,需要提前识别,否则也容易产生歧义)。

16、进一步改进在于:在所述步骤五中在获取到语音提取模块后,通过将待处理语音数据输入到量化微调后的网络模型中,经过模型的计算即可得到目标语音的分离结果,从而保证了后续语音识别等需求。在一些实施方式中,在训练得到语音提取模型后,还可以对模型进行测试与验证,以保证模型的训练效果在获取到混合语音样本数据后,可以从中获取测试样本数据和验证样本数据。

17、进一步改进在于:在所述步骤六中语音分离网络构建模块,用于构建语音分离网络;在所述步骤六中利用训练得到的语音提取模型,对所述测试样本数据中的测试目标语音信号进行提取,再将提取得到的测试目标语音信号与所述验证样本数据进行比对,根据比对结果对所述语音提取模型进行优化,通过分析预测结果与原本结果的一致性,能够有效判断模型的预测准确率。

18、进一步改进在于:在所述步骤七中获取得到所述语音提取模型后,可以准确有效地对单通道语音中的目标对象的语音进行提取,从而有效保证后续的应用过程。

19、进一步改进在于:在所述步骤八用于构建语音分离网络,所述语音分离网络包括编码器、全局编码器、向导模块、分离模块和解码器,所述编码器和全局编码器用于输出语音信号的特征,所述向导模块用于根据向导语音和混合语音样本数据的比对结果输出权重值,所述分离模块用于获取目标语音的高维映射,通过解码器用于对数据进行解码得到目标语音。

20、进一步改进在于:在所述步骤九中对单通道语音信号进行提取,进而能够在后续过程中对提取到的语音进行语音识别等利用,改善了用户的使用本文档来自技高网...

【技术保护点】

1.一种壮语音频提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种壮语音频提取方法,其特征在于:在所述步骤四中第二文本对应的时间轴c包括多个时间段,多个时间段用于一次性截取出多个最终音频。

3.根据权利要求1所述的一种壮语音频提取方法,其特征在于:在所述步骤三中目标音频B包括目标音频1、2、3,其中一个目标音频假设为目标音频1对应多个第一文本,此时目标音频1需要被裁减,裁剪步骤位于步骤三,包括第一文本1起点对齐目标音频起点,输入第一文本1终点,得到第二文本1,第一文本2起点对齐输入第一文本1终点,输入第一文本2终点,得到第二文本2,第一文本n起点对齐输入第一文本n-1终点,输入第一文本n终点,得到第二文本n目标音频1裁剪完毕。

4.根据权利要求1所述的一种壮语音频提取方法,其特征在于:步骤三中目标音频B包括目标音频1、2、3,至少目标音频1、2、3中的一者包含不良语句,所述不良语句类型包括倒装句,将包含不良语句目标音频单独剪切,目标音频1、2、3都可能含有不良语句,如果目标音频1包含不良语句则单独剪出目标音频1,并标记。

5.根据权利要求1所述的一种壮语音频提取方法,其特征在于:建立倒转结构语音库,在步骤三中目标音频B包括目标音频1、2、3,至少目标音频1、2、3其中一者包含倒转结构,将包含倒转结构的目标音频单独剪出。

6.根据权利要求5所述的一种壮语音频提取方法,其特征在于:建立倒转结构语音库,包含倒转结构的目标音频与倒转结构语音库对比,识别倒转结构。

7.根据权利要求1所述的一种壮语音频提取方法,其特征在于:获取混合语音样本数据,混合语音样本数据为单通道语音信号,混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种噪音和向导语音,构建语音分离网络,语音分离网络包括编码器、全局编码器、向导模块、分离模块和解码器,编码器和全局编码器用于输出语音信号的特征,将所述混合语音样本数据输入语音分离网络得到预测目标语音,基于预设损失函数和所述预测目标语音更新所述语音分离网络得到语音提取模型,利用所述语音提取模型从待处理语音数据中提取目标对象语音信号,所述待处理语音数据为单通道语音信号。

8.根据权利要求7所述的一种壮语音频提取方法,其特征在于:语音分离网络构建模块,用于构建语音分离网络;利用训练得到的语音提取模型,对所述测试样本数据中的测试目标语音信号进行提取,再将提取得到的测试目标语音信号与所述验证样本数据进行比对。

9.根据权利要求7所述的一种壮语音频提取方法,其特征在于:语音分离网络中的向导模块用于根据向导语音和混合语音样本数据的比对结果输出权重值,分离模块用于获取目标语音的高维映射;所述解码器用于对数据进行解码得到目标语音。

10.根据权利要求7所述的一种壮语音频提取方法,其特征在于:对单通道语音信号进行提取,进而能够在后续过程中对提取到的语音进行语音识别等利用,改善了用户的使用体验。

...

【技术特征摘要】

1.一种壮语音频提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种壮语音频提取方法,其特征在于:在所述步骤四中第二文本对应的时间轴c包括多个时间段,多个时间段用于一次性截取出多个最终音频。

3.根据权利要求1所述的一种壮语音频提取方法,其特征在于:在所述步骤三中目标音频b包括目标音频1、2、3,其中一个目标音频假设为目标音频1对应多个第一文本,此时目标音频1需要被裁减,裁剪步骤位于步骤三,包括第一文本1起点对齐目标音频起点,输入第一文本1终点,得到第二文本1,第一文本2起点对齐输入第一文本1终点,输入第一文本2终点,得到第二文本2,第一文本n起点对齐输入第一文本n-1终点,输入第一文本n终点,得到第二文本n目标音频1裁剪完毕。

4.根据权利要求1所述的一种壮语音频提取方法,其特征在于:步骤三中目标音频b包括目标音频1、2、3,至少目标音频1、2、3中的一者包含不良语句,所述不良语句类型包括倒装句,将包含不良语句目标音频单独剪切,目标音频1、2、3都可能含有不良语句,如果目标音频1包含不良语句则单独剪出目标音频1,并标记。

5.根据权利要求1所述的一种壮语音频提取方法,其特征在于:建立倒转结构语音库,在步骤三中目标音频b包括目标音频1、2、3,至少目标音频1、2、3其中一者包含倒转结构,将包含倒转结构的目标音频单独剪出。

6.根据权利要求5所述的一种壮语音频提取方法,其特征在于:建立倒转结...

【专利技术属性】
技术研发人员:张学军黄敏范泽平李菲李锋韦东云
申请(专利权)人:广西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1