System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于气流量估计的语音分离方法技术_技高网

一种基于气流量估计的语音分离方法技术

技术编号:40111281 阅读:9 留言:0更新日期:2024-01-23 19:12
本发明专利技术属于数字音频处理技术领域,具体提供一种基于气流量估计的语音分离方法,用以解决现有方法在低谐波成分场景下的分离准确度降低的问题。本发明专利技术对讲话人的声门气流量和语音谐波成分进行估计,在此基础上,以帧为单位对谐波帧的气流量进行抑制,从而生成气流量特征,弥补了低谐波成分场景下传统方法在音频表征能力上的不足,将气流量特征和原音频数据进行拼接,形成新的训练和测试样本,从而在提高非谐波语音分离准确性的同时,也保持了传统方法对正常语音的分离效果。

【技术实现步骤摘要】

本专利技术属于数字音频处理,具体提供一种基于气流量估计的语音分离方法


技术介绍

1、在电话、视频会议中常常出现有多个讲话人同时发声的情况,语音分离的目标是从同时有多个人讲话的语音音频中分离出单个讲话人的音频,语音分离通常用于提高语音识别、情感分析等任务的性能。

2、目前,语音分离方法主要分为传统方法和深度学习方法,传统方法依赖于声源定位和波束形成等技术进行分离,深度学习方法分为基于频谱图的方法和基于音频时间序列的方法两类。深度学习方法较传统方法在分离效果上有了较大的提升,然而,无论是传统、还是深度学习的语音分离方法都针对讲话人正常发声的一般场景进行设计;语音分离方法均基于语音中的谐波成分进行分析和建模,在某些特殊场景,比如讲话人有意压低声音或在气喘,语音中的谐波成分偏低时,现有的方法的音频表征能力不足,分离准确性明显下降。因此,需要研究在谐波成分偏低的场景下,提高语音分离准确性的方法。


技术实现思路

1、本专利技术的目的在于提供一种基于气流量估计的语音分离方法,用以解决现有方法在低谐波成分场景下的分离准确度降低的问题。

2、为实现上述目的,本专利技术采用的技术方案为:

3、一种基于气流量估计的语音分离方法,包括:模型构建与语音分离,其特征在于:

4、所述模型构建包括以下步骤:

5、a1.构建气流量特征:设共有m个音频参与训练,每个音频均包含单个讲话人的声音,且具有相同的音频样点数k,对每一个音频作如下处理:

6、a1-1.估计气流量:将输入音频c输入到声门气流量估计模型中,得到该音频对应的气流量估计序列w;

7、a1-2.估计谐波成分:

8、将音频数据按固定长度划分为各音频帧,相邻帧部分重叠,得到i个音频帧;

9、定义长度为i的谐波成分数组h,对音频的每一个音频帧作:将音频帧i输入到基频估计算法中,得到该音频帧的基频成分;若该音频帧不存在基频成分,则置h的第i个元素h[i]为1,否则,置h的第i个元素h[i]为0,1≤i≤i;

10、a1-3.生成气流量特征:

11、定义长度为k的气流量特征数组f,计算气流量特征:

12、f[k]=w[k]·h[z],1≤k≤k

13、其中,f[k]表示第k个音频样点的气流量特征,w[k]表示第k个音频样点对应的气流量估计值,z为第k个音频样点对应的帧编号,h[z]表示谐波成分数组h的第z个元素值;

14、a2.生成训练样本:

15、a2-1.从训练音频中一次随机选择n个音频组成一组,共选择p次,形成p组音频;

16、a2-2.对每一组音频作如下处理:

17、对音频组第n个音频的数据进行归一化,得到归一化的音频数据序列cn,1≤n≤n;

18、对音频组第n个音频的气流量特征数组f的元素进行归一化,得到归一化的气流量特征数据序列fn;

19、将fn与cn拼接得到组合特征tn,tn=[cn fn];

20、将组内所有音频的组合特征tn进行矢量相加,得到该音频组p对应的训练样本xp:

21、xp=t1+t2+……+tn,1≤p≤p

22、a3.训练语音分离模型:将生成的训练样本xp输入到语音分离模型中进行训练,采用反向传播算法完成训练;

23、所述语音分离包括以下步骤:

24、b1.构建气流量特征:设测试音频c'为包含n个讲话人的混合声音,音频样点数为k;根据测试音频生成气流量特征:

25、b1-1.估计气流量:按步骤a1-1,得到测试音频c'对应的气流量估计序列w';

26、b1-2.估计谐波成分:按步骤a1-2,得到测试音频c'的谐波成分数组h';

27、b1-3.生成气流量特征:按步骤a1-3,得到测试音频c'的气流量特征数组f';

28、b2.生成测试样本:

29、b2-1.对测试音频c'的数据进行归一化,得到归一化的音频数据序列c';

30、b2-2.对测试音频c'的气流量特征数组f'的元素进行归一化,得到归一化的气流量特征数据序列f';

31、b2-3.将f'与c'拼接得到测试样本x',x'=[c'f'];

32、b3.语音分离:将测试样本x'输入到语音分离模型中进行分离,得到n个讲话人各自的单独语音。

33、基于上述技术方案,本专利技术的有益效果在于:

34、本专利技术提供一种基于气流量估计的语音分离方法,该方法对讲话人的声门气流量和语音谐波成分进行估计,在此基础上,以帧为单位对谐波帧的气流量进行抑制,从而生成气流量特征,弥补了低谐波成分场景下传统方法在音频表征能力上的不足,将气流量特征和原音频数据进行拼接,形成新的训练和测试样本,从而在提高非谐波语音分离准确性的同时,也保持了传统方法对正常语音的分离效果。

本文档来自技高网...

【技术保护点】

1.一种基于气流量估计的语音分离方法,包括:模型构建与语音分离,其特征在于:

【技术特征摘要】

1.一种基于气流量估计的语音分离方法,...

【专利技术属性】
技术研发人员:甘涛吴嘉鑫罗瑜何艳敏
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1