一种基于多源语音数据的语音对齐方法技术

技术编号:30079813 阅读:13 留言:0更新日期:2021-09-18 08:36
本发明专利技术公开了一种基于多源语音数据的语音对齐方法,属于语音处理领域,涉及语音对齐技术,用于通过语音对齐方法将起始点拉齐,实现各语音数据的对齐,避免人工对齐的方式花费大量的时间和处理效率、对齐准确率较低的问题;步骤一:通过语音采集模块对同一声源进行不同位置的语音数据采集,并将采集获取的声源的语音数据发送至语音处理模块;通过语音处理模块对多个语音采集模块发送的语音数据进行处理;并将处理完成的语音数据发送至语音分析模块;通过语音分析模块对处理完成后的语音数据进行语音对齐;并将对齐的语音数据发送至语音组合模块;通过语音组合模块将对齐后的语音数据进行语音组合。数据进行语音组合。数据进行语音组合。

【技术实现步骤摘要】
一种基于多源语音数据的语音对齐方法


[0001]本专利技术属于语音处理领域,涉及语音对齐技术,具体是一种基于多源语音数据的语音对齐方法。

技术介绍

[0002]一般来说,针对同一录音场景下的同一发音人的语音,需要利用多个路基设备进行语音数据的采集,而不同的录音设备所采集到的语音数据的采集起始点无法保证完全一致。因此,为了保证多个录音设备多采集到的各语音数据的采集起始点的一致性,也为了便于对这些语音数据进行合成等后续处理,如何对语音进行对齐成为技术问题。
[0003]在现有技术中,一般是通过人工的方式对语音数据进行对齐操作的。举例来说,在面对不同采集起始点的语音数据时,技术人员需要人工比对各语音数据的音波,并将起始点拉齐,以实现各语音数据的对齐。而采用人工对齐的处理方法需要花费大量的时间,处理效率和对齐准确率都很低,也不利于对大数据量的语音数据的处理。
[0004]为此,提出一种基于多源语音数据的语音对齐方法。

技术实现思路

[0005]本专利技术提供了一种基于多源语音数据的语音对齐方法,用于通过语音对齐方法将起始点拉齐,实现各语音数据的对齐,避免人工对齐的方式花费大量的时间和处理效率、对齐准确率较低的问题。通过语音采集模块对同一声源进行不同位置的语音数据采集,并将采集获取的声源的语音数据发送至语音处理模块;通过语音处理模块对多个语音采集模块发送的语音数据进行处理;并将处理完成的语音数据发送至语音分析模块;通过语音分析模块对处理完成后的语音数据进行语音对齐;并将对齐的语音数据发送至语音组合模块;语音分析模块将获取的单帧语音数据的数据特征系数TZij根据不同的帧数和不同的语音采集模块进行数据排列,语音分析模块任意选取其中一个数据采集模块采集的语音数据作为基准语音数据;将单帧语音数据的数据特征系数除以前一单帧语音数据的数据特征系数即TZij/TZij

1;将得到的商作为对比数值,并标记为Dij;采用同样的方式对其余的单帧语音数据进行处理,获取不同的对比数值;将不同的对比数值组合成为不同的数列,将不同的对比数值组合成为不同的数列,将不同数列中的Dij分别与基准数列中的Dij进行对比,当存在连续超过10位对比数值一致或是对比数值的商在(0.95

1.05)之内时,则表示单帧语音数据可以采用,并将采用的单帧语音数据标记为待对齐单帧语音数据;通过语音组合模块将对齐后的语音数据进行语音组合。
[0006]本专利技术的目的可以通过以下技术方案实现:
[0007]一种基于多源语音数据的语音对齐方法,包括基于多源语音数据的语音对齐系统,包括语音采集模块、语音分析模块、语音处理模块以及语音组合模块,所述语音采集模块具有多个,分别位于声源的周围,所述语音采集模块用于对同一声源进行不同位置的语音数据进行采集,并将采集获取的声源的语音数据发送至语音处理模块;
[0008]所述语音处理模块用于对多个语音采集模块发送的语音数据进行处理;并将处理完成的语音数据发送至语音分析模块;
[0009]所述语音分析模块用于对处理完成后的语音数据进行语音对齐;并将对齐的语音数据发送至语音组合模块;
[0010]所述语音组合模块将对齐后的语音数据进行语音组合。
[0011]需要说明的是,所述语音采集模块具体为一些带有录音功能的设备或者是麦克风;所述语音采集模块分布在声源的周围,并与声源之间存在不同的空间距离,且默认语音采集模块为同种设备;
[0012]若干所述语音采集模块将采集的语音数据发送至语音处理模块;
[0013]所述语音处理模块将若干语音采集模块进行编号,标记为i,其中i表示语音采集模块的数字编号;i=1,2
……
n;
[0014]语音处理模块获取语音采集模块距离声源的空间直线距离,并将语音采集模块距离声源的空间直线距离标记为Li;
[0015]语音处理模块获取语音数据,将语音数据进行处理成为单帧语音数据,并将单帧语音数据进行解码拆分,获取振幅值、频率值,并分别将振幅值以及频率值标记为Zfij、Plij;其中j表示单帧语音数据的数字编号,j=1,2
……
m;
[0016]语音处理模块利用计算公式计算出单帧语音数据的数据特征系数TZij,其中计算公式为其中c为比例系数,c与声源的音色有关;
[0017]语音处理模块将计算得出的单帧语音数据的数据特征系数TZij发送至语音分析模块;
[0018]所述语音分析模块用于对单帧语音数据的数据特征系数TZij进行分析,具体的分析过程包括以下:
[0019]语音分析模块获取语音采集模块距离声源的空间直线距离Li;语音分析模块获取单帧语音数据的数据特征系数TZij;
[0020]语音分析模块将获取的单帧语音数据的数据特征系数TZij根据不同的帧数和不同的语音采集模块进行数据排列,排列的形式如下:
[0021]TZ11、TZ12、TZ13、TZ14、TZ15
……
TZ1m;
[0022]TZ21、TZ22、TZ23、TZ24、TZ25
……
TZ2m;
[0023]……
[0024]TZn1、TZn2、TZn3、TZn4、TZn5
……
TZnm;
[0025]需要说明的是,针对不同的语音采集模块,采集的不同的语音数据进行处理为单帧语音数据时,单帧语音数据的总量可能会存在差异,即对不同的语音采集模块m的值会存在不同;
[0026]其中语音分析模块任意选取其中一个数据采集模块采集的语音数据作为基准语音数据;将单帧语音数据的数据特征系数除以前一单帧语音数据的数据特征系数即TZij/TZij

1;将得到的商作为对比数值,并标记为Dij;
[0027]采用同样的方式对其余的单帧语音数据进行处理,获取不同的对比数值;
[0028]将不同的对比数值组合成为不同的数列,即基准数列、数列1、数列2
……
数列n

1;
[0029]D11、D12、D13、D14、D15
……
D1m

1;(基准数列)
[0030]D21、D22、D23、D24、D25
……
D2m

1;(数列1)
[0031]……
[0032]Dn1、Dn2、Dn3、Dn4、Dn5
……
Dnm

1;(数列n

1)
[0033]将数列1、数列2
……
数列n

1中的Dij分别与基准数列中的Dij进行对比,当存在连续超过10位对比数值一致或是对比数值的商在(0.95

1.05)之内时,则表示单帧语音数据可以采用,并将可以采用的单帧语音数据标记为待对齐单帧语音数据;
[0034]语音分析模块将待对齐单帧语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源语音数据的语音对齐方法,其特征在于,该方法包括以下步骤:步骤一:通过语音采集模块对同一声源进行不同位置的语音数据采集,并将采集获取的声源的语音数据发送至语音处理模块;步骤二:通过语音处理模块对多个语音采集模块发送的语音数据进行处理;并将处理完成的语音数据发送至语音分析模块;步骤三:通过语音分析模块对处理完成后的语音数据进行语音对齐;并将对齐的语音数据发送至语音组合模块;语音分析模块将获取的单帧语音数据的数据特征系数TZij根据不同的帧数和不同的语音采集模块进行数据排列,语音分析模块任意选取其中一个数据采集模块采集的语音数据作为基准语音数据;将单帧语音数据的数据特征系数除以前一单帧语音数据的数据特征系数即TZij/TZij

1;将得到的商作为对比数值,并标记为Dij;采用同样的方式对其余的单帧语音数据进行处理,获取不同的对比数值;将不同的对比数值组合成为不同的数列,将不同的对比数值组合成为不同的数列,将不同数列中的Dij分别与基准数列中的Dij进行对比,当存在连续超过10位对比数值一致或是对比数值的商在(0.95

1.05)之内时,则表示单帧语音数据可以采用,并将采用的单帧语音数据标记为待对齐单帧语音数据;步骤四:通过语音组合模块将对齐后的语音数据进行语音组合。2.根据权利要求1所述的一种基于多源语音数据的语音对齐方法,其特征在于,所述语音采集模块具体为一些带有录音功能的设备;所述语音采集模块分布在声源的周围,并与声源之间...

【专利技术属性】
技术研发人员:李天洋胡环环朱保龙
申请(专利权)人:合肥群音信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1