一种基于多源语音数据的语音对齐方法技术

技术编号：30079813 阅读：13 留言：0更新日期：2021-09-18 08:36

本发明专利技术公开了一种基于多源语音数据的语音对齐方法，属于语音处理领域，涉及语音对齐技术，用于通过语音对齐方法将起始点拉齐，实现各语音数据的对齐，避免人工对齐的方式花费大量的时间和处理效率、对齐准确率较低的问题；步骤一：通过语音采集模块对同一声源进行不同位置的语音数据采集，并将采集获取的声源的语音数据发送至语音处理模块；通过语音处理模块对多个语音采集模块发送的语音数据进行处理；并将处理完成的语音数据发送至语音分析模块；通过语音分析模块对处理完成后的语音数据进行语音对齐；并将对齐的语音数据发送至语音组合模块；通过语音组合模块将对齐后的语音数据进行语音组合。数据进行语音组合。数据进行语音组合。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多源语音数据的语音对齐方法

[0001]本专利技术属于语音处理领域，涉及语音对齐技术，具体是一种基于多源语音数据的语音对齐方法。

技术介绍

[0002]一般来说，针对同一录音场景下的同一发音人的语音，需要利用多个路基设备进行语音数据的采集，而不同的录音设备所采集到的语音数据的采集起始点无法保证完全一致。因此，为了保证多个录音设备多采集到的各语音数据的采集起始点的一致性，也为了便于对这些语音数据进行合成等后续处理，如何对语音进行对齐成为技术问题。
[0003]在现有技术中，一般是通过人工的方式对语音数据进行对齐操作的。举例来说，在面对不同采集起始点的语音数据时，技术人员需要人工比对各语音数据的音波，并将起始点拉齐，以实现各语音数据的对齐。而采用人工对齐的处理方法需要花费大量的时间，处理效率和对齐准确率都很低，也不利于对大数据量的语音数据的处理。
[0004]为此，提出一种基于多源语音数据的语音对齐方法。

技术实现思路

[0005]本专利技术提供了一种基于多源语音数据的语音对齐方法，用于通过语音对齐方法将起始点拉齐，实现各语音数据的对齐，避免人工对齐的方式花费大量的时间和处理效率、对齐准确率较低的问题。通过语音采集模块对同一声源进行不同位置的语音数据采集，并将采集获取的声源的语音数据发送至语音处理模块；通过语音处理模块对多个语音采集模块发送的语音数据进行处理；并将处理完成的语音数据发送至语音分析模块；通过语音分析模块对处理完成后的语音数据进行语音对齐；并将对齐的语音数据发送至语音组...

【技术保护点】

【技术特征摘要】
1.一种基于多源语音数据的语音对齐方法，其特征在于，该方法包括以下步骤：步骤一：通过语音采集模块对同一声源进行不同位置的语音数据采集，并将采集获取的声源的语音数据发送至语音处理模块；步骤二：通过语音处理模块对多个语音采集模块发送的语音数据进行处理；并将处理完成的语音数据发送至语音分析模块；步骤三：通过语音分析模块对处理完成后的语音数据进行语音对齐；并将对齐的语音数据发送至语音组合模块；语音分析模块将获取的单帧语音数据的数据特征系数TZij根据不同的帧数和不同的语音采集模块进行数据排列，语音分析模块任意选取其中一个数据采集模块采集的语音数据作为基准语音数据；将单帧语音数据的数据特征系数除以前一单帧语音数据的数据特征系数即TZij/TZij
‑
1；将得到的商作为对比数值，并标记为Dij；采用同样的方式对其余的单帧语音数据进行处理，获取不同的对比数值；将不同的对比数值组合成为不同的数列，将不同的对比数值组合成为不同的数列，将不同数列中的Dij分别与基准数列中的Dij进行对比，当存在连续超过10位对比数值一致或是对比数值的商在(0.95
‑
1.05)之内时，则表示单帧语音数据可以采用，并将采用的单帧语音数据标记为待对齐单帧语音数据；步骤四：通过语音组合模块将对齐后的语音数据进行语音组合。2.根据权利要求1所述的一种基于多源语音数据的语音对齐方法，其特征在于，所述语音采集模块具体为一些带有录音功能的设备；所述语音采集模块分布在声源的周围，并与声源之间...

【专利技术属性】
技术研发人员：李天洋，胡环环，朱保龙，
申请(专利权)人：合肥群音信息服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人