一种AIGC模型的语音数据处理方法及系统技术方案

技术编号：41154017 阅读：3 留言：0更新日期：2024-04-30 18:19

本发明专利技术公开了一种AIGC模型的语音数据处理方法及系统，方法包括：对原始语音数据进行声谱动态映射处理，以匹配预设AIGC模型；将处理后的语音数据分割成多个语音样本，并提取每个语音样本的声学特征；对提取的声学特征进行熵值计算，得到熵声纹；根据所述熵声纹对语音样本进行归类，将归类后的语音样本通过所述预设AIGC模型，生成目标语音内容。利用本发明专利技术实施例，能够更全面地分析和处理语音数据，改善声学特征提取的多维性和多样性，并且能够增强AIGC模型生成语音的自然度和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，特别是一种aigc模型的语音数据处理方法及系统。

技术介绍

1、随着信息技术的快速发展，人工智能（ai）已被广泛应用于多个领域，包括自然语言处理、图像识别、数据分析和自动化控制等。特别是，在语音识别和生成领域，人工智能技术已经实现了人声与文本之间的高效转换，进而产生了人工智能生成内容（aigc）模型，该模型能够自动化生成新闻播报、虚拟助手的反馈、有声读物、语音命令交互等内容。

2、现有的语音数据处理方法，如语音识别和语音合成技术，通常包括声学模型和语言模型。声学模型负责将声音波形转换为一系列语音单元，而语言模型则负责解码语音单元序列以生成文本。然而，这些技术在处理复杂和非标准的语音环境时仍存在局限性。

3、首先，现有技术在语音数据的预处理阶段主要关注信号的降噪和增强，但往往忽视了波形中的动态变化和语音的细微特性。这会导致语音模型无法充分利用声学信息，从而影响最终生成内容的质量。其次，传统的特征提取方法通常只关注单一的特征维度，例如时域上的能量分布或频域上的频谱特征。这种单一维度的特征分析无法全面捕捉语音数据的复杂性，限制了语音合成模型在生成清晰、自然语音方面的表现力。

4、此外，目前用于训练aigc模型的数据量通常庞大，导致模型训练耗时长，计算资源消耗大。而且，现有的语音生成模型难以适应各种不同的语音样式和情感色彩，这在一定程度上阻碍了aigc技术在更多应用场景的推广。

技术实现思路

1、本专利技术的目的是提供一种aigc

2、本申请的一个实施例提供了一种aigc模型的语音数据处理方法，所述方法包括：

3、对原始语音数据进行声谱动态映射处理，以匹配预设aigc模型；

4、将处理后的语音数据分割成多个语音样本，并提取每个语音样本的声学特征；

5、对提取的声学特征进行熵值计算，得到熵声纹；

6、根据所述熵声纹对语音样本进行归类，将归类后的语音样本通过所述预设aigc模型，生成目标语音内容。

7、可选的，所述对原始语音数据进行声谱动态映射处理，包括：

8、提取原始语音数据的时频表示；

9、对所述时频表示进行动态时间弯曲调整，以匹配预设aigc模型；

10、对调整后的时频表示的各频率成分的能量分布进行谱重组。

11、可选的，所述提取每个语音样本的声学特征，包括：

12、提取并编码语音样本中的关键声学属性，结合时间域和频域的信息，以获得抽象的语音特征表示。

13、可选的，所述熵声纹的计算公式为：

14、其中，所述evp_i为熵声纹，所述f_k为第i个语音样本的第k个声学特征，所述p(f_k)为该特征的出现概率，所述k为声学特征的总数。

15、本申请的又一实施例提供了一种aigc模型的语音数据处理系统，所述系统包括：

16、映射模块，用于对原始语音数据进行声谱动态映射处理，以匹配预设aigc模型；

17、提取模块，用于将处理后的语音数据分割成多个语音样本，并提取每个语音样本的声学特征；

18、计算模块，用于对提取的声学特征进行熵值计算，得到熵声纹；

19、生成模块，用于根据所述熵声纹对语音样本进行归类，将归类后的语音样本通过所述预设aigc模型，生成目标语音内容。

20、本申请的又一实施例提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项中所述的方法。

21、本申请的又一实施例提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。

22、与现有技术相比，本专利技术提供的一种aigc模型的语音数据处理方法，通过对原始语音数据进行声谱动态映射处理，以匹配预设aigc模型；将处理后的语音数据分割成多个语音样本，并提取每个语音样本的声学特征；对提取的声学特征进行熵值计算，得到熵声纹；根据所述熵声纹对语音样本进行归类，将归类后的语音样本通过所述预设aigc模型，生成目标语音内容，从而能够更全面地分析和处理语音数据，改善声学特征提取的多维性和多样性，并且能够增强aigc模型生成语音的自然度和准确性。

本文档来自技高网...

【技术保护点】

1.一种AIGC模型的语音数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对原始语音数据进行声谱动态映射处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述提取每个语音样本的声学特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述熵声纹的计算公式为：

5.一种AIGC模型的语音数据处理系统，其特征在于，所述系统包括：

6.根据权利要求5所述的系统，其特征在于，所述映射模块，具体用于：

7.根据权利要求6所述的系统，其特征在于，所述提取模块，具体用于：

8.根据权利要求7所述的系统，其特征在于，所述熵声纹的计算公式为：

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-4中任一项所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-4中任一项所述的方法。

【技术特征摘要】

1.一种aigc模型的语音数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对原始语音数据进行声谱动态映射处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述提取每个语音样本的声学特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述熵声纹的计算公式为：

5.一种aigc模型的语音数据处理系统，其特征在于，所述系统包括：

6.根据权利要求5所述的系统，其特征在于，所述映射模块，...

【专利技术属性】
技术研发人员：纪方圆，
申请(专利权)人：北京青藤文化股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人