一种基于多线程的音频格式转换方法及系统技术方案

技术编号：39953708 阅读：5 留言：0更新日期：2024-01-08 23:30

本发明专利技术公开了一种基于多线程的音频格式转换方法及系统，导入音频文件并选择转换参照体；基于转换参照体的初始音频格式和目标音频格式对音频文件分类，并选择神经网络学习模型，转换参照体按照固定的输出参数进行分段格式转换；获取转换参照体的分段质量评定结果，基于质量评定结果调整神经网络学习模型，直至分段质量评定结果符合数学期望；启动对初始音频文件的音频格式转换；对音频文件分段，依次按照神经网络学习实时模型对当前分段的音频片段进行格式转换，提前根据下一个片段的音频规格参数确定调整输出参数；本发明专利技术仅在音频文件进行格式转换前生成关于输出参数的学习规则，按照学习规则分段调整输出参数，从而提高整个转换效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频格式转换的，具体涉及一种基于多线程的音频格式转换方法及系统。

技术介绍

1、音频格式转换是指将一种音频格式转换成另一种格式的过程，通常是为了让不同设备或软件能够播放、编辑或处理音频文件。音频格式转换的原理是将不同格式的音频文件解码成一个中间格式，然后再重新编码成目标格式。

2、常见的音频格式具有不同的特点，例如压缩比例、声音质量、文件大小等。因此，选择合适的音频格式是非常重要的，可以根据不同的需求选择不同的格式。

3、现有的音频格式转换方法大多为针对该音频文件选择固定的输出参数，由于音频文件中的音频规格参数并不是一成不变完全相同的，而是根据不同时段变化的，导致音频文件转换音频格式后存在质量受损的问题。

技术实现思路

1、本专利技术的目的在于提供一种基于多线程的音频格式转换方法及系统，以解决现有技术中针对该音频文件选择固定的输出参数，导致音频文件转换音频格式后存在质量受损的问题的技术问题。

2、为解决上述技术问题，本专利技术具体提供下述技术方案：

3、一种基于多线程的音频格式转换方法，包括以下步骤：

4、步骤100、导入音频文件并识别音频文件的初始音频格式，基于每个所述音频文件的初始音频格式以及每个所述音频文件的目标音频格式将不同的所述音频文件进行归类；

5、步骤200、基于所述转换参照体的初始音频格式和目标音频格式选择神经网络学习模型，对导入的所述音频文件选择性截取形成转换参照体，所述神经网络

6、步骤300、对已经转换为目标音频格式的所述转换参照体进行质量认证评分，基于评分结果以及所述转换参照体携带的音频规格参数调整所述神经网络学习模型，建立所述音频规格参数与所述神经网络学习模型之间的关联关系，生成与不同组所述音频规格参数一一对应的神经网络学习实时模型，以实时调整输出参数，直至评分结果符合期望；

7、步骤400、启动对初始的音频文件的音频格式转换，获取每个最大音频片段的音频规格参数，所述神经网络学习实时模型预先根据下一片段的所述音频分段的音频规格参数对应调整所述输出参数，直至每个所述音频文件均转换至对应的目标格式。

8、作为本专利技术的一种优选方案，在步骤200中，所述神经网络学习模型为预先保存的，基于初始音频格式和目标音频格式之间的转换关系来初步选择神经网络学习模型，所述神经网络学习模型基于初始音频格式对应的通用音频规格参数来统一调整所述输出参数。

9、作为本专利技术的一种优选方案，在所述步骤200中，对导入的所述音频文件选择性截取形成转换参照体的实现步骤为：

10、对导入的所述音频文件进行解析，并将所述音频文件依次截取形成多个音频分子，获取每个所述音频分子的音频规格参数；

11、选择具有不同组合形态所述音频规格参数的音频分子组成转换参照体，其中，所述转换参照体为处于所述音频文件中的不同时长的所述音频分子组合而成。

12、作为本专利技术的一种优选方案，所述音频规格参数包括音频、采样频率、采样位数、通道数和比特率；

13、所述输出参数包括输出通道数和编码格式；

14、所述音频格式包括mp3、wav、aac、flac、ogg。

15、作为本专利技术的一种优选方案，在步骤300中，对已经转换为目标格式的所述转换参照体进行质量认证评分的具体实现步骤为：

16、将所述转换参照体重新按照音频规格参数的组合形式拆解为多个音频分子；

17、所述神经网络学习模型依次对每个所述音频分子调整输出参数，同时获取每个所述音频分子的音频规格参数；

18、分别对已经转换为目标音频格式的每个所述音频分子进行质量认证评分，得到多个音频分子的评分结果；

19、先选取评分结果差异大的所述音频分子的音频规格参数，形成第一数据集，将第一数据集导入所述神经网络学习模型中进行多次训练以调整所述输出参数，直至所述评分结果低的所述音频分子转换为目标音频格式后的评分结果满足数学期望；

20、再选取评分结果差异小的所述音频分子的音频规格参数，形成第二数据集，将第二数据集导入所述神经网络学习模型中进行测试，利用所述音频分子重新转换为目标音频格式后的评分结果验证调整后的所述输出参数的稳定性。

21、作为本专利技术的一种优选方案，建立所述音频分子的音频规格参数与所述神经网络学习实时模型之间的关联关系，形成学习规则，且基于学习规则和所述音频分子的音频规格参数调整所述输出参数，直至所述转换参照体中的每个所述音频分子的评分结果都满足数学期望；

22、其中，所述神经网络学习实时模型的输入值为所述音频规格参数，所述神经网络学习实时模型的输出值为所述输出参数。

23、作为本专利技术的一种优选方案，对已经转换为目标格式的所述转换参照体进行质量认证评分的实现模型为：利用pesq建立仿真人耳的听觉模型，来预测听者对已经转换为目标音频格式的所述转换参照体的音频质量的主观评分；

24、其中，评分范围从-0.5到4.5，评分分数越高表示音频质量越高，用于评估经过音频格式转换后的音频质量。

25、作为本专利技术的一种优选方案，在步骤100至步骤300中，初始的音频文件暂停音频格式转换，对组合形成的转换参照体进行音频规格转换试验；

26、在所述步骤400，基于获取的不同音频规格参数对应调整输出参数的学习规则，启动对初始的音频文件的音频格式转换。

27、作为本专利技术的一种优选方案，启动对初始的音频文件的音频格式转换的具体实现步骤为：

28、按照抓取频率获取设定时长音频的音频规格参数，按照匹配不同的所述神经网络学习实时模型为标准，将所述设定时长音频划分成不同的音频片段；

29、利用所述神经网络学习实时模型基于当前所述音频片段的音频规格参数调整输出参数；

30、基于下一个所述音频片段的音频规格参数以及学习规则，提前确定所述神经网络学习实时模型的调整目标，以提前确定下一个所述音频片段对应的输出参数的调整模式，以对下一个所述音频片段进行及时的音频格式转换。

31、为解决上述技术问题，本专利技术还进一步提供下述技术方案：一种基于多线程的音频格式转换方法的音频格式转换系统，包括：

32、初始音频分类单元，用于根据接收到的初始音频文件的初始音频格式和目标转换格式，对初始音频文件进行分类；

33、初始音频截取单元，用于标记初始音频文件的音频规格参数，基于所述初始音频文件的音频规格参数的差异，从初始音频文件中选择性截取一段音频作为转换参照体；

34、神经网络学习模型，与不同分类的音频文件一一对应，且根据每个所述转换参照体对应的初始的音频格式以及目标转换格式选择所述神经网络学习模型，每个所述神经网络学习模型基于初始的音频格式以及目标转换格本文档来自技高网...

【技术保护点】

1.一种基于多线程的音频格式转换方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多线程的音频格式转换方法，其特征在于，

3.根据权利要求1或2所述的一种基于多线程的音频格式转换方法，其特征在于，

4.根据权利要求3所述的一种基于多线程的音频格式转换方法，其特征在于，

5.根据权利要求3所述的一种基于多线程的音频格式转换方法，其特征在于，

6.根据权利要求5所述的一种基于多线程的音频格式转换方法，其特征在于，

7.根据权利要求6所述的一种基于多线程的音频格式转换方法，其特征在于，

8.根据权利要求6所述的一种基于多线程的音频格式转换方法，其特征在于，

9.根据权利要求8所述的一种基于多线程的音频格式转换方法，其特征在于，

10.一种基于权利要求1-9任一项所述的多线程的音频格式转换方法的音频格式转换系统，其特征在于，包括：

【技术特征摘要】

1.一种基于多线程的音频格式转换方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多线程的音频格式转换方法，其特征在于，

3.根据权利要求1或2所述的一种基于多线程的音频格式转换方法，其特征在于，

4.根据权利要求3所述的一种基于多线程的音频格式转换方法，其特征在于，

5.根据权利要求3所述的一种基于多线程的音频格式转换方法，其特征在于，

6.根据权...

【专利技术属性】
技术研发人员：黄泽杰，
申请(专利权)人：江下信息科技惠州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人