用以估计失真程度的方法及系统技术方案

技术编号：37506331 阅读：31 留言：0更新日期：2023-05-07 09:43

一种包含存储器及处理器的系统。存储器被配置以储存机器学习(ML)模型。处理器被配置以(i)取得多个训练音频信号，上述训练音频信号的每一个标注失真程度，(ii)将训练音频信号分别转换为第一图像，(iii)训练ML模型基于第一图像估计失真程度，(iv)接收输入音频信号(v)将输入音频信号转换为第二图像，以及(vi)通过将第二图像应用于ML模型估计失真程度。将第二图像应用于ML模型估计失真程度。将第二图像应用于ML模型估计失真程度。

全部详细技术资料下载

【技术实现步骤摘要】
用以估计失真程度的方法及系统

[0001]本专利技术是关于音频信号(audio signal)，特别是关于用以进行音频信号纯度(purity)量化(quantification)的方法及系统。

技术介绍

[0002]通常来说，若是音频系统的输入信号与作为系统本身的副产物(by
‑
product)所加入的音频假影(audio artefact)之间的比例维持在最小的话，音频系统就会被认为是“高品质的”。音频假影可分为噪声(noise)、非谐波失真(non
‑
harmonic distortion)以及谐波失真(harmonic distortion)。检测并量化音频假影对于设计更好的系统及提供自动调谐(automatic
‑
tuning)系统的实时(real
‑
time)控制来说都是有需要的。
[0003]检测音频信号中的失真的技术先前已经在专利文件中提出过了。举例来说，美国专利10,559,316描述了在音频系统中提供失真检测、失真预防，及/或失...

【技术保护点】

【技术特征摘要】
1.一种用以估计失真程度的系统，其特征在于，包括：一存储器，被配置以储存一机器学习模型；以及一处理器，被配置以：取得多个训练音频信号，所述多个训练音频信号的每一个被标注一失真程度；将所述多个训练音频信号分别转换为多个第一图像；训练所述机器学习模型基于从所述多个第一图像估计所述多个训练音频信号的所述失真程度；接收一输入音频信号；将所述输入音频信号转换为一第二图像；以及将所述第二图像应用于所训练过的所述机器学习模型，以估计所述输入音频信号的失真程度。2.一种用以估计失真程度的系统，其特征在于，包括：一存储器，被配置以储存一机器学习模型；以及一处理器，被配置以：取得多个初始音频信号，所述多个初始音频信号具有在一第一时间长度范围内的第一时间长度，并且所述多个初始音频信号的每一个被标注一失真程度；将所述多个初始音频信号切割成具有在一第二时间长度范围内的第二时间长度的多个片段，所述第二时间长度小于所述第一时间长度，以便产生多个训练音频信号；训练所述机器学习模型基于所述多个训练音频信号估计所述多个训练音频信号的所述失真程度；接收具有在所述第二时间长度范围内的一时间长度的一输入音频信号；以及将所述输入音频信号应用于所训练过的所述机器学习模型，估计所述输入音频信号的所述失真程度。3.如权利要求1所述的用以估计失真程度的系统，其特征在于，所述处理器被配置以通过设定一给定的图像的多个像素的值以表示一给定的训练音频信号的振幅对时间的一函数，将所述给定的训练音频信号转换为所述给定的图像。4.如权利要求1或2所述的用以估计失真程度的系统，其特征在于，所述多个第一图像及所述第二图像是二维(2D)的。5.如权利要求1或2所述的用以估计失真程度的系统，其特征在于，所述多个第一图像及所述第二图像是三维或更多维的。6.如权利要求1所述的用以估计失真程度的系统，其特征在于，所述处理器被配置以通过(i)接收具有第一时间长度的多个初始音频信号，以及(ii)将所述初始音频信号切割成具有第二时间长度的多个片段，所述第二时间长度小于所述第一时间长度，而取得所述多个训练音频信号，以便于产生所述多个训练音频信号。7.如权利要求1或2所述的用以估计失真程度的系统，其特征在于，所述机器学习模型包含一卷积神经网络(CNN)或一生成对抗网络(GAN)。8.如权利要求1或2所述的用以估计失真程度的系统，其特征在于，所述输入音频信号来自非线性音频处理电路。9.如权利要求1或2所述的用以估计失真程度的系统，其特征在于，所述机器学习模型
根据所述多个训练音频信号所标注的所述失真程度，将所述失真程度进行分类。10.如权利要求1或2所述的用以估计失真程度的系统，其特征在于，所述机器学习模型使用回归估计所述失真程度。11.如权利要求1或2所述的用以估计失真程度的系统，其特征在于...

【专利技术属性】
技术研发人员：艾塔，
申请(专利权)人：新唐科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人