用以估计失真程度的方法及系统技术方案

技术编号:37506331 阅读:17 留言:0更新日期:2023-05-07 09:43
一种包含存储器及处理器的系统。存储器被配置以储存机器学习(ML)模型。处理器被配置以(i)取得多个训练音频信号,上述训练音频信号的每一个标注失真程度,(ii)将训练音频信号分别转换为第一图像,(iii)训练ML模型基于第一图像估计失真程度,(iv)接收输入音频信号(v)将输入音频信号转换为第二图像,以及(vi)通过将第二图像应用于ML模型估计失真程度。将第二图像应用于ML模型估计失真程度。将第二图像应用于ML模型估计失真程度。

【技术实现步骤摘要】
用以估计失真程度的方法及系统


[0001]本专利技术是关于音频信号(audio signal),特别是关于用以进行音频信号纯度(purity)量化(quantification)的方法及系统。

技术介绍

[0002]通常来说,若是音频系统的输入信号与作为系统本身的副产物(by

product)所加入的音频假影(audio artefact)之间的比例维持在最小的话,音频系统就会被认为是“高品质的”。音频假影可分为噪声(noise)、非谐波失真(non

harmonic distortion)以及谐波失真(harmonic distortion)。检测并量化音频假影对于设计更好的系统及提供自动调谐(automatic

tuning)系统的实时(real

time)控制来说都是有需要的。
[0003]检测音频信号中的失真的技术先前已经在专利文件中提出过了。举例来说,美国专利10,559,316描述了在音频系统中提供失真检测、失真预防,及/或失真感知低音增强(distortion

aware bass enhancement in audio systems)的系统及方法,能够在多种应用中执行。检测电路能够基于输入信号产生统计(statistic),并为输入信号产生声音的(acoustic)输出。在一些实施例中,上述检测电路可以在扬声器(speaker)的输出使用从机器学习(machine learning)、统计学习(statistical learning)、预测学习(predictive learning),或是人工智能(artificial intelligence(AI))中选择的技术,计算对应于失真的似然(likelihood)或是令人厌恶的(objectionable)、能够感知的(perceptible),或是能够测量(measurable)的失真程度的软指标(soft indicator)。

技术实现思路

[0004]本专利技术的实施例提供一种用以估计失真程度的系统,包含一存储器及一处理器。上述存储器被配置以储存一机器学习(ML)模型。上述处理器被配置以(i)取得多个训练音频信号,上述多个训练音频信号的每一个被标注(label)一失真程度;(ii)将上述多个训练音频信号分别转换为第一图像(image);(iii)训练上述机器学习模型基于从上述第一图像估计上述多个训练音频信号的上述失真程度;(iv)接收一输入音频信号;(v)将上述输入音频信号转换为一第二图像;以及(vi)将上述第二图像应用于训练过的上述机器学习模型,以估计上述输入音频信号的失真程度。
[0005]在一些实施例中,上述失真程度为总谐波失真(Total Harmonic Distortion(THD))的程度。
[0006]在一些实施例中,上述处理器被配置以通过设定一给定图像的多个像素(pixel)的值以表示一给定训练音频信号的振幅(amplitude)对时间的函数,将上述给定的训练音频信号转换为上述给定的图像。
[0007]在一些实施例中,上述多个第一图像及上述第二图像是二维(two

dimensional(2D))的。
[0008]在一些实施例中,上述多个第一图像及上述第二图像是三维或更多维的。
[0009]在一些实施例中,上述处理器被配置以通过(i)接收具有第一时间长度的多个初始音频信号;以及(ii)将上述初始音频信号切割成具有第二时间长度的多个片段(slice),上述第二时间长度小于上述第一时间长度,取得上述多个训练音频信号,以便于产生上述多个训练音频数据。
[0010]在一些实施例中,上述机器学习模型包含一卷积神经网络(convolutional neural network(CNN))。
[0011]在一些实施例中,上述机器学习模型包含一生成对抗网络(generative adversary network(GAN))。
[0012]在一些实施例中,上述输入音频信号是从非线性音频处理电路(nonlinear audio processing circuitry)接收的。
[0013]在一些实施例中,上述机器学习模型根据上述多个训练音频信号所标注的上述失真程度,将上述失真程度进行分类。
[0014]在其他实施例中,上述机器学习模型使用回归估计上述失真程度。
[0015]在一些实施例中,上述处理器更被配置以使用估计出的上述输入音频信号的上述失真程度来控制产生上述输入音频信号的一音频系统。
[0016]另外,根据本专利技术的其他实施例提供一种用以估计失真程度的系统,包含一存储器及一处理器。上述存储器被配置以储存一机器学习(ML)模型。上述处理器被配置以(i)取得多个初始音频信号,上述多个初始音频信号具有在一第一时间长度范围内的第一时间长度,并且上述多个初始音频信号的每一个被标注一失真程度;(ii)将上述多个初始音频信号切割成具有在第二时间长度范围内的第二时间长度的多个片段,上述第二时间长度小于上述第一时间长度,以便产生多个训练音频信号;(iii)训练上述机器学习模型基于上述多个训练音频信号估计上述多个训练音频信号的上述失真程度;(iv)接收具有在上述第二时间长度范围内的一时间长度的一输入音频信号;以及(v)将上述输入音频信号应用于训练过的上述机器学习模型,估计上述输入音频信号的上述失真程度。
[0017]在一些实施例中,上述处理器被配置以通过(i)将上述多个训练音频信号分别转换为多个第一图像;以及(ii)训练上述机器学习模型根据上述多个第一图像估计上述多个训练音频信号的上述失真程度,以训练上述机器学习(M L)模型。
[0018]在一些实施例中,上述处理器被配置以通过(i)将上述输入音频信号转换为一第二图像;以及(ii)将上述第二图像应用于训练过的上述机器学习模型,以估计上述输入音频信号的上述失真程度。
[0019]在一些实施例中,上述多个第一图像是二维(2D)的。
[0020]在一些实施例中,上述多个第一图像是三维或更多维的。
[0021]另外,根据本专利技术的其他实施例提供一种用以估计失真程度的方法,包含取得多个训练音频信号,上述多个训练音频信号的每一个被标注一失真程度。将上述多个训练音频信号分别转换为多个第一图像。训练一机器学习(ML)模型基于上述多个第一图像估计上述多个训练音频信号的上述失真程度。接收一输入音频信号。将上述输入音频信号转换为一第二图像。将上述第二图像应用于训练过的上述机器学习模型,估计上述输入音频信号的上述失真程度。
[0022]另外,根据本专利技术的其他实施例提供一种用以估计失真程度的方法,包含取得多
个初始音频信号,上述多个初始音频信号具有在第一时间长度范围内的第一时间长度,并且上述多个初始音频信号的每一个被标注一失真程度。将上述多个初始音频信号切割成具有在第二时间长度范本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用以估计失真程度的系统,其特征在于,包括:一存储器,被配置以储存一机器学习模型;以及一处理器,被配置以:取得多个训练音频信号,所述多个训练音频信号的每一个被标注一失真程度;将所述多个训练音频信号分别转换为多个第一图像;训练所述机器学习模型基于从所述多个第一图像估计所述多个训练音频信号的所述失真程度;接收一输入音频信号;将所述输入音频信号转换为一第二图像;以及将所述第二图像应用于所训练过的所述机器学习模型,以估计所述输入音频信号的失真程度。2.一种用以估计失真程度的系统,其特征在于,包括:一存储器,被配置以储存一机器学习模型;以及一处理器,被配置以:取得多个初始音频信号,所述多个初始音频信号具有在一第一时间长度范围内的第一时间长度,并且所述多个初始音频信号的每一个被标注一失真程度;将所述多个初始音频信号切割成具有在一第二时间长度范围内的第二时间长度的多个片段,所述第二时间长度小于所述第一时间长度,以便产生多个训练音频信号;训练所述机器学习模型基于所述多个训练音频信号估计所述多个训练音频信号的所述失真程度;接收具有在所述第二时间长度范围内的一时间长度的一输入音频信号;以及将所述输入音频信号应用于所训练过的所述机器学习模型,估计所述输入音频信号的所述失真程度。3.如权利要求1所述的用以估计失真程度的系统,其特征在于,所述处理器被配置以通过设定一给定的图像的多个像素的值以表示一给定的训练音频信号的振幅对时间的一函数,将所述给定的训练音频信号转换为所述给定的图像。4.如权利要求1或2所述的用以估计失真程度的系统,其特征在于,所述多个第一图像及所述第二图像是二维(2D)的。5.如权利要求1或2所述的用以估计失真程度的系统,其特征在于,所述多个第一图像及所述第二图像是三维或更多维的。6.如权利要求1所述的用以估计失真程度的系统,其特征在于,所述处理器被配置以通过(i)接收具有第一时间长度的多个初始音频信号,以及(ii)将所述初始音频信号切割成具有第二时间长度的多个片段,所述第二时间长度小于所述第一时间长度,而取得所述多个训练音频信号,以便于产生所述多个训练音频信号。7.如权利要求1或2所述的用以估计失真程度的系统,其特征在于,所述机器学习模型包含一卷积神经网络(CNN)或一生成对抗网络(GAN)。8.如权利要求1或2所述的用以估计失真程度的系统,其特征在于,所述输入音频信号来自非线性音频处理电路。9.如权利要求1或2所述的用以估计失真程度的系统,其特征在于,所述机器学习模型
根据所述多个训练音频信号所标注的所述失真程度,将所述失真程度进行分类。10.如权利要求1或2所述的用以估计失真程度的系统,其特征在于,所述机器学习模型使用回归估计所述失真程度。11.如权利要求1或2所述的用以估计失真程度的系统,其特征在于...

【专利技术属性】
技术研发人员:艾塔
申请(专利权)人:新唐科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1