声音文件的音质识别方法及装置制造方法及图纸

技术编号:13980829 阅读:53 留言:0更新日期:2016-11-12 11:00
本发明专利技术涉及声音文件的音质识别方法和装置,包括:将待识别声音文件的格式转换为预先设置的基准音频格式;对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱;根据所述声音文件每一帧的频谱进行模式匹配,得到对所述声音文件的初步分类结果;根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点;以及根据所述声音文件的初步分类结果及其能量变化点确定所述声音文件的音质。通过本发明专利技术可以完成对声音文件音质的机器识别。

【技术实现步骤摘要】

本专利技术涉及声音文件的音质识别方法及装置
技术介绍
在多媒体技术不断发展的今天,承载音乐等声音文件的载体已经从原来的磁带、CD(光盘)发展到了MP3(动态影像专家压缩标准音频层面3)甚至智能终端等多种多媒体设备。同时,为了便于声音文件的传播,也出现了各种对声音进行处理的技术以及相应的音频格式。上述音频格式是指对作为模拟信号的声音进行模拟-数字转换以及其他处理后得到的可以在计算机或其他多媒体设备内播放或者处理的数字格式的文件的格式。通常对声音的模拟-数字的转换会采用脉冲编码调制(PCM)技术实现。本文中,将声音经过PCM技术处理进行模拟-数字转换后得到的音频文件称为PCM文件。对声音进行模拟-数字转换后得到的PCM文件是未经过压缩处理的原始声音文件。一般来讲,表征PCM文件的声音质量(也即音质)有两个参数:一个是采样速率;一个是采样精度。其中,采样速率表示对声音进行采样时每秒钟的采样次数,一般介于40~50KHz之间;采样精度表示对每一个采样值进行量化时的比特数,例如可以是16位。由此可以看出,一般采样速率越高、采样精度越大得到的PCM文件的音质越好,但是另一方面采样速率越高、采样精度越大得到PCM文件越大。标准的CD格式就是通过PCM得到的,其采样频率为44.1KHZ、采样精度为16位(即16位量化)。对于人耳而言,标准的CD格式音频文件的音质可以说是无损的,也即根据CD格式还原出的声音基本上是忠于原声的。例如,通常音乐人在发行音乐时一般采用CD等固态形式发行。这种音乐保留了最原始的音频特征,音质非常好。但是,标准CD格式的文件的体积是非常大的,并不便于存储以及传播,特别是在当前网络应用如此普及的现在。为此,当前出现了很多的音频压缩技术,例如,MP3或高级音频编码技术(AAC,Advanced Audio Coding)等等。通过,这些音频压缩技术,可以大大减少声音文件占用的空间。例如,相同长度的音乐文件,用*.mp3格式来储存,一般可只占有未压缩文件1/10的存储空间。然而,这些音频压缩技术虽然可以基本保持声音文件的低音频部分不失真,但是会牺牲声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸。从声音文件的音质上来看,经过压缩后声音会或多或少有一定的失真,而且这种失真是不可逆的。例如,一个无损的CD品质的音乐经过编解码器压缩为有损的声音文件后,即使再解压缩为原始的音频格式(例如PCM格式),其品质也是无法还原为CD品质的。因此,也可以称这些对声音文件的音质造成影响的压缩处理为有损压缩,并称这些经过压缩的声音文件为有损声音文件。通常情况下,可以通过声音文件的音频格式判断该声音文件是有损声音文件还是无损声音文件。一般来讲,经过有损压缩的得到的声音文件,例如MP3或AAC格式的声音文件,一定是有损声音文件,因而可以称这些音频格式为有损音频格式。而没有经过压缩(例如PCM或WAVE格式)或者经过无损压缩(例如WMA Lossless以及FLAC等格式)的应该是无损的声音文件,因而可以称这些音频格式为无损格式。但是,仅通过音频格式进行判断这种方法无法判断出来实际已经经过有损压缩又还原成无损音频格式的假无损声音文件。因此,如何识别声音文件的音质,从各种无损音频格式的声音文件中筛选出真正无损的声音文件,剔除假的无损声音文件,是目前需要解决的问题之一。
技术实现思路
本专利技术提供了一种声音文件的音质识别方法,包括:将待识别声音文件的格式转换为预先设置的基准音频格式;对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱;根据所述声音文件每一帧的频谱进行模式匹配,得到对所述声音文件的初步分类结果;根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点;以及根据所述声音文件的初步分类结果及其能量变化点确定所述声音文件的音质。本专利技术还提供了一种声音文件的音质识别方法,包括:将待识别声音文件的格式转换为预先设置的基准音频格式;对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱;根据所述声音文件每一帧的频谱进行模式匹配,得到对所述声音文件的初步分类结果;以及根据所述声音文件的初步分类结果确定所述声音文件的音质。本专利技术还提供了一种声音文件的音质识别方法,包括:将待识别声音文件的格式转换为预先设置的基准音频格式;对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱;根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点;以及根据所述声音文件的能量变化点确定所述声音文件的音质。对应上述声音文件的音质识别方法,本专利技术提供了一种服务器,包括:接收模块,用于接收待识别声音文件;转换模块,用于将待识别声音文件的格式转换为预先设置的基准音频格式;分帧模块,用于对具有基准音频格式的声音文件进行分帧;时频变换模块,用于对分帧后的全部帧分别进行傅立叶变换,得到所述声音文件每一帧的频谱;匹配模块,用于根据所述声音文件每一帧的频谱进行模型匹配,得到对所述声音文件的初步分类结果;能量变换点检测模块,用于根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点;以及判断模块,用于根据对待识别声音文件的初步分类结果以及待识别声音文件的能量变化点确定所述声音文件的音质。本专利技术还提供了一种客户端,包括:接收模块,用于接收待识别声音文件;转换模块,用于将待识别声音文件的格式转换为预先设置的基准音频格式;分帧模块,用于对具有基准音频格式的声音文件进行分帧;时频变换模块,用于对分帧后的全部帧分别进行傅立叶变换,得到所述声音文件每一帧的频谱;匹配模块,用于根据所述声音文件每一帧的频谱进行模型匹配,得到对所述声音文件的初步分类结果;能量变换点检测模块,用于根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点;以及判断模块,用于根据对待识别声音文件的初步分类结果以及待识别声音文件的能量变化点确定所述声音文件的音质。通过本专利技术可以完成对声音文件音质的机器识别,提高从而提高系统的性能。附图说明图1显示了本专利技术实施例所述的声音文件的音质识别方法;图2显示了本专利技术实施例进行训练建立模型的方法;图3显示了本专利技术实施例所述的另一种声音文件的音质识别方法;图4显示了本专利技术实施例所述的又一种声音文件的音质识别方法;图5显示了本专利技术实施例所述的音乐平台的结构;图6显示了音乐平台客户端的一个搜索界面示例;以及图7显示了本专利技术实施例所述的客户端的内部结构。具体实施方式如前所述可知,有损音频格式的声音文件一定是有损声音文件,但是无损音频格式的声音文件不一定真的是无损声音文件。为此,本专利技术的实施例提供了一种声音文件的音质识别方法,可以从各种无损音频格式的声音文件中筛选出真正无损的声音文件,找出假无损声音文件。在本文中,待识别的声音文件可以是各种无损音频格式的文件,具体可以是未经过压缩处理或者仅经过无损压缩处理的声音文件,例如可以是PCM文件,也可以是其他诸如WAVE格式、WMA Lossless格式以及FLAC格式的声音文件。而由于有损音频格式的声音文件一定是有损的声音文件,因此,无需进行本实施例的判断。图1显示了本专利技术实施例所述的声音文件的音质识别方法。如图1所示,本实施例的方法包含本文档来自技高网
...

【技术保护点】
一种声音文件的音质识别方法,其特征在于,包括:将待识别声音文件的格式转换为预先设置的基准音频格式;对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱;根据所述声音文件每一帧的频谱进行模式匹配,得到对所述声音文件的初步分类结果;根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点;以及根据所述声音文件的初步分类结果及其能量变化点确定所述声音文件的音质。

【技术特征摘要】
1.一种声音文件的音质识别方法,其特征在于,包括:将待识别声音文件的格式转换为预先设置的基准音频格式;对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱;根据所述声音文件每一帧的频谱进行模式匹配,得到对所述声音文件的初步分类结果;根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点;以及根据所述声音文件的初步分类结果及其能量变化点确定所述声音文件的音质。2.根据权利要求1所述的方法,其特征在于,所述基准音频格式为采样速率是44.1KHz、采样精度为16比特的脉冲编码调制文件格式。3.根据权利要求1或2所述的方法,其特征在于,所述将待识别声音文件的格式转换为预先设置的基准音频格式包括:检测待识别声音文件是否为所述基准音频格式,如果不是,则将所述声音文件解码为所述基准音频格式。4.根据权利要求1所述的方法,其特征在于,所述对基准音频格式的声音文件进行分帧包括:设置帧长和帧移,根据设置的帧长和帧移对所述声音文件进行分帧。5.根据权利要求1所述的方法,其特征在于,所述根据所述声音文件每一帧的频谱进行模式匹配包括:分别对每一帧频谱所包含的频带进行分段;针对每一个频带分段,将所述声音文件的所有帧在所述频带分段上各个频带的能量值求和,得到所述声音文件在每个频带分段的能量值;根据所述声音文件在每个频带分段的能量值,确定所述声音文件的衰落特征向量;以及根据所述声音文件的衰落特征向量对所述声音文件进行模型匹配,得到对所述声音文件的初步分类结果。6.根据权利要求5所述的方法,其特征在于,所述分别对每一帧频谱所包含的频带进行分段包括:设置每个频带分段包含频带数和频移,根据设定的频带数和频移进行分段。7.根据权利要求5所述的方法,其特征在于,所述声音文件的衰落特征向量Y通过如下公式的得到:yi=xi+1-xi(i∈[1,L-1])其中,xi(i∈[1,L])表示所述声音文件在第i个频带分段的能量值;所述声音文件的初步分类结果为置信度q,通过如下公式得到:q=WY其中,Y为所述声音文件的衰落特征向量;W为进行模型匹配时所使用模型对应的线性相关系数。8.根据权利要求1所述的方法,其特征在于,所述根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点包括:确定所述声音文件每一帧的最高频谱分割线;根据每一帧的最高频谱分割线所在的频带,分别统计每个频带上一共有多少个最高频谱分割线,记为ri(i∈[1,M]),其中,ri代表在第i个频带上最高频谱分割线的个数;M为频带的个数;将ri(i∈[1,M])中所有相近的s个点进行求和,得到能量和最大的s个相邻频带;以及确定能量和最大的s个相邻频带中最优变换频带对应的频率,将其作为待识别音乐文件的能量变化点。9.根据权利要求8所述的方法,其特征在于,所述确定所述声音文件每一帧的最高频谱分割线包括:针对每一帧,从高频到低频对所有频带进行遍历,第一个能量值大于第一门限的频带为这一帧的最高频谱分割线。10.根据权利要求8所述的方法,其特征在于,所述最优变换频带对应的频率c可以通过如下的公式得到: c = ( Σ i = l l + s - 1 i × r i Σ i = l l + s - 1 i + 1 ) × 22050 M ]]>其中,s为系统设定的数值;l为能量和最大的s个相邻频带的第一个频带的编号;M为对所述进行傅立叶变换后得到的频带数;ri(i∈[1,M])为第i个频带上最高频谱分割线的个数。11.根据权利要求1所述的方法,其特征在于,所述根据所述声音文件的初步分类结果及其能量变化点确定所述声音文件的音质包括:对所述声音文件的初步分类结果为置信度q,能量变化点为最优变换频带的等效频率c;计算两个中间参数:d=c-20000e=q-0.5如果d和e同时大于0,则确定所述声音文件为无损文件;如果d和e同时小于0,则确定所述声音文件为有损文件。12.一种声音文件的音质识别方法,其特征在于,包括:将待识别声音文件的格式转换为预先设置的基准音频格式;对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱;根据所述声音文件每一帧的频谱进行模式匹配,得到对所述声音文件的初步分类结果;以及根据所述声音文件的初步分类结果确定所述声音文件的音质。13.根据权利要求12所述的方法,其特征在于,所述根据所述声音文件每一帧的频谱进行模式匹配包括:分别对每一帧频谱所包含的频带进行分段;针对每一个频带分段,将所述声音文件的所有帧在所述频带分段上各个频带的能量值求和,得到所述声音文件在每个频带分段的能量值;根据所述声音文件在每个频带分段的能量值,确定所述声音...

【专利技术属性】
技术研发人员:赵伟峰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1