声音文件的音质识别方法及装置制造方法及图纸

技术编号：13980829 阅读：53 留言：0更新日期：2016-11-12 11:00

本发明专利技术涉及声音文件的音质识别方法和装置，包括：将待识别声音文件的格式转换为预先设置的基准音频格式；对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱；根据所述声音文件每一帧的频谱进行模式匹配，得到对所述声音文件的初步分类结果；根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点；以及根据所述声音文件的初步分类结果及其能量变化点确定所述声音文件的音质。通过本发明专利技术可以完成对声音文件音质的机器识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及声音文件的音质识别方法及装置。
技术介绍
在多媒体技术不断发展的今天，承载音乐等声音文件的载体已经从原来的磁带、CD(光盘)发展到了MP3(动态影像专家压缩标准音频层面3)甚至智能终端等多种多媒体设备。同时，为了便于声音文件的传播，也出现了各种对声音进行处理的技术以及相应的音频格式。上述音频格式是指对作为模拟信号的声音进行模拟-数字转换以及其他处理后得到的可以在计算机或其他多媒体设备内播放或者处理的数字格式的文件的格式。通常对声音的模拟-数字的转换会采用脉冲编码调制(PCM)技术实现。本文中，将声音经过PCM技术处理进行模拟-数字转换后得到的音频文件称为PCM文件。对声音进行模拟-数字转换后得到的PCM文件是未经过压缩处理的原始声音文件。一般来讲，表征PCM文件的声音质量(也即音质)有两个参数：一个是采样速率；一个是采样精度。其中，采样速率表示对声音进行采样时每秒钟的采样次数，一般介于40～50KHz之间；采样精度表示对每一个采样值进行量化时的比特数，例如可以是16位。由此可以看出，一般采样速率越高、采样精度越大得到的PCM文件的音质越好，但是另一方面采样速率越高、采样精度越大得到PCM文件越大。标准的CD格式就是通过PCM得到的，其采样频率为44.1KHZ、采样精度为16位(即16位量化)。对于人耳而言，标准的CD格式音频文件的音质可以说是无损的，也即根据CD格式还原出的声音基本上是忠于原声的。例如，通常音乐人在发行音乐时一般采用CD等固态形式发行。这种音乐保留了最原始的音频特征，音质非常好。但是，标准CD格式的文件的体积是非常大的，并不...

【技术保护点】
一种声音文件的音质识别方法，其特征在于，包括：将待识别声音文件的格式转换为预先设置的基准音频格式；对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱；根据所述声音文件每一帧的频谱进行模式匹配，得到对所述声音文件的初步分类结果；根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点；以及根据所述声音文件的初步分类结果及其能量变化点确定所述声音文件的音质。

【技术特征摘要】
1.一种声音文件的音质识别方法，其特征在于，包括：将待识别声音文件的格式转换为预先设置的基准音频格式；对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱；根据所述声音文件每一帧的频谱进行模式匹配，得到对所述声音文件的初步分类结果；根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点；以及根据所述声音文件的初步分类结果及其能量变化点确定所述声音文件的音质。2.根据权利要求1所述的方法，其特征在于，所述基准音频格式为采样速率是44.1KHz、采样精度为16比特的脉冲编码调制文件格式。3.根据权利要求1或2所述的方法，其特征在于，所述将待识别声音文件的格式转换为预先设置的基准音频格式包括：检测待识别声音文件是否为所述基准音频格式，如果不是，则将所述声音文件解码为所述基准音频格式。4.根据权利要求1所述的方法，其特征在于，所述对基准音频格式的声音文件进行分帧包括：设置帧长和帧移，根据设置的帧长和帧移对所述声音文件进行分帧。5.根据权利要求1所述的方法，其特征在于，所述根据所述声音文件每一帧的频谱进行模式匹配包括：分别对每一帧频谱所包含的频带进行分段；针对每一个频带分段，将所述声音文件的所有帧在所述频带分段上各个频带的能量值求和，得到所述声音文件在每个频带分段的能量值；根据所述声音文件在每个频带分段的能量值，确定所述声音文件的衰落特征向量；以及根据所述声音文件的衰落特征向量对所述声音文件进行模型匹配，得到对所述声音文件的初步分类结果。6.根据权利要求5所述的方法，其特征在于，所述分别对每一帧频谱所包含的频带进行分段包括：设置每个频带分段包含频带数和频移，根据设定的频带数和频移进行分段。7.根据权利要求5所述的方法，其特征在于，所述声音文件的衰落特征向量Y通过如下公式的得到：yi＝xi+1-xi(i∈[1,L-1])其中，xi(i∈[1,L])表示所述声音文件在第i个频带分段的能量值；所述声音文件的初步分类结果为置信度q，通过如下公式得到：q＝WY其中，Y为所述声音文件的衰落特征向量；W为进行模型匹配时所使用模型对应的线性相关系数。8.根据权利要求1所述的方法，其特征在于，所述根据所述声音文件每一帧的频谱确定所述声音文件的能量变化点包括：确定所述声音文件每一帧的最高频谱分割线；根据每一帧的最高频谱分割线所在的频带，分别统计每个频带上一共有多少个最高频谱分割线，记为ri(i∈[1,M])，其中，ri代表在第i个频带上最高频谱分割线的个数；M为频带的个数；将ri(i∈[1,M])中所有相近的s个点进行求和，得到能量和最大的s个相邻频带；以及确定能量和最大的s个相邻频带中最优变换频带对应的频率，将其作为待识别音乐文件的能量变化点。9.根据权利要求8所述的方法，其特征在于，所述确定所述声音文件每一帧的最高频谱分割线包括：针对每一帧，从高频到低频对所有频带进行遍历，第一个能量值大于第一门限的频带为这一帧的最高频谱分割线。10.根据权利要求8所述的方法，其特征在于，所述最优变换频带对应的频率c可以通过如下的公式得到： c = ( Σ i = l l + s - 1 i × r i Σ i = l l + s - 1 i + 1 ) × 22050 M ]]>其中，s为系统设定的数值；l为能量和最大的s个相邻频带的第一个频带的编号；M为对所述进行傅立叶变换后得到的频带数；ri(i∈[1,M])为第i个频带上最高频谱分割线的个数。11.根据权利要求1所述的方法，其特征在于，所述根据所述声音文件的初步分类结果及其能量变化点确定所述声音文件的音质包括：对所述声音文件的初步分类结果为置信度q，能量变化点为最优变换频带的等效频率c；计算两个中间参数：d＝c-20000e＝q-0.5如果d和e同时大于0，则确定所述声音文件为无损文件；如果d和e同时小于0，则确定所述声音文件为有损文件。12.一种声音文件的音质识别方法，其特征在于，包括：将待识别声音文件的格式转换为预先设置的基准音频格式；对基准音频格式的声音文件进行分帧以及傅立叶变换处理得到所述声音文件每一帧的频谱；根据所述声音文件每一帧的频谱进行模式匹配，得到对所述声音文件的初步分类结果；以及根据所述声音文件的初步分类结果确定所述声音文件的音质。13.根据权利要求12所述的方法，其特征在于，所述根据所述声音文件每一帧的频谱进行模式匹配包括：分别对每一帧频谱所包含的频带进行分段；针对每一个频带分段，将所述声音文件的所有帧在所述频带分段上各个频带的能量值求和，得到所述声音文件在每个频带分段的能量值；根据所述声音文件在每个频带分段的能量值，确定所述声音...

【专利技术属性】
技术研发人员：赵伟峰，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人