一种基于深度学习的音质特性处理方法及系统技术方案

技术编号:20007099 阅读:56 留言:0更新日期:2019-01-05 18:41
本发明专利技术提供一种基于深度学习的音质特性处理方法及系统。所述方法包括:对包含待处理音频数据的用户偏好数据进行特征提取得到所述待处理的音频数据的数据特征;基于所述数据特征,利用训练好的基线模型,生成所述待处理的音频数据的音质处理结果;所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型。根据本发明专利技术方法及系统,基于深度学习方法对音质特性进行处理的方法,并利用用户反馈数据进行模型在线学习,实现用户个性化音质调节。

A Processing Method and System of Sound Quality Characteristics Based on Deep Learning

The invention provides a method and system for processing sound quality characteristics based on in-depth learning. The method includes: extracting the data characteristics of the audio data to be processed from the user preference data containing the audio data to be processed; generating the sound quality processing results of the audio data to be processed by using the trained baseline model based on the data characteristics; and utilizing the audio data of a wide range of people or a single user, the behavior data of the baseline model. Neural network model trained with other relevant data. According to the method and system of the invention, a method based on deep learning method is used to process the sound quality characteristics, and the user feedback data is used to model online learning to realize user personalized sound quality regulation.

【技术实现步骤摘要】
一种基于深度学习的音质特性处理方法及系统
本专利技术涉及音质处理
,更具体地涉及一种基于深度学习的音质特性处理方法及系统。
技术介绍
音质是人对音频质量的主观评价,且每个人有不同的音质偏好。无论是音频播放设备供应商还是音频门户平台,设法提升和增强音质,是能够提升用户听音体验的最直接方法之一。但是,目前在音质评价指标模型不完备情况下,不仅那些我们无法客观量化的指标尚无法进行调节,即使是能够量化或建模的音质特性,由于每个人的音质偏好不同,也面临着如何实现个性化的自动调节的问题。现有技术中的音质调节方法,一般是由用户自己调节,但是这种办法对用户体验并不友好,而针对特对音频自身特性或用户偏好的自适应音质调节方法还缺乏应用;另一种方法是,通过对音乐的标题,作者等标签特征做分析,利用音乐推荐算法,将用户对音乐的偏好与某一类或几类风格靠拢,利用该类风格已有的业内通用音质设置去给用户做推荐。但是多类别和未知类别的音频却很难进行调节设置,且这种方法的数据是人工标注,一旦脱离网络环境,可能除了音乐的波形外,很难获取其他信息,比如音乐风格,用户评价,和推荐算法需要用到的其他参数,这时这种方法就失效了本文档来自技高网...

【技术保护点】
1.一种基于深度学习的音质特性处理方法,其特征在于,所述方法包括:对包含待处理音频数据的用户偏好数据进行特征提取得到所述待处理的音频数据的数据特征;基于所述数据特征,利用训练好的基线模型,生成所述待处理的音频数据的音质处理结果;所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型。

【技术特征摘要】
1.一种基于深度学习的音质特性处理方法,其特征在于,所述方法包括:对包含待处理音频数据的用户偏好数据进行特征提取得到所述待处理的音频数据的数据特征;基于所述数据特征,利用训练好的基线模型,生成所述待处理的音频数据的音质处理结果;所述基线模型是利用广泛大众或单个用户的音频数据,行为数据及其他相关数据训练得到的神经网络模型。2.如权利要求1所述的音质特性处理方法,其特征在于,用户偏好数据包括反映用户对音质特性偏好的数据。3.如权利要求1所述的音质特性处理方法,其特征在于,所述用户偏好数据包括用户行为数据、用户音频列表数据、播放中的音频数据、环境噪声数据、设备数据及其他参数数据中的至少一种。4.如权利要求1所述的音质特性处理方法,其特征在于,所述特征提取的方法包括FFT,STFT,MFCC,一帧或多帧的时域波形,和其他人工设计特征中的至少一种。5.如权利要求1所述的音频音质推荐方法,其特征在于,所述数据特征包括时域和/或频域特征。6.如权利要求1所述的音质特性处理方法,其特征在于,所述基线模型的训练方法包括:基于训练数据进行特征提取得到训练数据的数据特征,将所述数据特征作为输入层输入,将能够反应所述音质特性的特征作为输出层目标,训练得到所述基线模型;或对用户偏好数据进行特征提取,采用无监督的深度学习方法,得到所述基线模型。7.如权利要求1所述的音质特性处理方法,其特征在于,所述音质特性包括经验融合类,人为损伤类,音质设置可反馈类,经验公式可调类,信号域可计算类,噪声杂音类或其他类。8.如权利要求7所述的音质特性处理方法,其特征在于,所述经验融合类音质特性的基线模型的训练包括:基于音频数据库提取音频数据的类别标签特征以及所述音频数据的数据特征;将所述音频数据的数据特征作为输入层数据,所述类别标签特征作为输出层数据,训练得到经验融合类音质特性的基线模型。9.如权利要求7所述的音质特性处理方法,其特征在于,所述人为损伤类音质特性的基线模型的训练包括:基于音频数据库中的高质量音频数据样本进行人为处理得到有损的低质量音频数据样本,并对所述有损的低质量音频数据样本和所述高质量音频数据样本分别进行特征提取得到低质量音频数据特征和高质量音频数据特征;将所述低质量音频数据特征作为输入层数据,高质量音频数据特征作为输出层数据,训练得到人为损伤类音质特性的基线模型。10.如权利要求7所述的音质特性处理方法,其特征在于,所述音质设置可反馈类音质特性的基线模型的训练包括:基于大众用户音频数据中的环境数据和与所述环境数据相应的行为数据,分别进行特征提取,得到所述环境数据的环境参数特征和所述行为数据的音质特性设置特征;将所述环境参数特征作为输入层数据,所述音质特性设置特征作为输出层数据,训练得到音质设置可反馈类音质特性的基线模型。11.如权利要求7所述的音质特性处理方法,其特征在于,所述公式经验可调类音质特性的基线模型的训练包括:基于音频数据库中的音频数据,进行特征提取得到原始数据特征;对所述音频数据进行音质特性调整并对调整后的音频数据提取特征得到调整参数特征,通过主观评测实验建立将所述调整参数特征映射到主观评测的网络模型,得到最佳音质特性调整参数;将所述原始数据特征作为输入层数据,所述最佳音质特性调整参数作为输出层数据,训练得到所述经验公式可调类音质特性的基线模型。12.如权利要求7所述的音质特性处理方法,其特征在于,所述信号域可计算类音质特性的基线模型的训练包括:基于音频数据库中的音频数据进行特征提取得到音质特性特征;将所述音质特性特征进行聚类得到聚类模型;基于个人用户偏好的音频数据进行特征提取得到个人用户偏好的音质特性特征,并输入所述聚类模型,生成个人用户偏好的音质特性分布特征向量;基于所述个人用户偏好的音质特性分布特征向量,训练一个无监督神经网络模型作为所述信号域可计算类音质特性的基线模型。13.如权利要求7所述的音质特性处理方法,其特征在于,所述噪声杂音类音质特性的分类基线模型的训练包括:基于音频数据库中的包含杂音或正常音类别标签特征的音频数据,进行特征提取得到数据特征及其对应的类别标签特征;基于所述数据特征及其对应的类别标签特征训练得到噪声杂音类音质特性的分类基线模型。14.如权利要求13所述的音质特性处理方法,其特征在于,所述生音质处理结果包括:根据所述噪声杂音类音质特性的分类基线模型的杂音辨别结果对所述待处理的音频数据进行处理;若所述杂音辨别结果属于可滤除的杂音类别,则利用训练好的降噪基线模型得到降噪后的音频数据;若所述杂音辨别结果属于不可滤除的杂音类别,则提示用户或删除所述待处理的音频数据。15.如权利要求7所述的音频音质推荐方法,其特征在于,所述其他类音质特性的基线模型的训练包括:基于音频数据库获取能够直接或间接反映其他类音质特性的音频数据;基于所述反映其他类音质特性的音频数据进行特征提取,形成其他类音质特性特征提取模型,得到其他类音质特性特征;将所述其他类音质特性特征作为输入层,通过所述其他类音质特性特征映射到主观评测的网络模型所得到的主观感受评价作为输出层,或基于个人用户对所述其他类音质特性的偏好特征,训练生成其他类音质特性的基线模型。16.一种基于深度学习的音频音质个性化处理方法,其特征在于,包括:实时提取个人用户偏好数据;基于所述音质特性的基线模型,在线学习所述个人用户偏好数据,训练得到个性化音质特性处理模型;利用所...

【专利技术属性】
技术研发人员:姚青山秦宇喻浩文卢峰阳萌
申请(专利权)人:安克创新科技股份有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1