【技术实现步骤摘要】
本专利技术实施例涉及音频
,尤其涉及一种音频分类方法及装置。
技术介绍
近年来,随着智能电视技术的迅速发展,可以通过智能电视实现越来越多的功能,例如,可以通过智能电视实现搜索歌曲的功能。在具体应用中,智能电视可以支持如下三种方式的搜索歌曲功能:第一种,接收用户的语音搜歌音频,例如该语音搜歌音频可以为接收到的用户说的一段话:“搜索歌曲《青花瓷》”,则智能电视在与语音搜歌音频对应的搜索引擎中进行搜索;第二种,接收用户输入的一段录音音频,例如录制的一段背景音乐,则智能电视在与录音音频对应的搜索引擎中进行搜索;第三种,接收用户输入的一段哼唱音频,例如用户自己哼唱的一段喜欢的音乐,则智能电视在与哼唱音频对应的搜索引擎中进行搜索。可以看出,智能电视在搜索歌曲之前,首先需要对接收到的音频数据进行分类,以确定该音频数据属于语音搜歌音频、录音音频、还是哼唱音频等,然后才能在与音频数据类型对应的搜索引擎中进行搜索,以及将搜索结果返回给用户。然而,由于语音搜歌音频和哼唱音频通常即为相似,现有的音频数据分类方法,对语音搜歌音频和哼唱音频分类的准确率较低。
技术实现思路
本专利技术实施例提供一种音频分类方法及装置,用以解决现有技术中音频分类的准确率较低的问题。本专利技术实施例提供一种音频分类方法,包括:根据收集的训练数据,基于深度神经网络训练得到音频分类模型;对音频数据提取音频特征;将所述音频特征 ...
【技术保护点】
一种音频分类方法,其特征在于,所述方法包括:根据收集的训练数据,基于深度神经网络训练得到音频分类模型;对音频数据提取音频特征;将所述音频特征输入所述音频分类模型,输出得到所述音频数据的分类结果;所述分类结果包括:录音音频、语音搜歌音频和哼唱音频。
【技术特征摘要】
1.一种音频分类方法,其特征在于,所述方法包括:
根据收集的训练数据,基于深度神经网络训练得到音频分类模型;
对音频数据提取音频特征;
将所述音频特征输入所述音频分类模型,输出得到所述音频数据的分类
结果;所述分类结果包括:录音音频、语音搜歌音频和哼唱音频。
2.根据权利要求1所述的方法,其特征在于,所述音频分类模型包括
至少一个分类子模型,且所述分类子模型与所述分类结果具有对应关系;
所述将所述音频特征输入所述音频分类模型,输出得到所述音频数据的分类
结果的步骤,包括:
将所述音频特征输入所述音频分类模型;
根据所述分类子模型计算得到所述音频特征的概率值;
将概率值最大的分类子模型对应的分类结果作为所述音频数据的分类结
果进行输出。
3.根据权利要求2所述的方法,其特征在于,所述将概率值最大的分类
子模型对应的分类结果作为所述音频数据的分类结果进行输出的步骤包括:
在所述音频数据的有效时长大于预设的有效时长门限时,将概率值最
大的分类子模型对应的分类结果作为所述音频数据的分类结果进行输出;
在所述音频数据对应的有效时长小于或等于预设的有效时长门限时,执
行以下步骤:
若哼唱音频对应的后验概率值大于预设的哼唱音频门限,则确定所述音
频数据为哼唱音频,若否,则确定所述音频数据为录音音频或者语音搜歌音
频。
4.根据权利要求1所述的方法,其特征在于,所述根据收集的训练数据,
基于深度神经网络训练得到音频分类模型的步骤,包括:
收集训练数据;其中,所述训练数据包括:录音音频、语音搜歌音频和
\t哼唱音频;
对所述训练数据提取音频特征;
根据提取的音频特征,基于深度神经网络训练得到音频分类模型。
5.根据权利要求4所述的方法,其特征在于,所述训练数据还包括:噪
声音频和静音音频。
6.根据权利要求1至5任一所述的方法,其特征在于,所述音频特征包
括:梅尔倒谱系数特征和基频特征;通过如下步骤提取所述音频特征:
提取所述音频数据/训练数据对应的梅尔倒谱系数特征和基频特征;
对所述梅尔倒谱系数特征进行一阶差分和二阶差分计算,得到多维梅尔
倒谱系数特征;
对所述基频特征进行一阶差分和二阶差分计算,得到多维基频特征;
依据所述多维梅尔倒谱系数特征和多维基频特征,确定所述音频数据/训
练...
【专利技术属性】
技术研发人员:张利,
申请(专利权)人:乐视控股北京有限公司,乐视致新电子科技天津有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。