一种破音识别的方法和装置制造方法及图纸

技术编号:14591390 阅读:34 留言:0更新日期:2017-02-08 19:49
本发明专利技术公开了一种破音识别的方法和装置,属于计算机技术领域。所述方法包括:获取目标音频的第一音频帧的音频频域数据;将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。采用本发明专利技术,可以实现对音频数据的破音识别。

Method and device for breaking tone recognition

The invention discloses a method and a device for breaking tone recognition, which belongs to the technical field of computer. The method includes: a first audio frequency data acquisition target audio audio frame; the frequency range of the audio frequency data is divided into multiple sub bands, determine the audio frequency data in each subband of the RMS energy; according to the adjacent sub bands of the RMS can change the total amount of degrees break the sound recognition of the first audio frame. By adopting the invention, the audio frequency data can be recognized.

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种破音识别的方法和装置
技术介绍
随着计算机技术和音频处理技术的发展,数字化的音频数据得到了广泛的应用,用户一般最常用的听歌方式,是通过手机、平板电脑、计算等终端来播放歌曲的音频数据,进而聆听相应的歌曲。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:网络中存在大量的歌曲的音频数据,有些是歌曲原唱的音频数据,有些是网络主播或网友歌唱的音频数据,这其中不乏一些低质量的音频数据,甚至有些音频数据中存在破音,破音会严重影响用户在听歌过程中的体验。所以,急待有一种能够识别音频数据是否存在破音的方法。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种破音识别的方法和装置。所述技术方案如下:第一方面,提供了一种破音识别的方法,所述方法包括:获取目标音频的第一音频帧的音频频域数据;将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。可选的,所述根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别,包括:根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别。这样,可以进一步提高破音识别的准确度。可选的,所述根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别,包括:根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别。这样,可以进一步提高破音识别的准确度。可选的,所述根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别,包括:根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值;如果所述破音加权值大于或等于预设阈值,则确定所述第一音频帧为破音音频帧。这样,可以进一步提高破音识别的准确度。可选的,所述根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值,包括:通过公式G=FlΔ*a+FmeanΔ*b+FvarΔ*c、计算破音加权值G,其中,Fl为所述相邻子带之间的均方根能量总的变化度,Fmean为所述幅度均值,Fvar为所述幅度均方差,Fl0为所述相邻子带之间的均方根能量总的变化度的破音参考值,Fmean0为所述幅度均值的破音参考值,Fvar0为所述幅度均方差的破音参考值,a为所述相邻子带之间的均方根能量总的变化度的权值,b为所述幅度均值的权值,c为所述幅度均方差的权值。这样,提供了一种进行破音识别的具体方法。可选的,所述相邻子带之间的均方根能量总的变化度,为其中,b为子带编号,N为子带总数,F(b)为子带b的均方根能量。这样,可以进一步提高破音识别的准确度。第二方面,提供了一种破音识别的装置,所述装置包括:获取模块,用于获取目标音频的第一音频帧的音频频域数据;确定模块,用于将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;识别模块,用于根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。可选的,所述识别模块,用于:根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别。可选的,所述识别模块,用于:根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别。可选的,所述识别模块,用于:根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值;如果所述破音加权值大于或等于预设阈值,则确定所述第一音频帧为破音音频帧。可选的,所述识别模块,用于:通过公式G=FlΔ*a+FmeanΔ*b+FvarΔ*c、计算破音加权值G,其中,Fl为所述相邻子带之间的均方根能量总的变化度,Fmean为所述幅度均值,Fvar为所述幅度均方差,Fl0为所述相邻子带之间的均方根能量总的变化度的破音参考值,Fmean0为所述幅度均值的破音参考值,Fvar0为所述幅度均方差的破音参考值,a为所述相邻子带之间的均方根能量总的变化度的权值,b为所述幅度均值的权值,c为所述幅度均方差的权值。可选的,所述相邻子带之间的均方根能量总的变化度,为其中,b为子带编号,N为子带总数,F(b)为子带b的均方根能量。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例中,获取目标音频的第一音频帧的音频频域数据,将音频频域数据的频域范围划分为多个子带,确定音频频域数据在每个子带中的均方根能量,根据相邻子带之间的均方根能量总的变化度,对第一音频帧进行破音识别。这样,通过上述处理则可以对音频帧进行破音识别,即可以实现对音频数据的破音识别。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种破音识别的方法的流程示意图;图2是本专利技术实施例提供的一种音频频域数据的示意图;图3是本专利技术实施例提供的一种破音识别的装置的结构示意图;图4是本专利技术实施例提供的一种终端的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。本专利技术实施例提供了一种破音识别的方法,该方法可以由服务器或终端实现。其中,服务器可以是某音频数据库的服务器,如歌曲库服务器。终端可以是具有音频播放功能的终端,终端中可以安装有音频播放应用程序。该服务器或终端可以包括处理器、存储器等部件。处理器,可以为CPU(CentralProcessingUnit,中央处理单元)等,可以用于获取音频频域数据,计算音频频域数据在每个子带中的均方根能量,根据相邻子带之间的均方根能量总的变化度,对第一音频帧进行破音识别等处理。存储器,可以为RAM(RandomAccessMemory,随机存取存储器),Flash(闪存)等,可以用于存储处理过程所需的数据、处理过程中生成的数据等,如第一音频帧的音频频域数据、音频频域数据在每个子带中的均方根能量、相邻子带之间的均方根能量总的变化度、所述音频频域数据的幅度均值、所述音频频域数据的幅度均方差等。另外,服务器或终端还可以包括收发器,可以用于与其它设备进行通信,将存在破音的音频通知给其它设备。终本文档来自技高网...

【技术保护点】
一种破音识别的方法,其特征在于,所述方法包括:获取目标音频的第一音频帧的音频频域数据;将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。

【技术特征摘要】
1.一种破音识别的方法,其特征在于,所述方法包括:获取目标音频的第一音频帧的音频频域数据;将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。2.根据权利要求1所述的方法,其特征在于,所述根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别,包括:根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别。3.根据权利要求2所述的方法,其特征在于,所述根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别,包括:根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别。4.根据权利要求3所述的方法,其特征在于,所述根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别,包括:根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值;如果所述破音加权值大于或等于预设阈值,则确定所述第一音频帧为破音音频帧。5.根据权利要求4所述的方法,其特征在于,所述根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值,包括:通过公式G=FlΔ*a+FmeanΔ*b+FvarΔ*c、计算破音加权值G,其中,Fl为所述相邻子带之间的均方根能量总的变化度,Fmean为所述幅度均值,Fvar为所述幅度均方差,Fl0为所述相邻子带之间的均方根能量总的变化度的破音参考值,Fmean0为所述幅度均值的破音参考值,Fvar0为所述幅度均方差的破音参考值,a为所述相邻子带之间的均...

【专利技术属性】
技术研发人员:劳振锋
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1