一种破音识别的方法和装置制造方法及图纸

技术编号：14591390 阅读：34 留言：0更新日期：2017-02-08 19:49

本发明专利技术公开了一种破音识别的方法和装置，属于计算机技术领域。所述方法包括：获取目标音频的第一音频帧的音频频域数据；将所述音频频域数据的频域范围划分为多个子带，确定所述音频频域数据在每个子带中的均方根能量；根据相邻子带之间的均方根能量总的变化度，对所述第一音频帧进行破音识别。采用本发明专利技术，可以实现对音频数据的破音识别。

Method and device for breaking tone recognition

The invention discloses a method and a device for breaking tone recognition, which belongs to the technical field of computer. The method includes: a first audio frequency data acquisition target audio audio frame; the frequency range of the audio frequency data is divided into multiple sub bands, determine the audio frequency data in each subband of the RMS energy; according to the adjacent sub bands of the RMS can change the total amount of degrees break the sound recognition of the first audio frame. By adopting the invention, the audio frequency data can be recognized.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，特别涉及一种破音识别的方法和装置。
技术介绍
随着计算机技术和音频处理技术的发展，数字化的音频数据得到了广泛的应用，用户一般最常用的听歌方式，是通过手机、平板电脑、计算等终端来播放歌曲的音频数据，进而聆听相应的歌曲。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下问题：网络中存在大量的歌曲的音频数据，有些是歌曲原唱的音频数据，有些是网络主播或网友歌唱的音频数据，这其中不乏一些低质量的音频数据，甚至有些音频数据中存在破音，破音会严重影响用户在听歌过程中的体验。所以，急待有一种能够识别音频数据是否存在破音的方法。
技术实现思路
为了解决现有技术的问题，本专利技术实施例提供了一种破音识别的方法和装置。所述技术方案如下：第一方面，提供了一种破音识别的方法，所述方法包括：获取目标音频的第一音频帧的音频频域数据；将所述音频频域数据的频域范围划分为多个子带，确定所述音频频域数据在每个子带中的均方根能量；根据相邻子带之间的均方根能量总的变化度，对所述第一音频帧进行破音识别。可选的，所述根据相邻子带之间的均方根能量总的变化度，对所述第一音频帧进行破音识别，包括：根据相邻子带之间的均方根能量总的变化度，以及所述音频频域数据的幅度均值，对所述第一音频帧进行破音识别。这样，可以进一步提高破音识别的准确度。可选的，所述根据相邻子带之间的均方根能量总的变化度，以及所述音频频域数据的幅度均值，对所述第一音频帧进行破音识别，包括：根据相邻子带之间的均方根能量总的变化度，所述音频频域数据的幅度均值，以及所述音频频域数据的幅度均方差，对所述第一音频帧进...

【技术保护点】
一种破音识别的方法，其特征在于，所述方法包括：获取目标音频的第一音频帧的音频频域数据；将所述音频频域数据的频域范围划分为多个子带，确定所述音频频域数据在每个子带中的均方根能量；根据相邻子带之间的均方根能量总的变化度，对所述第一音频帧进行破音识别。

【技术特征摘要】
1.一种破音识别的方法，其特征在于，所述方法包括：获取目标音频的第一音频帧的音频频域数据；将所述音频频域数据的频域范围划分为多个子带，确定所述音频频域数据在每个子带中的均方根能量；根据相邻子带之间的均方根能量总的变化度，对所述第一音频帧进行破音识别。2.根据权利要求1所述的方法，其特征在于，所述根据相邻子带之间的均方根能量总的变化度，对所述第一音频帧进行破音识别，包括：根据相邻子带之间的均方根能量总的变化度，以及所述音频频域数据的幅度均值，对所述第一音频帧进行破音识别。3.根据权利要求2所述的方法，其特征在于，所述根据相邻子带之间的均方根能量总的变化度，以及所述音频频域数据的幅度均值，对所述第一音频帧进行破音识别，包括：根据相邻子带之间的均方根能量总的变化度，所述音频频域数据的幅度均值，以及所述音频频域数据的幅度均方差，对所述第一音频帧进行破音识别。4.根据权利要求3所述的方法，其特征在于，所述根据相邻子带之间的均方根能量总的变化度，所述音频频域数据的幅度均值，以及所述音频频域数据的幅度均方差，对所述第一音频帧进行破音识别，包括：根据相邻子带之间的均方根能量总的变化度，所述音频频域数据的幅度均值，所述音频频域数据的幅度均方差，以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值，确定所述第一音频帧的破音加权值；如果所述破音加权值大于或等于预设阈值，则确定所述第一音频帧为破音音频帧。5.根据权利要求4所述的方法，其特征在于，所述根据相邻子带之间的均方根能量总的变化度，所述音频频域数据的幅度均值，所述音频频域数据的幅度均方差，以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值，确定所述第一音频帧的破音加权值，包括：通过公式G＝FlΔ*a+FmeanΔ*b+FvarΔ*c、计算破音加权值G，其中，Fl为所述相邻子带之间的均方根能量总的变化度，Fmean为所述幅度均值，Fvar为所述幅度均方差，Fl0为所述相邻子带之间的均方根能量总的变化度的破音参考值，Fmean0为所述幅度均值的破音参考值，Fvar0为所述幅度均方差的破音参考值，a为所述相邻子带之间的均...

【专利技术属性】
技术研发人员：劳振锋，
申请(专利权)人：广州酷狗计算机科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人