The present invention provides a method, device, device and computer storage medium for the recognition of a panting audio frequency. The method includes the following steps: extracting the pulse coded modulation signal from the audio and video to be identified, extracting the multidimensional acoustic features in the pulse coded modulation signal, and adding the multi-dimensional acoustic feature to input the convolution nerve after the normalization of the multi-dimensional acoustic features. The output of the network is recognized by the convolution neural network as the probability of the tone. The embodiment of the invention can realize the intelligent recognition of the audio pant and asthma in the massive audio and video data, greatly reduces the cost of the manual examination, and can ensure higher efficiency and performance. One
【技术实现步骤摘要】
娇喘音频识别方法、装置、设备及计算机可读介质
本专利技术涉及音频识别
,尤其涉及一种娇喘音频识别方法及装置、设备和计算机可读介质。
技术介绍
随着互联网技术的发展,信息的传播的方式和渠道发生显著变化。而网络上传播的信息种类很多,其中有可能会涉及色情影片的传播。因此,为了净化网络环境,需要对传播的信息进行审核。色情影片的审核包括对色情图像和娇喘音频审核。其中现有的音频娇喘识别方法主要基于人工抽取音频片段的方法进行识别,并结合图像的审核结果进行色情音视频过滤。人工审核的方法可以准确判断音频片段是否为娇喘色情片段,在音视频数据库较小,更新频率低的场景下可实现较好的审核效果。然而,现有基于人工审核的音频娇喘识别方法在音视频数据库巨大的场景下无法在合理较低成本下覆盖所有数据的审核,而采用抽样审核的方法则容易造成漏检。
技术实现思路
本专利技术实施例提供一种娇喘音频识别方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的以上技术问题。第一方面,本专利技术实施例提供了一种娇喘音频识别方法,包括以下步骤:从待识别的音视频中提取脉冲编码调制信号;在脉冲编码调制信号中提取多维声学特征;将多维声学特征进行归一化后输入卷积神经网络,由所述卷积神经网络输出识别为娇喘音频的概率。结合第一方面,本专利技术在第一方面的第一种实现方式中,所述多维声学特征包括:梅尔频率倒谱系数、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降,以及音色偏差;其中所述梅尔频率倒谱系数的特征为13维,所述音色向量由12维音阶特征组成。结合第一方面,本专利技术在第一方 ...
【技术保护点】
1.一种娇喘音频识别方法,其特征在于,包括:
【技术特征摘要】
1.一种娇喘音频识别方法,其特征在于,包括:从待识别的音视频中提取脉冲编码调制信号;在脉冲编码调制信号中提取多维声学特征;将多维声学特征进行归一化后输入卷积神经网络,由所述卷积神经网络输出识别为娇喘音频的概率。2.根据权利要求1所述的娇喘音频识别方法,其特征在于,所述多维声学特征包括:梅尔频率倒谱系数、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降,以及音色偏差;其中所述梅尔频率倒谱系数的特征为13维,所述音色向量由12维音阶特征组成。3.根据权利要求1所述的娇喘音频识别方法,其特征在于,所述在脉冲编码调制信号中提取多维声学特征的步骤中,具体包括:判断所述脉冲编码调制信号的长度是否大于设定阈值,若是,则对该信号进行分割,获取多个音频片段。4.根据权利要求3所述的娇喘音频识别方法,其特征在于,所述将多维声学特征进行归一化后输入卷积神经网络,由所述卷积神经网络输出识别为娇喘音频的概率的步骤中,具体包括:当所述脉冲编码调制信号的长度大于设定阈值时,输入多个音频片段至卷积神经网络;由所述卷积神经网络分别输出各个音频片段被识别为娇喘音频的概率值;将多个概率值进行归并平滑处理,获取最终识别为娇喘音频的概率值。5.一种娇喘音频识别装置,其特征在于,包括:信号提取模块,用于从待识别的音视频中提取脉冲编码调制信号;特征提取模块,用于在脉冲编码调制信号中提取多维声学特征;概率获取模块,用...
【专利技术属性】
技术研发人员:曾令科,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。