娇喘音频识别方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:18239096 阅读:1330 留言:0更新日期:2018-06-17 03:01
本发明专利技术提出一种娇喘音频识别方法、装置、设备和计算机存储介质,所述方法包括以下步骤:从待识别的音视频中提取脉冲编码调制信号;在脉冲编码调制信号中提取多维声学特征;将多维声学特征进行归一化后输入卷积神经网络,由所述卷积神经网络输出识别为娇喘音频的概率。本发明专利技术实施例可以在海量音视频数据中实现音频娇喘智能识别,大幅降低人工审核的成本,同时可以保证较高的效率与性能。 1

Jiao Chuan audio recognition method, device, device and computer-readable medium

The present invention provides a method, device, device and computer storage medium for the recognition of a panting audio frequency. The method includes the following steps: extracting the pulse coded modulation signal from the audio and video to be identified, extracting the multidimensional acoustic features in the pulse coded modulation signal, and adding the multi-dimensional acoustic feature to input the convolution nerve after the normalization of the multi-dimensional acoustic features. The output of the network is recognized by the convolution neural network as the probability of the tone. The embodiment of the invention can realize the intelligent recognition of the audio pant and asthma in the massive audio and video data, greatly reduces the cost of the manual examination, and can ensure higher efficiency and performance. One

【技术实现步骤摘要】
娇喘音频识别方法、装置、设备及计算机可读介质
本专利技术涉及音频识别
,尤其涉及一种娇喘音频识别方法及装置、设备和计算机可读介质。
技术介绍
随着互联网技术的发展,信息的传播的方式和渠道发生显著变化。而网络上传播的信息种类很多,其中有可能会涉及色情影片的传播。因此,为了净化网络环境,需要对传播的信息进行审核。色情影片的审核包括对色情图像和娇喘音频审核。其中现有的音频娇喘识别方法主要基于人工抽取音频片段的方法进行识别,并结合图像的审核结果进行色情音视频过滤。人工审核的方法可以准确判断音频片段是否为娇喘色情片段,在音视频数据库较小,更新频率低的场景下可实现较好的审核效果。然而,现有基于人工审核的音频娇喘识别方法在音视频数据库巨大的场景下无法在合理较低成本下覆盖所有数据的审核,而采用抽样审核的方法则容易造成漏检。
技术实现思路
本专利技术实施例提供一种娇喘音频识别方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的以上技术问题。第一方面,本专利技术实施例提供了一种娇喘音频识别方法,包括以下步骤:从待识别的音视频中提取脉冲编码调制信号;在脉冲编码调制信号中提取多维声学特征;将多维声学特征进行归一化后输入卷积神经网络,由所述卷积神经网络输出识别为娇喘音频的概率。结合第一方面,本专利技术在第一方面的第一种实现方式中,所述多维声学特征包括:梅尔频率倒谱系数、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降,以及音色偏差;其中所述梅尔频率倒谱系数的特征为13维,所述音色向量由12维音阶特征组成。结合第一方面,本专利技术在第一方面的第二种实现方式中,所述在脉冲编码调制信号中提取多维声学特征的步骤中,具体包括:判断所述脉冲编码调制信号的长度是否大于设定阈值,若是,则对该信号进行分割,获取多个音频片段。结合第一方面的第二种实现方式,本专利技术在第一方面的第三种实现方式中,所述将多维声学特征进行归一化后输入卷积神经网络,由所述卷积神经网络输出识别为娇喘音频的概率的步骤中,具体包括:当所述脉冲编码调制信号的长度大于设定阈值时,输入多个音频片段至卷积神经网络;由所述卷积神经网络分别输出各个音频片段被识别为娇喘音频的概率值;将多个概率值进行归并平滑处理,获取最终识别为娇喘音频的概率值。第二方面,本专利技术实施例提供了一种娇喘音频识别装置,包括:信号提取模块,用于从待识别的音视频中提取脉冲编码调制信号;特征提取模块,用于在脉冲编码调制信号中提取多维声学特征;概率获取模块,用于将多维声学特征进行归一化后输入卷积神经网络,由所述卷积神经网络输出识别为娇喘音频的概率。结合第二方面,本专利技术在第二方面的第一种实现方式中,所述多维声学特征包括:梅尔频率倒谱系数、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降,以及音色偏差;其中所述梅尔频率倒谱系数的特征为13维,所述音色向量由12维音阶特征组成。结合第二方面,本专利技术在第二方面的第二种实现方式中,所述特征提取模块具体用于判断所述脉冲编码调制信号的长度是否大于设定阈值,若是,则对该信号进行分割,获取多个音频片段。结合第二方面的第二种实现方式,本专利技术在第二方面的第三种实现方式中,所述概率获取模块包括:音频输入子模块,用于当所述脉冲编码调制信号的长度大于设定阈值时,输入多个音频片段至卷积神经网络;概率值输出子模块,用于由所述卷积神经网络分别输出各个音频片段被识别为娇喘音频的概率值;归并平滑子模块,用于将多个概率值进行归并平滑处理,获取最终识别为娇喘音频的概率值。所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,娇喘音频识别装置的结构中包括处理器和存储器,所述存储器用于存储支持娇喘音频识别装置执行上述第一方面中娇喘音频识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述娇喘音频识别装置还可以包括通信接口,用于娇喘音频识别装置与其他设备或通信网络通信。第三方面,本专利技术实施例提供了一种计算机可读介质,用于存储娇喘音频识别装置所用的计算机软件指令,其包括用于执行上述第一方面的娇喘音频识别方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:本专利技术实施例可以在海量音视频数据中实现音频娇喘智能识别,大幅降低人工审核的成本,同时可以保证较高的效率与性能。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1为实施例一的娇喘音频识别方法的步骤流程图;图2为本实施例一的卷积神经网络的结构示意图;图3为实施例二的娇喘音频识别方法步骤流程图;图4为实施例二的步骤S240的具体步骤流程图;图5为实施例三的娇喘音频识别装置的连接框图;图6为实施例四的娇喘音频识别装置的连接框图;图7为实施例五的娇喘音频识别设备连接框图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。本专利技术实施例旨在解决现有技术中娇喘音频识别时需要由人工进行审核,当面对海量数据时效率低下且成本高的技术问题。本专利技术实施例主要通过采用卷积神经网络进行音频数据的智能识别,下面分别通过以下实施例进行技术方案的展开描述。实施例一请参阅图1,其为本专利技术实施例一的娇喘音频识别方法的步骤流程图。本实施例一提供了一种娇喘音频识别方法,包括以下步骤:S110:从待识别的音视频中提取脉冲编码调制信号。首先,对需要识别的音频或视频提取脉冲编码调制(pcm,PulseCodeModulation)信号,用于将语音模拟信号每个一定时间进行取样,实现离散化。S120:在脉冲编码调制信号中提取多维声学特征。在一个实施例中,所述多维声学特征可以包括:梅尔频率倒谱系数(MFCCs)、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降,以及音色偏差;其中所述梅尔频率倒谱系数的特征为13维,所述音色向量由12维音阶特征组成,共计34维特征。S130:将多维声学特征进行归一化后输入卷积神经网络,由所述卷积神经网络输出识别为娇喘音频的概率。如图2所示,其为本实施例一的卷积神经网络的结构示意图。在本实施例一中,所述的卷积神经网络结构可以设计为依次包括:第一卷积层conv1、第一下采样层maxpool1、第二卷积层conv2、第二下采样层maxpool2、第三卷积层conv3、第三下采样层maxpool3、第一全连接层fc1、第二全连接层fc2以及输出层。所述第一卷积层包括256个34*1的卷积核,所述第一下采样层、第二下采样层和第三下采样层均包含1*2的最大值采样;所述第二卷本文档来自技高网...
娇喘音频识别方法、装置、设备及计算机可读介质

【技术保护点】
1.一种娇喘音频识别方法,其特征在于,包括:

【技术特征摘要】
1.一种娇喘音频识别方法,其特征在于,包括:从待识别的音视频中提取脉冲编码调制信号;在脉冲编码调制信号中提取多维声学特征;将多维声学特征进行归一化后输入卷积神经网络,由所述卷积神经网络输出识别为娇喘音频的概率。2.根据权利要求1所述的娇喘音频识别方法,其特征在于,所述多维声学特征包括:梅尔频率倒谱系数、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降,以及音色偏差;其中所述梅尔频率倒谱系数的特征为13维,所述音色向量由12维音阶特征组成。3.根据权利要求1所述的娇喘音频识别方法,其特征在于,所述在脉冲编码调制信号中提取多维声学特征的步骤中,具体包括:判断所述脉冲编码调制信号的长度是否大于设定阈值,若是,则对该信号进行分割,获取多个音频片段。4.根据权利要求3所述的娇喘音频识别方法,其特征在于,所述将多维声学特征进行归一化后输入卷积神经网络,由所述卷积神经网络输出识别为娇喘音频的概率的步骤中,具体包括:当所述脉冲编码调制信号的长度大于设定阈值时,输入多个音频片段至卷积神经网络;由所述卷积神经网络分别输出各个音频片段被识别为娇喘音频的概率值;将多个概率值进行归并平滑处理,获取最终识别为娇喘音频的概率值。5.一种娇喘音频识别装置,其特征在于,包括:信号提取模块,用于从待识别的音视频中提取脉冲编码调制信号;特征提取模块,用于在脉冲编码调制信号中提取多维声学特征;概率获取模块,用...

【专利技术属性】
技术研发人员:曾令科
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1