音频敏感内容的识别方法、设备和计算机程序产品技术

技术编号:33706384 阅读:25 留言:0更新日期:2022-06-06 08:29
本申请涉及音频识别领域,提供了一种音频敏感内容的识别方法、计算机设备和计算机程序产品。本申请能够提高对音频敏感内容识别的准确性。该方法包括:首先提取待识别音频的时频谱图,将时频谱图切分为多个时频谱图块,通过块嵌入层获取该多个时频谱图块分别对应的多个块嵌入特征,然后将多个块嵌入特征及其切分顺序信息输入至位置嵌入层,得到位置嵌入层输出的位置嵌入特征序列,该位置嵌入特征序列包含各块嵌入特征及其在时频谱图中的位置特征,接着将该位置嵌入特征序列输入到自注意力模型的编码器获得时频谱图的特征表示,最后基于该时频谱图的特征表示识别待识别音频是否包含敏感内容。含敏感内容。含敏感内容。

【技术实现步骤摘要】
音频敏感内容的识别方法、设备和计算机程序产品


[0001]本申请涉及音频识别
,特别是涉及一种音频敏感内容的识别方法、计算机设备和计算机程序产品。

技术介绍

[0002]随着互联网技术的发展,通过上传、发布和传播音视频作品或直播实时音视频丰富了内容传播形式,为使优质内容具有良好传播环境,需对包含敏感内容的音频进行准确识别。
[0003]目前的技术主要依赖于人工构造多种音频特征融合而成的人工构造特征进行音频敏感内容识别,如梅尔频率倒谱系数、能量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、音色偏差等作为特征向量输入到神经网络中进行分类识别。但这种技术对音频敏感内容的识别准确率容易受到人工构造特征的制约,还会带来一些信息的损失,使其对音频敏感内容的识别准确率较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种音频敏感内容的识别方法、计算机设备和计算机程序产品。
[0005]第一方面,本申请提供了一种音频敏感内容的识别方法。所述方法包括:
[0006]获得待识别音频的时频谱图,并将所述时频谱图切分为多个时频谱图块;
[0007]通过经训练的块嵌入层获取所述多个时频谱图块各自对应的块嵌入特征,得到多个块嵌入特征;
[0008]将所述多个块嵌入特征及所述多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层,得到所述位置嵌入层输出的位置嵌入特征序列;所述位置嵌入特征序列中的位置嵌入特征包含块嵌入特征,及该块嵌入特征对应的时频谱图块在所述时频谱图中的位置特征;
[0009]将所述位置嵌入特征序列输入经训练的自注意力模型的编码器,得到所述编码器输出的所述时频谱图的特征表示;
[0010]基于所述时频谱图的特征表示,识别所述待识别音频是否包含敏感内容。
[0011]在一个实施例中,所述将所述时频谱图切分为多个时频谱图块,包括:
[0012]按照预设切分顺序及预设重叠维度数切分所述时频谱图得到所述多个时频谱图块;所述预设重叠维度数包括时间维度和/或频率维度上的重叠维度数。
[0013]在一个实施例中,所述将所述多个块嵌入特征及所述多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层,包括:根据所述多个时频谱图块的切分顺序生成多个切分顺序标识,并将所述多个切分顺序标识对应携带在所述多个块嵌入特征中;将携带所述多个切分顺序标识的多个块嵌入特征输入至所述位置嵌入层。
[0014]在一个实施例中,所述位置嵌入层,用于根据所述多个块嵌入特征中携带的多个
切分顺序标识,得到所述多个块嵌入特征分别对应的多个位置特征,将相对应的块嵌入特征及位置特征进行组合得到位置嵌入特征,根据组合得到的多个位置嵌入特征形成所述位置嵌入特征序列。
[0015]在一个实施例中,所述基于所述时频谱图的特征表示,识别所述待识别音频是否包含敏感内容,包括:将所述时频谱图的特征表示输入经训练的音频敏感内容分类器,得到所述音频敏感内容分类器输出的敏感内容分类标签;根据所述敏感内容分类标签,确定所述待识别音频是否包含敏感内容。
[0016]在一个实施例中,所述方法还包括:获取预先经过训练的音频分类模型,所述音频分类模型包括块嵌入层、位置嵌入层及自注意力模型的编码器;获取音频样本的时频谱图样本以及获取所述音频样本对应的敏感内容分类标签;利用所述时频谱图样本及所述敏感内容分类标签对所述音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及所述音频敏感内容分类器进行训练。
[0017]在一个实施例中,所述获取所述音频样本对应的敏感内容分类标签,包括:根据所述音频样本是否包含敏感内容,得到所述音频样本的第一标签;根据所述音频样本中敏感内容占比,得到所述音频样本的第二标签;将所述第一标签和第二标签作为所述音频样本对应的敏感内容分类标签。
[0018]在一个实施例中,所述利用所述时频谱图样本及所述敏感内容分类标签对所述音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及所述音频敏感内容分类器进行训练,包括:对所述时频谱图样本进行时间维度和/或频率维度的掩膜处理,得到所述时频谱图样本的第一干扰样本;对所述时频谱图样本进行时间维度和/或频率维度的混合处理,得到所述时频谱图样本的第二干扰样本;利用所述时频谱图样本、第一干扰样本、第二干扰样本及所述敏感内容分类标签对所述音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及所述音频敏感内容分类器进行训练。
[0019]第二方面,本申请还提供了一种音频敏感内容的识别方法。所述方法包括:
[0020]获取原始音频;
[0021]将所述原始音频输入至第一音频敏感内容识别模型,得到所述第一音频敏感内容识别模型输出的所述原始音频中包含敏感内容的多个音频片段;将所述多个音频片段作为待识别音频输入至第二音频敏感内容识别模型,得到所述第二音频敏感内容识别模型输出的针对每一音频片段的敏感内容识别结果;根据所述每一音频片段的敏感内容识别结果,确定所述原始音频是否为敏感音频;或者,
[0022]将所述原始音频作为待识别音频输入至第二音频敏感内容识别模型,得到所述第二音频敏感内容识别模型输出的针对所述原始音频的敏感内容识别结果;所述第二音频敏感内容识别模型输出的敏感内容识别结果表征所述原始音频为包含敏感内容的音频时,将所述原始音频输入至第一音频敏感内容识别模型,得到所述第一音频敏感内容识别模型输出的针对所述原始音频的敏感内容识别结果;根据所述第一音频敏感内容识别模型输出的敏感内容识别结果,确定所述原始音频是否为敏感音频;或者,
[0023]将所述原始音频输入至第一音频敏感内容识别模型,得到所述第一音频敏感内容识别模型输出的针对所述原始音频的敏感内容识别结果;将所述原始音频作为待识别音频输入至第二音频敏感内容识别模型,得到所述第二音频敏感内容识别模型输出的针对所述
原始音频的敏感内容识别结果;根据所述第一音频敏感内容识别模型输出的敏感内容识别结果,以及所述第二音频敏感内容识别模型输出的敏感内容识别结果,确定所述原始音频是否为敏感音频;
[0024]其中,所述第二音频敏感内容识别模型,用于根据如上所述的方法识别待识别音频是否包含敏感内容。
[0025]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0026]获得待识别音频的时频谱图,并将所述时频谱图切分为多个时频谱图块;通过经训练的块嵌入层获取所述多个时频谱图块各自对应的块嵌入特征,得到多个块嵌入特征;将所述多个块嵌入特征及所述多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层,得到所述位置嵌入层输出的位置嵌入特征序列;所述位置嵌入特征序列中的位置嵌入特征包含块嵌入特征,及该块嵌入特征对应的时频谱图块在所述时频谱图中的位置特征;将所述位置嵌入特征序列输入经训练的自注意力模型的编码器,得到所述编本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频敏感内容的识别方法,其特征在于,所述方法包括:获得待识别音频的时频谱图,并将所述时频谱图切分为多个时频谱图块;通过经训练的块嵌入层获取所述多个时频谱图块各自对应的块嵌入特征,得到多个块嵌入特征;将所述多个块嵌入特征及所述多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层,得到所述位置嵌入层输出的位置嵌入特征序列;所述位置嵌入特征序列中的位置嵌入特征包含块嵌入特征,及该块嵌入特征对应的时频谱图块在所述时频谱图中的位置特征;将所述位置嵌入特征序列输入经训练的自注意力模型的编码器,得到所述编码器输出的所述时频谱图的特征表示;基于所述时频谱图的特征表示,识别所述待识别音频是否包含敏感内容。2.根据权利要求1所述的方法,其特征在于,所述将所述时频谱图切分为多个时频谱图块,包括:按照预设切分顺序及预设重叠维度数切分所述时频谱图得到所述多个时频谱图块;所述预设重叠维度数包括时间维度和/或频率维度上的重叠维度数。3.根据权利要求1所述的方法,其特征在于,所述将所述多个块嵌入特征及所述多个时频谱图块的切分顺序信息输入至经训练的位置嵌入层,包括:根据所述多个时频谱图块的切分顺序生成多个切分顺序标识,并将所述多个切分顺序标识对应携带在所述多个块嵌入特征中;将携带所述多个切分顺序标识的多个块嵌入特征输入至所述位置嵌入层。4.根据权利要求3所述的方法,其特征在于,所述位置嵌入层,用于根据所述多个块嵌入特征中携带的多个切分顺序标识,得到所述多个块嵌入特征分别对应的多个位置特征,将相对应的块嵌入特征及位置特征进行组合得到位置嵌入特征,根据组合得到的多个位置嵌入特征形成所述位置嵌入特征序列。5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述时频谱图的特征表示,识别所述待识别音频是否包含敏感内容,包括:将所述时频谱图的特征表示输入经训练的音频敏感内容分类器,得到所述音频敏感内容分类器输出的敏感内容分类标签;根据所述敏感内容分类标签,确定所述待识别音频是否包含敏感内容。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取预先经过训练的音频分类模型,所述音频分类模型包括块嵌入层、位置嵌入层及自注意力模型的编码器;获取音频样本的时频谱图样本以及获取所述音频样本对应的敏感内容分类标签;利用所述时频谱图样本及所述敏感内容分类标签对所述音频分类模型的嵌入层、位置嵌入层、自注意力模型的编码器以及所述音频敏感内容分类器进行训练。7.根据权利要求6所述的方法,其特征在于,所述获取所述音频样本对应的敏感内容分类标签,包括:根据所述音频样本是否包含敏感内容,得到所述音频样本的第一标签;根据所述音频样本中敏感内容占比,得到所述音频样本的第二标签...

【专利技术属性】
技术研发人员:郑炜乔
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1