有害音频识别解码方法及装置制造方法及图纸

技术编号:27596421 阅读:22 留言:0更新日期:2021-03-10 10:16
本发明专利技术公开了有害音频识别解码方法及装置,该方法包括:获取待识别音频数据,提取待测音频中的声学特征,对所述声学特征进行有效音频检测得到有效音频段;将所述有效音频段输入到有害音频分类网络模型,从文本意图的角度对待测样本进行分类,输出文本集合分类结果;将所述文本集合分类结果输入声学模型中输出解码结果。本发明专利技术通过对声学特征进行有效音频检测得到有效音频段;将所述有效音频段输入到有害音频分类网络模型,从文本意图的角度对待测样本进行分类,输出文本集合分类结果;将所述文本集合分类结果输入声学模型中输出解码结果,通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,提高有害音频识别解码的准确率。别解码的准确率。别解码的准确率。

【技术实现步骤摘要】
有害音频识别解码方法及装置


[0001]本专利技术涉及一种有害音频识别解码方法及装置,属于音频识别


技术介绍

[0002]而目前大量的有害音频文件意图会被刻意的伪装,与有害音频有关的名词及采取的各类活动会借用其它词来替代,仅从字面上理解是很难与有害活动关联起来的,导致有害音频这类正例样本难以收集。相对海量的音频文件,有害音频的数量几乎可以忽略不计,而且需要大量有专业经验的Z察人员从海量音频数据中人工进行甄别、筛选,耗时长且工作量大,样本获取难度大。基于网络安全监管的需要,急需设计有害音频识别解码方法和装置方案解决有害音频文件的识别解码。

技术实现思路

[0003]本专利技术的目的在于,克服现有技术存在的技术缺陷,解决上述技术问题,提出有害音频识别解码方法及装置。
[0004]本专利技术具体采用如下技术方案:有害音频识别解码方法,包括:
[0005]获取待识别音频数据,提取待测音频中的声学特征,对所述声学特征进行有效音频检测得到有效音频段;
[0006]将所述有效音频段输入到有害音频分类网络模型,从文本意图的角度对待测样本进行分类,输出文本集合分类结果;
[0007]将所述文本集合分类结果输入声学模型中输出解码结果。
[0008]作为一种较佳的实施例,所述有害音频分类网络模型的训练方法如下:
[0009]设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θ
k
,其中k=1,2,

,2
n
;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θ
k
)=θ
k+1
,训练的目标函数为:
[0010][0011]通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(V
T
,V
F
)条件下有害音频的分类网络的学习。
[0012]作为一种较佳的实施例,所述将所述文本集合分类结果输入声学模型中输出解码结果具体包括:
[0013]将所述文本集合分类结果分别输入各个环境无关的声学模型中得到各个声学模型的第一轮解码结果;结合所述文本集合分类结果、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型;使用所述各个不同声学单元的环境自适应后的声学模型对所述文本集合分类结果分别解码,得到第二轮解码结果;对所述第二轮解码结果使用投票的方法以得到最终解
码结果。
[0014]作为一种较佳的实施例,所述进行环境自适应包括:
[0015]冻结环境无关的声学模型的全部参数,在所述环境无关的声学模型的第一个隐层后添加一个线性缩放层,初始化参数包括设置为1;
[0016]使用CTC准则对所述线性缩放层进行优化,其中,优化后的模型即为针对测试环境自适应后的声学模型。
[0017]作为一种较佳的实施例,所述声学模型包括单音素声学模型、三音素声学模型和字符声学模型;
[0018]所述对所述第二轮解码结果使用投票的方法以得到最终解码结果包括:将所述单音素声学模型的第二轮解码结果和所述三音素声学模型的第二轮识别结果进行对齐得到第一对齐序列;将所述第一对齐序列与所述字符声学模型的第二解码结果进行对齐得到第二对齐序列;基于所述第二对齐序列在各个声学模型的第二轮结果上进行投票,得到最终解码结果。
[0019]本专利技术还提出有害音频识别解码装置,包括:
[0020]特征提取模块,用于执行:获取待识别音频数据,提取待测音频中的声学特征,对所述声学特征进行有效音频检测得到有效音频段;
[0021]有害音频分类模块,用于执行:将所述有效音频段输入到有害音频分类网络模型,从文本意图的角度对待测样本进行分类,输出文本集合分类结果;
[0022]解码模块,用于执行:将所述文本集合分类结果输入声学模型中输出解码结果。
[0023]作为一种较佳的实施例,所述有害音频分类网络模型的训练方法如下:
[0024]设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θ
k
,其中k=1,2,

,2
n
;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θ
k
)=θ
k+1
,训练的目标函数为:
[0025][0026]通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(V
T
,V
F
)条件下有害音频的分类网络的学习。
[0027]作为一种较佳的实施例,所述将所述文本集合分类结果输入声学模型中输出解码结果具体包括:
[0028]将所述文本集合分类结果分别输入各个环境无关的声学模型中得到各个声学模型的第一轮解码结果;结合所述文本集合分类结果、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型;使用所述各个不同声学单元的环境自适应后的声学模型对所述文本集合分类结果分别解码,得到第二轮解码结果;对所述第二轮解码结果使用投票的方法以得到最终解码结果。
[0029]作为一种较佳的实施例,所述进行环境自适应包括:
[0030]冻结环境无关的声学模型的全部参数,在所述环境无关的声学模型的第一个隐层后添加一个线性缩放层,初始化参数包括设置为1;
[0031]使用CTC准则对所述线性缩放层进行优化,其中,优化后的模型即为针对测试环境自适应后的声学模型。
[0032]作为一种较佳的实施例,所述声学模型包括单音素声学模型、三音素声学模型和字符声学模型;
[0033]所述对所述第二轮解码结果使用投票的方法以得到最终解码结果包括:将所述单音素声学模型的第二轮解码结果和所述三音素声学模型的第二轮识别结果进行对齐得到第一对齐序列;将所述第一对齐序列与所述字符声学模型的第二解码结果进行对齐得到第二对齐序列;基于所述第二对齐序列在各个声学模型的第二轮结果上进行投票,得到最终解码结果。
[0034]本专利技术所达到的有益效果:本专利技术针对如何解决目前大量的有害音频文件意图会被刻意的伪装,与有害音频有关的名词及采取的各类活动会借用其它词来替代,仅从字面上理解是很难与有害活动关联起来的,导致有害音频这类正例样本难以收集的技术需求,通过设计一种有害音频识别解码方法,获取待识别音频数据,提取待测音频中的声学特征,对所述声学特征进行有效音频检测得到有效音频段;将所述有效音频段输入到有害音频分类网络模型,从文本意图的角度对待测样本进行分类,输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.有害音频识别解码方法,其特征在于,包括:获取待识别音频数据,提取待测音频中的声学特征,对所述声学特征进行有效音频检测得到有效音频段;将所述有效音频段输入到有害音频分类网络模型,从文本意图的角度对待测样本进行分类,输出文本集合分类结果;将所述文本集合分类结果输入声学模型中输出解码结果。2.根据权利要求1所述的有害音频识别解码方法,其特征在于,所述有害音频分类网络模型的训练方法如下:设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θ
k
,其中k=1,2,

,2
n
;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θ
k
)=θ
k+1
,训练的目标函数为:通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(V
T
,V
F
)条件下有害音频的分类网络的学习。3.根据权利要求1所述的有害音频识别解码方法,其特征在于,所述将所述文本集合分类结果输入声学模型中输出解码结果具体包括:将所述文本集合分类结果分别输入各个环境无关的声学模型中得到各个声学模型的第一轮解码结果;结合所述文本集合分类结果、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型;使用所述各个不同声学单元的环境自适应后的声学模型对所述文本集合分类结果分别解码,得到第二轮解码结果;对所述第二轮解码结果使用投票的方法以得到最终解码结果。4.根据权利要求3所述的有害音频识别解码方法,其特征在于,所述进行环境自适应包括:冻结环境无关的声学模型的全部参数,在所述环境无关的声学模型的第一个隐层后添加一个线性缩放层,初始化参数包括设置为1;使用CTC准则对所述线性缩放层进行优化,其中,优化后的模型即为针对测试环境自适应后的声学模型。5.根据权利要求3所述的有害音频识别解码方法,其特征在于,所述声学模型包括单音素声学模型、三音素声学模型和字符声学模型;所述对所述第二轮解码结果使用投票的方法以得到最终解码结果包括:将所述单音素声学模型的第二轮解码结果和所述三音素声学模型的第二轮识别结果进行对齐得到第一对齐序列;将所述第一对齐序列与所述字符声学模型的第二解码结果进行对齐得到第二对齐序列;基于所述第二对齐序列在各个声学模型的第二轮结果上进行投票,得到最终解码结果。6.有害音频识别解码装置,其特征在于,包括:

【专利技术属性】
技术研发人员:李鹏石瑾张震孙晓晨杨晶超宁珊冯象雷倪江帆
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1