恶意语音样本的确定方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:29529150 阅读:33 留言:0更新日期:2021-08-03 15:16
本申请涉及一种恶意语音样本的确定方法、装置、计算机设备和存储介质。该方法包括:获取初始语音样本集;根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集;根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度;将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。本方法基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。

【技术实现步骤摘要】
恶意语音样本的确定方法、装置、计算机设备和存储介质
本申请涉及语音处理
,特别是涉及一种恶意语音样本的确定方法、装置、计算机设备和存储介质。
技术介绍
随着语音传输技术的快速发展,出现了恶意语音检测技术。恶意语音检测技术是通过恶意语音检测模型来检测出恶意语音,例如诈骗语音,恐吓语音等等。通常,为保证恶意语音检测模型拥有较高的检测性能,需要采用不断更新的恶意语音样本对恶意语音检测模型进行训练并修正。传统技术中,通常采用人工筛选方式确定恶意语音并进行标注,得到恶意语音样本。然而,采用传统技术,恶意语音样本的确定效率较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高恶意语音样本确定效率的恶意语音样本的确定方法、装置、计算机设备和存储介质。一种恶意语音样本的确定方法,所述方法包括:获取初始语音样本集;根据预设的多种恶意类别对所述初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集;根据所述每种恶意类别对应的语音样本子集中的语音样本信息,本文档来自技高网...

【技术保护点】
1.一种恶意语音样本的确定方法,其特征在于,所述方法包括:/n获取初始语音样本集;/n根据预设的多种恶意类别对所述初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集;/n根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度;/n将所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。/n

【技术特征摘要】
1.一种恶意语音样本的确定方法,其特征在于,所述方法包括:
获取初始语音样本集;
根据预设的多种恶意类别对所述初始语音样本集进行分类,得到所述多种恶意类别中每种恶意类别对应的语音样本子集;
根据所述每种恶意类别对应的语音样本子集中的语音样本信息,计算所述每种恶意类别对应的语音样本子集的恶意度;
将所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。


2.根据权利要求1所述的方法,其特征在于,所述将所述恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本,包括:
获取所述每种恶意类别对应的语音样本子集中的语音样本的第一数量;
获取所述每种恶意类别对应的语音样本子集中添加有负向标记的语音样本的第二数量,其中,所述负向标记用于指示所述语音样本中包含负面语音内容;
根据所述第二数量与所述第一数量的比值,确定所述每种恶意类别对应的语音样本子集的恶意度。


3.根据权利要求2所述的方法,其特征在于,所述根据所述第二数量与所述第一数量的比值,确定所述每种恶意类别对应的语音样本子集的恶意度,包括:
计算所述第二数量与所述第一数量的比值,得到所述每种恶意类别对应的语音样本子集的负面反馈因子;
获取所述初始语音样本集中的语音样本的第三数量;
计算所述第一数量与所述第三数量的比值,得到所述每种恶意类别对应的语音样本子集的传播影响因子;
根据所述负面反馈因子和所述传播影响因子,计算所述每种恶意类别对应的语音样本子集的恶意度。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个候选分类数量以及每个候选分类数量对应的语音分类模型,其中,所述每个候选分类数量对应的语音分类模型中的每个语音分类模型用于处理一种候选恶意类别的分类任务;
针对所述每个候选分类数量,将所述初始语音样本集中的每个语音样本分别输入至所述候选分类数量对应的语音分类模型进行多种候选恶意类别的分类,得到所述每个语音样本所属多种候选恶意类别对应的多个置信度;
针对所述每个候选分类数量,从所述每个语音样本所属的多种候选恶意类别中选取所述置信度满足预设的第一置信度条件的候选恶意类别,确定为所述每个语音样本所属的第一恶意类别;
针对所述每个候选分类数量,根据所述每个语音样本所属第一恶意类别对应的第一置信度和所述每个语音样本所属第二恶意类别对应的第二置信度,确定所述每个候选分类数量对应的分类契合度总和,其中,所述第二恶意类别为所述多种候选恶意类别中除所述第一恶意类别之外的候选恶意类别;
将所述多个候选分类数量中所述分类契合度总和满足预设契合度总和条件的候选分类数量对应的多种候选恶意类别,确定为所述预设的多种恶意类别。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取每个候选分类数量对应的初始语音分类模型;
针对所述每个候选分类数量,将所述初始语音样本集中的每个语音样本分别输入至所述候选分类数量的初始语音分类模型进行多种恶意类别的分类,得到所述每个语音样本所属多种恶意类别对应的多个置信度,从所述每个语音样本所属的多种恶意类别中选取所述置信度满足预设的第二置信度条件的恶意类别,确定为所述每个语音样本所属的第三恶意类别;
针对所述每个候选分类数量,将所述第三恶意类别对应的语音样本输入至所述候选分类数量对应的初始语音分类模型进行训练,得到所述候...

【专利技术属性】
技术研发人员:计哲黄远孙晓晨沈亮李鹏万辛倪善金谭泽龙郭敏张卫强
申请(专利权)人:国家计算机网络与信息安全管理中心清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1