音频数据风险检测方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38271910 阅读:11 留言:0更新日期:2023-07-27 10:25
本发明专利技术公开了一种音频数据风险检测方法,该方法包括获取音频数据,对音频数据进行音频识别,得到音频识别结果;对音频数据进行语音识别,得到音频文本;对音频文本进行文本情绪识别,得到文本情绪识别结果;对音频数据进行特征提取,得到语音特征,并对语音特征进行语音情绪识别,确定语音情绪识别结果;根据音频识别结果、文本情绪识别结果和语音情绪识别结果,确定风险检测结果。本发明专利技术通过文本情绪识别结果和语音情绪识别结果对音频数据中的情绪进行识别,提高了情绪识别结果的准确率。通过文本情绪识别结果、语音情绪识别结果和音频识别结果对音频数据进行风险检测,充分利用了音频数据中的声纹信息,从而提高了风险检测结果的准确率

【技术实现步骤摘要】
音频数据风险检测方法、装置、计算机设备及存储介质


[0001]本专利技术涉及语音处理
,尤其涉及一种音频数据风险检测方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着科学技术不断的发展,语音处理技术也逐渐应用在不同的领域当中。比如,在风险检测场景下,通过将语音数据转换为文本信息,并对文本信息进行意图检测,以便针对意图检测结果采取相应的风险应对措施。
[0003]现有技术中,风险检测技术往往是通过风险信号标记、风险预测建模和文本风险挖掘进行风险预测,以及通过语音数据中的声纹特征与历史标记数据进行匹配,从而判断语音数据是否有违规、诈骗或刷单等风险。但是风险预测建模并不能覆盖所有场景,适用性差。只基于文本内容的风险检测结果的准确率不高,效果也不理想,也不能充分利用文本信息中的情感信息。而且通过声纹特征与历史标记数据进行匹配,也不能充分利于语音数据中的情感信息进行风险检测。

技术实现思路

[0004]本专利技术实施例提供一种音频数据风险检测方法、装置、计算机设备及存储介质,以解决现有技术中文本检测准确率低以及语音数据无法充分利用的问题。
[0005]一种音频数据风险检测方法,包括:
[0006]获取音频数据,通过预设声纹分析模型对所述音频数据进行音频识别,得到音频识别结果;
[0007]根据预设语音识别模型对所述音频数据进行语音识别,得到音频文本;
[0008]基于预设文本识别模型对所述音频文本进行文本情绪识别,得到文本情绪识别结果;
[0009]对所述音频数据进行语音特征提取,得到语音特征,并对所述语音特征进行语音情绪识别,确定语音情绪识别结果;
[0010]根据所述音频识别结果、所述文本情绪识别结果和所述语音情绪识别结果,确定风险检测结果。
[0011]一种音频数据风险检测装置,包括:
[0012]音频识别模块,用于获取音频数据,通过预设声纹分析模型对所述音频数据进行音频识别,得到音频识别结果;
[0013]语音识别模块,用于根据预设语音识别模型对所述音频数据进行语音识别,得到音频文本;
[0014]文本情绪识别模块,用于基于预设文本识别模型对所述音频文本进行文本情绪识别,得到文本情绪识别结果;
[0015]语音情绪识别模块,用于对所述音频数据进行语音特征提取,得到语音特征,并对
所述语音特征进行语音情绪识别,确定语音情绪识别结果;
[0016]结果确定模块,用于根据所述音频识别结果、所述文本情绪识别结果和所述语音情绪识别结果,确定风险检测结果。
[0017]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述音频数据风险检测方法。
[0018]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述音频数据风险检测方法。
[0019]本专利技术提供一种音频数据风险检测方法、装置、计算机设备及存储介质,该方法通过预设声纹分析模型对音频数据进行音频识别,充分利用音频数据中包含的语音信息,从而实现了对音频识别结果的确定,进而提高了对音频数据风险检测的准确率。通过预设语音识别模型对音频数据进行语音识别,从而实现了对音频文本的获取,进而提高了音频文本内容识别的准确率。通过预设文本识别模型对音频文本进行文本情绪识别,充分抽取了音频文本中的语义信息,从而实现了对文本情绪识别结果的提取,进而提高了文本情绪识别结果的准确率。通过提取的语音情绪识别结果、文本情绪识别结果和音频识别结果对音频数据进行风险检测,从而提高了风险检测结果准确率,确保了对音频数据风险检测的准确性。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术一实施例中音频数据风险检测方法的应用环境示意图;
[0022]图2是本专利技术一实施例中音频数据风险检测方法的流程图;
[0023]图3是本专利技术一实施例中音频数据风险检测方法中步骤S10的流程图;
[0024]图4是本专利技术一实施例中音频数据风险检测方法中步骤S106的流程图;
[0025]图5是本专利技术一实施例中音频数据风险检测装置的原理框图;
[0026]图6是本专利技术一实施例中计算机设备的示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]本专利技术实施例提供的音频数据风险检测方法,该音频数据风险检测方法可应用如图1所示的应用环境中。具体地,该音频数据风险检测方法应用在音频数据风险检测装置中,该音频数据风险检测装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中文本检测准确率低以及语音数据无法充分利用的问题。其
中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供分类服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。
[0029]在一实施例中,如图2所示,提供一种音频数据风险检测方法,以该方法应用在图1中的客户端为例进行说明,包括如下步骤:
[0030]S10:获取音频数据,通过预设声纹分析模型对所述音频数据进行音频识别,得到音频识别结果。
[0031]可理解地,音频数据为需要进行风险检测的对话。如在理赔过程中,音频数据为用户和客服之间的对话。如在智能会议场景中,音频数据可以是不同用户之间的对话。音频识别结果为声纹分析模型对音频数据进行音频风险识别得到的,用于表征音频数据中的风险。预设声纹分析模型用于对音频数据的声纹特征进行风险分析,该模型为基于ECAPA

TDNN框架改进的模型,模型参数与ECAPA

TDNN框架的参数不同。
[0032]进一步地,从服务器中调取音频数据,或者由用户从客户端发送至服务器的音频数据。通过MFCC对音频数据进行特征提取,得到与音频数据对应的特征,并将音频特征输入到预设声纹分析模型中,通过预设声纹分析模型对音频特征进行卷积层处理,得到卷积特征向量。根据残差网络层对卷积特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据风险检测方法,其特征在于,包括:获取音频数据,通过预设声纹分析模型对所述音频数据进行音频识别,得到音频识别结果;根据预设语音识别模型对所述音频数据进行语音识别,得到音频文本;基于预设文本识别模型对所述音频文本进行文本情绪识别,得到文本情绪识别结果;对所述音频数据进行语音特征提取,得到语音特征,并对所述语音特征进行语音情绪识别,确定语音情绪识别结果;根据所述音频识别结果、所述文本情绪识别结果和所述语音情绪识别结果,确定风险检测结果。2.如权利要求1所述的音频数据风险检测方法,其特征在于,所述获取音频数据,包括:获取语音数据,并对所述语音数据进行分帧处理,得到与所述语音数据对应的分帧数据;对所有所述分帧数据进行端点检测,得到各所述分帧数据的起始点和终止点;根据各所述分帧数据的起始点和终止点对所述语音数据进行去噪处理,得到所述音频数据。3.如权利要求1所述的音频数据风险检测方法,其特征在于,所述预设声学分析模型包括第一卷积层、多个残差网络层、卷积池化层和全连接层;所述卷积池化层第二卷积层和注意力池化层;所述通过预设声纹分析模型对所述音频数据进行音频识别,得到音频识别结果,包括:对所述音频数据进行特征提取,得到音频特征;通过所述第一卷积层对所述音频特征进行卷积处理,得到卷积特征向量;将所述卷积特征向量输入至所述残差网络层中,并获取每一个所述残差网络层输出的残差特征向量;通过所述第二卷积层对所有残差网络层输出的所述残差特征向量进行卷积处理,得到语音特征向量;通过所述注意力池化层对所述语音特征向量进行向量处理,得到输出特征向量;通过所述全连接层对所述输出特征向量进行预测处理,得到所述音频识别结果。4.如权利要求3所述的音频数据风险检测方法,其特征在于,所述残差网络层包括第一残差网络层、第二残差网络层和第三残差网络层;所述将所述卷积特征向量输入至所述残差网络层中,并获取每一个所述残差网络层输出的残差特征向量,包括:将所述卷积特征向量输入所述第一残差网络层,通过所述第一残差网络层对所述卷积特征向量进行特征提取,得到第一特征向量;通过所述第二残差网络层对所述第一特征向量进行特征提取,得到第二特征向量;通过所述第三残差网络层对所述第二特征向量进行特征提取,得到第三特征向量;将所述第一特征向量、所述第二特征向量和所述第三特征向量记录为所述残差特征向量。5.如权利要求1所述的音频数据风险检测方法,其特征在于,所述预设语音识别模型包括编码器、时序分类解码器和注意力解码器;
所述根据预设语音识别模型对所述音频数据进行语音识别,得到音频文本,包括:通过所述编码器对所述音频数据进行编码处理,得到音频向量;通过所述时序分类解码器对所述音频向量进行流式解码,得到至少一个流式结果;通过...

【专利技术属性】
技术研发人员:曹子豪王健宗黄章成
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1