一种音频检测方法、装置、设备及存储介质制造方法及图纸

技术编号:19861473 阅读:15 留言:0更新日期:2018-12-22 12:36
本发明专利技术实施例公开了一种音频检测方法、装置、设备及存储介质,涉及计算机网络技术领域。该音频检测方法包括:获取音频文件数据;确定音频文件数据对应的属性检测数据;通过预先训练的全连接网络模型,依据属性检测数据进行语音违规行为检测,生成音频文件数据对应的语音行为检测结果。本发明专利技术实施例能够及时检测出语音违规行为对应的违规语音数据,从而解决了现有基于用户举报和人工抽查导致语音违规行为检测的时间滞后的问题。

【技术实现步骤摘要】
一种音频检测方法、装置、设备及存储介质
本专利技术涉及计算机网络
,尤其涉及一种音频检测方法、装置、设备及存储介质。
技术介绍
随着计算机网络技术的快速发展,诸如个人计算机(PersonalComputer,PC)、手机、平板电脑等设备越来越普及,给人们的生活、学习及工作带来了极大的便利。作为设备的一个具体应用,用户可以使用设备,通过网络与其他用户进行语音沟通,如可以使用设备中所安装的带有语音聊天功能的软件,通过网络与其他用户进行语音聊天,也可以通过加入特定聊天室或聊天群参与多人的语音聊天和娱乐。具体的,用户可以通过设备将其所需要发送的语音信息发送给网络,使得其他用户可以通过网络接收到该语音信息并播放,达到语音沟通的目的。在实际聊天环境中,尤其是多人聊天时,语音信息涉及的内容范围较广,其中可能包含令人不适的语音数据,诸如刺耳、高分贝、内容不恰当等,这些语音通常是由个别用户恶意发出旨在干扰其他用户的正常使用,因而软件运营方将这类语音列为违规语音数据。为了打击违规语音数据,保障用户的正常使用体验,避免用户流失而影响商业运营,软件运营方做了很多努力和探索,但收效有限。现有技术中,经常采用两种方案,一种是在软件上配置有举报入口,供正常用户举办违规用户,软件平台根据举报的线索作相应处理和惩罚;另一种是在平台侧部署人力,通过人工抽查或监控处理违规语音。对于具有大量活跃用户的软件平台,同一时间内经常同时并存数目极大的聊天室,各种违规语音数据很可能会大量随机出现,由此可知,上述两种方案均难以有效制止同一时间内随机出现的大量违规语音数据,也整体上很难解决违规语音影响用户正常体验的问题,并且偏向事后或者事情发生到一定程度后才介入,因此存在时间滞后,并且投入代价大。
技术实现思路
有鉴于此,本专利技术实施例提供一种音频检测方法、系统、设备以及存储介质,通过自动检测语音违规行为,以解决传统基于人工检测违规语音数据的方法中所存在的检测时间滞后的技术问题。第一方面,本专利技术实施例提供了一种音频检测方法,包括:获取音频文件数据;确定音频文件数据对应的属性检测数据;通过预先训练的全连接网络模型,依据属性检测数据进行语音违规行为检测,生成音频文件数据对应的语音行为检测结果。可选的,确定音频文件数据对应的属性检测数据,包括:对音频文件数据进行切片处理,得到至少两帧音频时域信息;依据至少两帧音频时域信息进行特征提取,得到振幅谱特征数据和声纹特征数据;对振幅谱特征数据和声纹特征数据进行拼接,生成特征向量数据;通过预先训练的语音分类模型,依据特征向量数据进行语音分类处理,得到作为所述属性检测数据的分类概率数据。可选的,依据至少两帧音频时域信息进行特征提取,得到振幅谱特征数据,包括:对至少两帧音频时域信息进行频域变换,得到音频频域信息;基于音频频域信息进行振幅谱特征提取,得到所述音振幅谱特征数据。可选的,确定音频文件数据对应的属性检测数据,包括:对音频文件数据进行切片处理,得到至少两帧音频时域信息;对至少两帧音频时域信息进行频域变换,得到音频频域信息;对音频频域信息进行均值处理,得到第二定长数据;基于第一定长数据,通过预先训练的神经网络模型进行声纹特征提取,得到作为所述属性检测数据的声纹特征数据。可选的,上述方法还包括:从预设的训练集中,获取待训练音频文件数据;采用预设的移动窗口,对待训练音频文件数据进行切片,得到帧时域信息;对帧时域信息进行频域变换,得到帧频域信息;对帧频域信息进行均值处理,得到第二定长数据;基于第二定长数据和音频文件数据对应的标签数据,按照预设的神经网络算法进行训练,得到神经网络模型。可选的,还包括:获取目标用户的历史行为数据;根据所述历史行为数据得到作为所述属性检测数据的用户等级数据。其中,历史行为数据包括以下至少一项:历史登录数据、用户消费行为数据、违规历史数据和充值历史数据。历史登录数据包括:登录次数、登录时长以及登录地址。可选地,所述属性检测数据包括以下至少两项:用户等级数据、分类概率数据和声纹特征数据,所述用户等级数据用于表征用户等级,所述分类概率数据用于表征语音违规行为对应的分类概率,声纹特征数据用于表征音频文件数据对应的声纹特征。可选的,通过预先训练的全连接网络模型,依据属性检测数据进行语音违规行为检测,生成音频文件数据对应的语音行为检测结果,包括:将属性检测数据输入到全连接网络模型进行检测;将全连接网络模型输出的检测结果作为语音行为检测结果。可选的,上述方法还包括:当语音违规行为检测结果为语音违规行为检测结果时,确定所述音频文件数据包含违规语音数据;禁止传输或播放所述违规语音数据;或者,屏蔽所述违规语音数据对应用户的语音输入。可选的,上述方法还包括:采用预设的移动窗口,对获取到的待训练音频文件数据进行切片,得到帧时域信息;依据帧时域信息进行特征提取,得到振幅谱特征训练数据和声纹特征训练数据,其中,特征提取包括:振幅谱特征提取和声纹特征提取;对振幅谱特征训练数据进行均值处理,得到第三定长数据;对振幅谱特征训练数据和声纹特征训练数据进行拼接,生成特征向量训练数据;依据第三定长数据和特征向量训练数据进行训练,得到语音分类模型。可选的,上述方法还包括:获取待训练属性检测数据;依据待训练属性检测数据进行训练,得到全连接网络模型。第二方面,本专利技术实施例还提供了一种音频检测装置,包括:音频文件数据获取模块,用于获取音频文件数据;属性检测数据确定模块,用于确定音频文件数据对应的属性检测数据;语音违规行为检测模块,用于通过预先训练的全连接网络模型,依据属性检测数据进行语音违规行为检测,生成音频文件数据对应的语音行为检测结果。第三方面,本专利技术实施例还提供了一种设备,包括:处理器和存储器;所述存储器中存储有至少一条指令,所述指令由所述处理器执行,使得所述设备执行如第一方面所述的音频检测方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述存储介质中的指令由设备的处理器执行时,使得设备能够执行如第一方面所述的音频检测方法。采用本专利技术实施例,在获取到音频文件数据后,可通过确定音频文件数据对应的属性检测数据,来进行语音违规行为检测,从而能够及时检测出语音违规行为对应的违规语音数据,确保用户的正常使用,解决了现有基于用户举报和人工抽查导致语音违规行为检测的时间滞后的问题,投入代价小。附图说明图1是本专利技术实施例中的一种音频检测方法的步骤流程示意图;图2是本专利技术一个可选示例中的音频文件数据的检测流程示意图;图3是本专利技术实施例中的一种音频检测装置实施例的结构方框示意图;图4是本专利技术一个示例中的一种设备的结构方框示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构或组成。参照图1,示出了本专利技术的一种音频检测方法实施例的步骤流程示意图,具体可以包括如下步骤:步骤110,获取音频文件数据。具体的,本专利技术实施例在语音违规行为检测过程中,可以获取当前所需要检测的音频文件数据,以检测当前获取到音频文件数据是否包含语音违规行为对应的违规语音数据。其中,音频文件数据可以用于表征本文档来自技高网
...

【技术保护点】
1.一种音频检测方法,其特征在于,包括:获取音频文件数据;确定所述音频文件数据对应的属性检测数据;通过预先训练的全连接网络模型,依据所述属性检测数据进行语音违规行为检测,生成所述音频文件数据对应的语音行为检测结果。

【技术特征摘要】
1.一种音频检测方法,其特征在于,包括:获取音频文件数据;确定所述音频文件数据对应的属性检测数据;通过预先训练的全连接网络模型,依据所述属性检测数据进行语音违规行为检测,生成所述音频文件数据对应的语音行为检测结果。2.根据权利要求1所述的方法,其特征在于,所述确定所述音频文件数据对应的属性检测数据,包括:对所述音频文件数据进行切片处理,得到至少两帧音频时域信息;依据所述至少两帧音频时域信息进行特征提取,得到振幅谱特征数据和声纹特征数据;对所述振幅谱特征数据和所述声纹特征数据进行拼接,生成特征向量数据;通过预先训练的语音分类模型,依据所述特征向量数据进行语音分类处理,得到作为所述属性检测数据的分类概率数据。3.根据权利要求2所述的方法,其特征在于,所述依据所述至少两帧音频时域信息进行特征提取,得到振幅谱特征数据,包括:对所述至少两帧音频时域信息进行频域变换,得到音频频域信息;基于所述音频频域信息进行振幅谱特征提取,得到所述振幅谱特征数据。4.根据权利要求1所述的方法,其特征在于,所述确定所述音频文件数据对应的属性检测数据,包括:对所述音频文件数据进行切片处理,得到至少两帧音频时域信息;对所述至少两帧音频时域信息进行频域变换,得到音频频域信息;对所述音频频域信息进行均值处理,得到第一定长数据;基于所述第一定长数据,通过预先训练的神经网络模型进行声纹特征提取,得到作为所述属性检测数据的声纹特征数据。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:从预设的训练集中,获取待训练音频文件数据;采用预设的移动窗口,对所述待训练音频文件数据进行切片,得到帧时域信息;对所述帧时域信息进行频域变换,得到帧频域信息;对所述帧频域信息进行均值处理,得到第二定长数据;基于所述第二定长数据和所述音频文件数据对应的标签数据,按照预设的神经网络算法进行训练,得到所述神经网络模型。6.根据权利要求1所述的方法,其特征在于,还包括:获取目标用户的历史行为数据,其中,所述历史行为数据包括以下至少一项:历史登录数据、用户消费行为数据、违规历史数据和充值历史数据;根据所述历史行为数据得到作为所述属性检测数据的用户等级数据。7.根据权利要求1所述的方法,其特征在于,所述属性检测数据包括以下至少...

【专利技术属性】
技术研发人员:李振黄震川邹昱
申请(专利权)人:广州市百果园信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1