音频数据的监控处理方法和系统技术方案

技术编号:21895650 阅读:21 留言:0更新日期:2019-08-17 16:00
本发明专利技术实施例公开了一种音频数据的监控处理方法和系统,该音频数据的监控处理方法包括:获取多个音频样本文件;对多个音频样本文件进行预处理,并获取多个音频样本文件的标注信息;根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵;根据多个MFCC特征矩阵和场景信息采用tensorflow框架进行训练得到音频场景识别预测模型;获取监控音频数据,并使用音频场景预测模型对监控音频数据进行分析预测得到监控音频数据的场景信息。本发明专利技术无需借助音频转文字而是可以对监控音频本身进行识别判断说话人所处的场景(例如色情场景/普通场景/音乐场景),做出场景预测,预警所监控环境下的异常行为。

Monitoring and Processing Method and System of Audio Data

【技术实现步骤摘要】
音频数据的监控处理方法和系统
本专利技术实施例涉及音频处理
,具体涉及一种音频数据的监控处理方法和系统。
技术介绍
现有的音频监控技术,主要通过录入音频并存储,然后将音频转化为文字,再对文字进行识别从而实现音频监控。这种方式不是对音频本身进行识别,更不能达到实时预警。
技术实现思路
为此,本专利技术实施例提供一种音频数据的监控处理方法和系统,以解决现有技术中无法对音频本身进行识别,无法实时进行音频监控的问题。为了实现上述目的,本专利技术实施例提供如下技术方案:本专利技术第一方面的实施例公开了一种音频数据的监控处理方法,包括:获取多个音频样本文件;对所述多个音频样本文件进行预处理,并获取所述多个音频样本文件的标注信息,所述标注信息包括对应所述多个音频样本文件的多个场景信息;根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵;根据所述多个MFCC特征矩阵和所述场景信息采用预设框架进行训练得到音频场景识别预测模型;获取监控音频数据,并使用音频场景预测模型对所述监控音频数据进行分析预测得到所述监控音频数据的场景信息。进一步地,根据所述多个MFCC特征矩阵和所述多个场景信息采用所述预设框架进行训练得到所述音频场景识别预测模型,包括:将所述多个MFCC特征矩阵和所述多个场景信息分为训练集和验证集;根据所述训练集和预设训练参数采用tensorflow框架生成第一识别预测模型;通过所述验证集验证所述第一识别预设模型是否符合预设标准;如果所述第一识别预设模型不符合所述预设标准,则调整所述预设训练参数重新训练模型;如果所述第一识别预设模型符合所述预设标准,则将所述第一识别预设模型作为所述音频场景识别预测模型。进一步地,还包括:根据所述MFCC特征矩阵和多个辅助信息采用所述tensorflow框架进行训练得到音频辅助识别预测模型;当所述监控音频数据的场景信息满足预设敏感场景规则时,使用所述音频辅助识别预测模型对所述监控音频数据进行预测得到所述监控音频数据的辅助识别信息;其中,所述标注信息还包括与所述多个音频样本文件对应的所述多个辅助信息。进一步地,所述多个辅助信息包括对应所述多个音频样本文件的多个生成时间、对应所述多个音频样本文件中多个人声性别信息、多个声纹特征信息和对应所述多个音频样本文件的多个情绪信息。进一步地,所述预处理包括降噪、滤波、声道转换和类型转换中的至少一种。本专利技术第二方面的实施例公开了一种音频数据的监控处理系统,包括:获取模块,用于获取多个音频样本文件和监控音频数据,并获取所述多个音频样本文件的标注信息,其中,所述标注信息包括对应所述多个音频样本文件的多个场景信息;预处理模块,用于对多个音频样本文件进行预处理;特征矩阵生成模块,用于根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵;模型训练模块,用于根据所述多个MFCC特征矩阵和所述场景信息采用预设框架进行训练得到音频场景识别预测模型;控制模块,用于使用音频场景预测模型对所述监控音频数据进行分析预测得到所述监控音频数据的场景信息。进一步地,所述模型训练模块用于将所述多个MFCC特征矩阵和所述多个场景信息分为训练集和验证集,并根据所述训练集和预设训练参数采用tensorflow框架生成第一识别预测模型,再通过所述验证集验证所述第一识别预设模型是否符合预设标准,如果所述第一识别预设模型不符合所述预设标准,则调整所述预设训练参数重新训练模型;如果所述第一识别预设模型符合所述预设标准,则将所述第一识别预设模型作为所述音频场景识别预测模型。进一步地,所述标注信息还包括与所述多个音频样本文件对应的所述多个辅助信息;所述模型训练模块还用于根据所述MFCC特征矩阵和多个辅助信息采用所述tensorflow框架进行训练得到音频辅助识别预测模型;所述控制模块还用于当所述监控音频数据的场景信息满足预设敏感场景规则时,使用所述音频辅助识别预测模型对所述监控音频数据进行预测得到所述监控音频数据的辅助识别信息。进一步地,所述多个辅助信息包括对应所述多个音频样本文件的多个生成时间、对应所述多个音频样本文件中多个人声性别信息、多个声纹特征信息和对应所述多个音频样本文件的多个情绪信息。进一步地,所述预处理包括降噪、滤波、类型转换和声道转换中的至少一种。本专利技术第三方面的实施例公开了一种计算机存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种执行如上述的音频数据的监控处理方法。本专利技术具有如下优点:无需借助音频转文字而是可以对监控音频本身进行识别,判断说话人所处的场景(色情场景,普通场景,音乐场景)做出场景预测,预警所监控环境下的异常行为。附图说明为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
得能涵盖的范围内。图1为本专利技术实施例的音频数据的监控处理方法的流程图;图2为本专利技术实施例的音频数据的监控处理系统的结构框图。具体实施方式以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,术语“多个”表示三个和三个以上。图1为本专利技术实施例的音频数据的监控处理方法的流程图。如图1所示,本专利技术实施例的音频数据的监控处理方法,包括:S1:获取多个音频样本文件。具体地,通过网络和存储终端获取多个音频样本文件。在本专利技术的一个示例中,可以从多个指定音频监控装置的存储设备中获取该多个音频样本文件,这样对以后的音频分析更具有针对性。当然也可以不获取音频监控文件作为音频样本文件,根据用户需求而定。S2:对多个音频样本文件进行预处理,并获取多个音频样本文件的标注信息。其中,标注信息包括对应多个音频样本文件的多个场景信息。在本专利技术的一个实施例中,预处理包括降噪、滤波和声道转换中的至少一种,优选预处理包括降噪、滤波和声道转换。此外,预处理还可以包括对音频样本文件的采样率和码率进行规范,以实现多个音频样本文件的物理属性统一。在本专利技术一个实施例中,获取多个音频样本文件的标注信息的方式包括:对多个音频样本文件进行人工标注,以标准每个音频样本文件的场景信息,例如“音乐场景”,“聊天场景”等。S3:根据预处理后的多个音频样本文件得到多个MFCC特征矩阵。具体地,提取预处理后的多个音频样本文件的MFCC特征矩阵。此外,还可以提取预处本文档来自技高网
...

【技术保护点】
1.一种音频数据的监控处理方法,其特征在于,包括:获取多个音频样本文件;对所述多个音频样本文件进行预处理,并获取所述多个音频样本文件的标注信息,所述标注信息包括对应所述多个音频样本文件的多个场景信息;根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵;根据所述多个MFCC特征矩阵和所述场景信息采用预设框架进行训练得到音频场景识别预测模型;获取监控音频数据,并使用音频场景预测模型对所述监控音频数据进行分析预测得到所述监控音频数据的场景信息。

【技术特征摘要】
1.一种音频数据的监控处理方法,其特征在于,包括:获取多个音频样本文件;对所述多个音频样本文件进行预处理,并获取所述多个音频样本文件的标注信息,所述标注信息包括对应所述多个音频样本文件的多个场景信息;根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵;根据所述多个MFCC特征矩阵和所述场景信息采用预设框架进行训练得到音频场景识别预测模型;获取监控音频数据,并使用音频场景预测模型对所述监控音频数据进行分析预测得到所述监控音频数据的场景信息。2.根据权利要求1所述的音频数据的监控处理方法,根据所述多个MFCC特征矩阵和所述多个场景信息采用所述预设框架进行训练得到所述音频场景识别预测模型,包括:将所述多个MFCC特征矩阵和所述多个场景信息分为训练集和验证集;根据所述训练集和预设训练参数采用tensorflow框架生成第一识别预测模型;通过所述验证集验证所述第一识别预设模型是否符合预设标准;如果所述第一识别预设模型不符合所述预设标准,则调整所述预设训练参数重新训练模型;如果所述第一识别预设模型符合所述预设标准,则将所述第一识别预设模型作为所述音频场景识别预测模型。3.根据权利要求1所述的音频数据的监控处理方法,其特征在于,还包括:根据所述MFCC特征矩阵和多个辅助信息采用所述tensorflow框架进行训练得到音频辅助识别预测模型;当所述监控音频数据的场景信息满足预设敏感场景规则时,使用所述音频辅助识别预测模型对所述监控音频数据进行预测得到所述监控音频数据的辅助识别信息;其中,所述标注信息还包括与所述多个音频样本文件对应的所述多个辅助信息。4.根据权利要求3所述的音频数据的监控处理方法,所述多个辅助信息包括对应所述多个音频样本文件的多个生成时间、对应所述多个音频样本文件中多个人声性别信息、多个声纹特征信息和对应所述多个音频样本文件的多个情绪信息。5.根据权利要求1所述的音频数据的监控处理方法,其特征在于,所述预处理包括降噪、滤波、声道转换以及类型转换中的至少一种。6.一种音频数据的监控处理系统,其特征在于,包括:获取模块,用于获取多个音频样本文件和监控音频数据,并获取所...

【专利技术属性】
技术研发人员:程荣赵友林
申请(专利权)人:上海声构信息科技有限公司
类型:发明
国别省市:上海,31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1