音频分类的方法、装置、设备以及存储介质制造方法及图纸

技术编号:25483453 阅读:27 留言:0更新日期:2020-09-01 23:03
本申请公开了一种音频分类的方法、装置、设备以及存储介质,属于计算机技术领域。所述方法包括:获取待分类的音频数据;在目标音频流中按时间顺序获取单位时长的音频数据;每获取一个单位时长的音频数据,基于音频分类模型确定音频数据对应的音频类型;当检测到第一音频数据为人声类型且第一音频数据的前一个音频数据为非人声类型时,确定第一音频数据为人声起点音频数据,当检测到第二音频数据为非人声类型且第二音频数据的前一个音频数据为人声类型时,确定第二音频数据为人声终点音频数据;基于人声起点音频数据和人声终点音频数据,确定目标音频流中的人声音频段,对人声音频段执行目标处理。通过本申请可以提高音频分类的准确性。

【技术实现步骤摘要】
音频分类的方法、装置、设备以及存储介质
本申请涉及计算机
,特别涉及一种音频分类的方法、装置、设备以及存储介质。
技术介绍
随着网络技术的发展,人们相互之间发送语音或者直接进行语言通话成为了人们生活最为普遍的一种沟通方式,这也就衍生出了对语音内容检测的需求,在进行语音检测时,首先是要对音频数据进行截取,为此技术人员进行了如下设置:计算机设备在目标音频流中截取单位时长的音频数据,并获取上述音频数据中音频帧的频率范围,检测音频帧的频率范围是否属于人声频率范围,如果属于则该音频帧为人声类型,如果不属于则该音频帧为非人声类型,进而截取上述单位时长的音频数据中人声类型的音频帧,得到截取后的音频数据。在实现本申请的过程中,专利技术人发现现有技术至少存在以下问题:现有技术是通过检测音频帧的频率范围来对音频进行分类的,而在现实中很多声音与人声频率范围非常接近甚至相同,因此,在音频流中截取人声音频段的准确性较差。
技术实现思路
本申请实施例提供了一种音频分类的方法、装置、设备以及存储介质,能够解决在音频流中截取人声音频段的准确性较差的问题。所述技术方案如下:一方面,提供了一种音频分类的方法,所述方法包括:在目标音频流中按时间顺序获取单位时长的音频数据;每获取一个单位时长的音频数据,基于所述音频分类模型确定所述音频数据对应的音频类型,其中,所述音频类型包括人声类型和非人声类型,所述音频分类模型包括全连接层和长短时记忆层;当检测到第一音频数据为人声类型且所述第一音频数据的前一个音频数据为非人声类型时,确定所述第一音频数据为人声起点音频数据,当检测到第二音频数据为非人声类型且所述第二音频数据的前一个音频数据为人声类型时,确定所述第二音频数据为人声终点音频数据;基于所述人声起点音频数据和所述人声终点音频数据,确定所述目标音频流中的人声音频段,对所述人声音频段执行目标处理。可选的,所述基于所述音频分类模型确定所述音频数据对应的音频类型,包括:基于所述音频数据和音频分类模型的输入层,确定所述音频数据对应第一中间数据;基于所述第一中间数据和所述音频分类模型的全连接层,确定所述音频数据对应的第二中间数据;基于所述第二中间数据和所述音频分类模型的长短时记忆层,确定所述音频数据对应的第三中间数据;基于所述第三中间数据和所述音频分类模型的输出层,确定所述音频数据对应的音频类型。可选的,所述基于所述第一中间数据和所述音频分类模型的全连接层,确定所述音频数据对应的第二中间数据,包括:基于所述第一中间数据和所述音频分类模型的卷积层,确定所述音频数据对应的第四中间数据;基于所述第四中间数据和所述音频分类模型的全连接层,确定所述音频数据对应的第二中间数据。可选的,所述音频数据包括对应多个音频帧的子音频数据,第一中间数据包括对应多个音频帧的第一子中间数据,第二中间数据包括对应多个音频帧的第二子中间数据,第四中间数据包括对应多个音频帧的第四子中间数据。可选的,所述基于所述音频数据和音频分类模型的输入层,确定所述音频数据对应第一中间数据,包括:将每个子音频数据分别输入音频分类模型的输入层,得到对应多个音频帧的第一子中间数据;所述基于所述第一中间数据和所述音频分类模型的卷积层,确定所述音频数据对应的第四中间数据,包括:将每个第一子中间数据分别输入音频分类模型的卷积层,得到对应多个音频帧的第四子中间数据;所述基于所述第四中间数据和所述音频分类模型的全连接层,确定所述音频数据对应的第二中间数据,包括:将每个第四子中间数据分别输入音频分类模型的全连接层,得到对应多个音频帧的第二子中间数据;所述基于所述第二中间数据和所述音频分类模型的长短时记忆层,确定所述音频数据对应的第三中间数据,包括:将多个第二子中间数据,按照对应音频帧的时间先后顺序进行组合,输入所述音频分类模型的长短时记忆层,得到所述音频数据对应的第三中间数据;所述基于所述第三中间数据和所述音频分类模型的输出层,确定所述音频数据对应的音频类型,包括:将所述第三中间数据拆分为对应多个音频帧的第三子中间数据;将对应多个音频帧的第三子中间数据,分别输入所述音频分类模型的输出层,确定每个音频帧对应的音频类型。可选的,所述音频类型包括第一音频类型和第二音频类型,所述将对应多个音频帧的第三子中间数据,分别输入所述音频分类模型的输出层,确定每个音频帧对应的音频类型,包括:将对应多个音频帧的第三子中间数据,分别输入所述音频分类模型的输出层,得到每个音频帧为第一音频类型的概率;将对应的概率值大于预设阈值的音频帧确定为第一音频类型,将对应的概率值小于预设阈值的音频帧确定为第二音频类型。另一方面,提供了一种音频分类的装置,所述装置包括:获取模块,用于在目标音频流中按时间顺序获取单位时长的音频数据;确定模块,用于每获取一个单位时长的音频数据,基于所述音频分类模型确定所述音频数据对应的音频类型,其中,所述音频类型包括人声类型和非人声类型,所述音频分类模型包括全连接层和长短时记忆层;检测模块,用于当检测到第一音频数据为人声类型且所述第一音频数据的前一个音频数据为非人声类型时,确定所述第一音频数据为人声起点音频数据,检测模块,还用于当检测到第二音频数据为非人声类型且所述第二音频数据的前一个音频数据为人声类型时,确定所述第二音频数据为人声终点音频数据;处理模块,用于基于所述人声起点音频数据和所述人声终点音频数据,确定所述目标音频流中的人声音频段,对所述人声音频段执行目标处理。可选的,所述确定模块,用于:获取待分类的音频数据;基于所述音频数据和音频分类模型的输入层,确定所述音频数据对应第一中间数据;基于所述第一中间数据和所述音频分类模型的全连接层,确定所述音频数据对应的第二中间数据;基于所述第二中间数据和所述音频分类模型的长短时记忆层,确定所述音频数据对应的第三中间数据;基于所述第三中间数据和所述音频分类模型的输出层,确定所述音频数据对应的音频类型。可选的,所述确定模块,用于:基于所述第一中间数据和所述音频分类模型的卷积层,确定所述音频数据对应的第四中间数据;基于所述第四中间数据和所述音频分类模型的全连接层,确定所述音频数据对应的第二中间数据。可选的,所述音频数据包括对应多个音频帧的子音频数据,第一中间数据包括对应多个音频帧的第一子中间数据,第二中间数据包括对应多个音频帧的第二子中间数据,第四中间数据包括对应多个音频帧的第四子中间数据。可选的,所述确定模块,用于:将每个子音频数据分别输入音频分类模型的输入层,得到对应多个音频帧的第一子中间数据;所述确定模块,用于:将每个第一子中间数据分别输入音频分类模型的卷积层,得到对应多个音频帧的第四子中间数据;所述确定模块,用于:将每个第四子中间数据分别输入音频分类模型本文档来自技高网...

【技术保护点】
1.一种音频分类的方法,其特征在于,所述方法包括:/n在目标音频流中按时间顺序获取单位时长的音频数据;/n每获取一个单位时长的音频数据,基于所述音频分类模型确定所述音频数据对应的音频类型,其中,所述音频类型包括人声类型和非人声类型,所述音频分类模型包括全连接层和长短时记忆层;/n当检测到第一音频数据为人声类型且所述第一音频数据的前一个音频数据为非人声类型时,确定所述第一音频数据为人声起点音频数据,/n当检测到第二音频数据为非人声类型且所述第二音频数据的前一个音频数据为人声类型时,确定所述第二音频数据为人声终点音频数据;/n基于所述人声起点音频数据和所述人声终点音频数据,确定所述目标音频流中的人声音频段,对所述人声音频段执行目标处理。/n

【技术特征摘要】
1.一种音频分类的方法,其特征在于,所述方法包括:
在目标音频流中按时间顺序获取单位时长的音频数据;
每获取一个单位时长的音频数据,基于所述音频分类模型确定所述音频数据对应的音频类型,其中,所述音频类型包括人声类型和非人声类型,所述音频分类模型包括全连接层和长短时记忆层;
当检测到第一音频数据为人声类型且所述第一音频数据的前一个音频数据为非人声类型时,确定所述第一音频数据为人声起点音频数据,
当检测到第二音频数据为非人声类型且所述第二音频数据的前一个音频数据为人声类型时,确定所述第二音频数据为人声终点音频数据;
基于所述人声起点音频数据和所述人声终点音频数据,确定所述目标音频流中的人声音频段,对所述人声音频段执行目标处理。


2.根据权利要求1所述的方法,其特征在于,所述基于所述音频分类模型确定所述音频数据对应的音频类型,包括:
基于所述音频数据和音频分类模型的输入层,确定所述音频数据对应第一中间数据;
基于所述第一中间数据和所述音频分类模型的全连接层,确定所述音频数据对应的第二中间数据;
基于所述第二中间数据和所述音频分类模型的长短时记忆层,确定所述音频数据对应的第三中间数据;
基于所述第三中间数据和所述音频分类模型的输出层,确定所述音频数据对应的音频类型。


3.根据权利要求2所述的方法,其特征在于,所述基于所述第一中间数据和所述音频分类模型的全连接层,确定所述音频数据对应的第二中间数据,包括:
基于所述第一中间数据和所述音频分类模型的卷积层,确定所述音频数据对应的第四中间数据;
基于所述第四中间数据和所述音频分类模型的全连接层,确定所述音频数据对应的第二中间数据。


4.根据权利要求3所述的方法,其特征在于,所述音频数据包括对应多个音频帧的子音频数据,第一中间数据包括对应多个音频帧的第一子中间数据,第二中间数据包括对应多个音频帧的第二子中间数据,第四中间数据包括对应多个音频帧的第四子中间数据。


5.根据权利要求4所述的方法,其特征在于,所述基于所述音频数据和音频分类模型的输入层,确定所述音频数据对应第一中间数据,包括:将每个子音频数据分别输入音频分类模型的输入层,得到对应多个音频帧的第一子中间数据;
所述基于所述第一中间数据和所述音频分类模型的卷积层,确定所述音频数据对应的第四中间数据,包括:将每个第一子中间数据分别输入音频分类模型的卷积层,得到对应多个音频帧的第四子中间数据;
所述基于所述第四中间数据和所述音频分类模型的全连接层,确定所述音频数据对应的第二中间数据,包括:将每个第四子中间数据分别输入音频分类模型的全连接层,得到对应多个音频帧的第二子中间数据;
所述基于所述第二中间数据和所述音频分类模型的长短时记忆层,确定所述音频数据对应的第三中间数据,包括:将多个第二子中间数据,按照对应音频帧的时间先后顺序进行组合,输入所述音频分类模型的长短时记忆层,得到所述音频数据对应的第三中间数据;
所述基于所述第三中间数据和所述音频分类模型的输出层,确定所述音频数据对应的音频类型,包括:将所述第三中间数据拆分为对应多个音频帧的第三子中间数据;将对应多个音频帧的第三子中间数据,分别输入所述音频分类模型的输出层,确定每个音频帧对应的音频类型。


6.根据权利要求5所述的方法,其特征在于,所述音频类型包括第一音频类型和第二音频类型,所述将对应多个音频帧的第三子中间数据,分别输入所述音频分类模型的输出层,确定每个音频帧对应的音频类型,包括:
将对应多个音频帧的第三子中间数据,分别输入所述音频分类模型的输出层,得到每个音频帧为第一音频类型的概率;
将对应的概率值大于预设阈值的音频帧确定为第一音频类型,将对应的概率值小于预设阈值的音频帧确定为...

【专利技术属性】
技术研发人员:吕俊领卢传泽邱威
申请(专利权)人:广州三人行壹佰教育科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1