当前位置: 首页 > 专利查询>清华大学专利>正文

音频识别方法和装置、计算机设备、计算机可读存储介质制造方法及图纸

技术编号:30638410 阅读:19 留言:0更新日期:2021-11-04 00:28
本申请涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。所述方法包括:获取音频数据对应的音频特征。从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系。预设的异构关系图为基于将初始异构关系图输入至预设的R

【技术实现步骤摘要】
音频识别方法和装置、计算机设备、计算机可读存储介质


[0001]本申请涉及多媒体识别
,特别是涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。

技术介绍

[0002]随着多媒体相关技术的不断发展,音频处理技术也得到了不断发展。其中,对音频进行识别是音频处理过程中至关重要的一个环节。
[0003]传统方法,在对音频进行识别时,主要是从音频中识别出场景及事件。但是,在实际的音频识别任务中,通常对音频中的场景和事件分开进行识别。然而,一般情况下,音频中的事件与事件、场景与事件、场景与场景之间具有一定的关联关系。若分别对音频中的场景和事件进行识别,则就不能够在识别的过程中考虑到以上三者之间的关联关系。因此,对音频进行识别所得的场景及事件的准确性较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种音频识别方法和装置、计算机设备、计算机可读存储介质,能够提高识别分类的准确度和可信度。
[0005]一种音频识别方法方法,所述方法包括:获取音频数据对应的音频特征;从预设的异构关系图中获取异本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频识别方法,其特征在于,所述方法包括:获取音频数据对应的音频特征;从预设的异构关系图中获取异构关系特征,所述预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;所述标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系;所述预设的异构关系图为基于将初始异构关系图输入至所述预设的R

GCN关系图卷积神经网络所生成的;将所述音频特征及所述异构关系特征输入至预设的深度神经网络中进行音频识别,生成与所述音频数据对应的场景标签及事件标签。2.根据权利要求1所述的音频识别方法,其特征在于,所述将所述音频特征及所述异构关系特征输入至预设的深度神经网络中进行音频识别,生成与所述音频数据对应的场景标签及事件标签,包括:将所述音频特征及所述异构关系特征进行拼接,生成融合异构关系特征;将所述融合异构关系特征输入至所述预设的深度神经网络中进行卷积处理,生成目标特征;根据所述目标特征生成与所述音频数据对应的场景标签及事件标签。3.根据权利要求1所述的音频识别方法,其特征在于,所述方法还包括:获取所述训练集,为所述训练集中的每个预设音频数据设置标注标签;所述标注标签包括场景标签及事件标签;根据所述训练集中所述预设音频数据的标注标签,构建初始异构关系图;将所述初始异构关系图输入至初始的R

GCN关系图卷积神经网络,生成中间异构关系图。4.根据权利要求3所述的音频识别方法,其特征在于,所述根据所述训练集中所述预设音频数据对应的标注标签,构建初始异构关系图,包括:根据所述训练集中所述预设音频数据的标注标签之间的共生概率,构建邻接矩阵;根据所述训练集中所述音频数据的标注标签之间的关系类别,构建关系类别矩阵;根据所述邻接矩阵及所述关系类别矩阵,构建所述初始异构关系图。5.根据权利要求3所述的音频识别方法,其特征在于,所述将所述初始异构关系图输入至初始的R

GCN关系图卷积神经网络,生成中间异构关系图,包括:从所述初始异构关系图中获取初始异构关系特征,通过初始的R

GCN关系图卷积神经网络对所述初始异构关系特征进行聚合更新,生成中间异构关系特征;基于所述中间异构关系特征对所述初始异构关系图进行更新,生成所述中间异构关系图。6.根据权利要求5所述的音频识别方法,其特...

【专利技术属性】
技术研发人员:李金朋邵云飞张卫强
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1