【技术实现步骤摘要】
技术介绍
1、声音事件定位和检测(sound event localization and detection,seld)的目标是在特定时间内检测声音事件的发生,并准确确定其开始和结束时间,同时追踪这些事件在活动时段内的空间位置或到达方向(即声源定位,doa)。声音事件定位和检测系统提供的时空信息在各种机器认知任务中得到广泛应用,例如:环境类型推断、自定位、遮挡目标导航、跟踪特定类型的声源、智能家居应用、场景可视化系统和音频监控等。现存的技术中融合音频和视频信息的声音事件定位和检测方案非常有限,一是音视频数据量远远小于现有的音频数据量导致模型泛化性能差的问题;二是视频带来的大量信息冗余和模态间的信息差使得模型检测和定位准确率低的问题,此外,现有的视听技术往往只能给出声音事件在视频画面内的定位,而无法定位其空间位置。
2、声音事件定位和检测由声音事件检测(sed)和声源定位(ssl)两个子任务组成。当前针对这些任务的建模方案包括联合活动概率的笛卡尔声源定位(accdoa)、联合多活动概率的笛卡尔声源定位(multi-accd
...【技术保护点】
1.一种基于视听信息融合的多类别声音事件定位与检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于视听信息融合的多类别声音事件定位与检测方法,其特征在于,所述步骤1中的单音频教师模型由依次连接的18层ResNet网络和8层Conformer网络,以及连接在8层Conformer网络后并行设置能分别执行声音事件检测估计和声源定位估计的两个分支全连接网络组成,能以拼接后的七通道音频特征序列为输入,学习并得出输入的七通道音频特征序列中的全局和局部依赖关系后,对得出的全局和局部依赖关系分别进行声音事件检测估计与声源定位估计,输出声音事件检测估计值与声
...【技术特征摘要】
1.一种基于视听信息融合的多类别声音事件定位与检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于视听信息融合的多类别声音事件定位与检测方法,其特征在于,所述步骤1中的单音频教师模型由依次连接的18层resnet网络和8层conformer网络,以及连接在8层conformer网络后并行设置能分别执行声音事件检测估计和声源定位估计的两个分支全连接网络组成,能以拼接后的七通道音频特征序列为输入,学习并得出输入的七通道音频特征序列中的全局和局部依赖关系后,对得出的全局和局部依赖关系分别进行声音事件检测估计与声源定位估计,输出声音事件检测估计值与声源定位估计值;
3.根据权利要求2所述的基于视听信息融合的多类别声音事件定位与检测系统,其特征在于,所述单音频教师模型的两个分支全连接网络由依次连接的两层全连接层组成;
4.根据权利要求1-3任一项所述的基于视听信息融合的多类别声音事件定位与检测方法,其特征在于,所述步骤1中,按以下方式利用增强数据得到的音频训练数据集并对所述单音频教师模型进行预训练,包括:
5.根据权利要求1-3任一项所述的基于视听信息融合的多类别声音事件定位与检测方法,其特征在于,所述步骤2中,按以下方式对所述音视频学生模型进行训练,包括:
6.根据权利要求5所述的基...
【专利技术属性】
技术研发人员:姜娅,杜俊,王青,赵江江,任玉玲,李青龙,柳瑞波,代晓康,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。