System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 事件检测模型的训练方法、事件检测方法及相关设备技术_技高网

事件检测模型的训练方法、事件检测方法及相关设备技术

技术编号:40703833 阅读:4 留言:0更新日期:2024-03-22 11:02
本申请实施例公开了一种事件检测模型的训练方法、事件检测方法及相关设备,事件检测模型的训练方法包括:将获取的训练音频进行分段,得到多个音频段;对每个音频段进行特征提取,得到多个第一特征向量;基于N个参考分类器和多个第一特征向量,得到在每次事件分类后,每个音频段在各个预设事件下的第一分类概率;基于每个音频段在各个预设事件下的第一分类概率生成第二标签;基于目标分类器对多个第一特征向量进行分类,得到每个音频段在各个预设事件下的第二分类概率;基于第一标签、第二标签、每个音频段在各个预设事件下的第一分类概率,以及每个音频段在各个预设事件下的第二分类概率,对事件检测模型进行训练,得到训练好的目标分类器。

【技术实现步骤摘要】

本申请涉及音频处理,具体涉及一种事件检测模型的训练方法、事件检测方法及相关设备


技术介绍

1、目前,在广告智能生产业务中,需要识别一段音频中特定事件发生的时间段(即起始时刻和终止时刻),以从音频中切分出素材进行广告生成,而在识别一段音频中特定事件发生的起始时刻和终止时刻需要依赖事件检测技术。

2、事件检测指的是从一段待识别音频中识别特定事件发生的起始时刻和终止时刻,例如“唱歌”、“对话”、“鸟叫”、“打斗”等事件发生起始时刻和终止时刻。目前事件检测一般通过机器学习模型来完成,比如采用全监督算法,即在训练集中给出具体事件是什么以及该事件发生的起始时刻和终止时刻的标注,然后对模型进行训练,最终得到完全训练好的事件检测模型,再基于该完全训练好的事件检测模型达到识别音频中的事件的目的。但是,上述训练事件检测模型的方法需要依赖人工精确标注音频事件发生的起始时刻和终止时刻,使得标注成本很大,而且进而降低了模型训练的效率。


技术实现思路

1、本申请实施例提供了一种事件检测模型的训练方法、事件检测方法及相关设备,不仅降低了模型训练成本,还加快了模型训练的训练效率。

2、第一方面,本申请实施例提供一种事件检测模型的训练方法,事件检测模型包括n个参考分类器和目标分类器,该方法包括:

3、获取训练音频,其中,训练音频标注有第一标签,第一标签用于表示训练音频包括的m个事件;

4、将训练音频进行分段,得到多个音频段;

5、对每个音频段进行特征提取,得到多个音频段对应的多个第一特征向量;

6、基于n个参考分类器和多个第一特征向量,对每个音频段进行n次事件分类,得到在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,其中,任意两次事件分类下确定出的目标音频段互斥,每次事件分类下的目标音频段为该次事件分类下每个音频段的最大第一分类概率处于预设置信度区间的音频段;

7、基于在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,生成第二标签,其中,第二标签用于表示训练音频中包括的y个事件以及每个事件的起始时刻和终止时刻;

8、基于目标分类器对多个第一特征向量进行分类,得到每个音频段在各个预设事件下的第二分类概率;

9、基于第一标签、第二标签、在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,以及每个音频段在各个预设事件下的第二分类概率,对事件检测模型进行训练,得到训练好的目标分类器。

10、第二方面,本申请实施例提供一种事件检测方法,该方法包括:

11、获取待识别音频;

12、将待识别音频进行分段,得到多个待识别音频段;

13、对每个待识别音频段进行特征提取,得到多个待识别特征向量;

14、将多个待识别特征向量输入训练好的目标分类器进行事件检测,得到待识别音频中目标事件的起始时刻和终止时刻。

15、第三方面,本申请实施例提供一种事件检测模型的训练装置,事件检测模型包括n个参考分类器和目标分类器,该装置包括:获取单元和处理单元;

16、获取单元,用于获取训练音频,其中,训练音频标注有第一标签,第一标签用于表示训练音频中包括的m个事件;

17、处理单元,用于将训练音频进行分段,得到多个音频段;

18、处理单元,用于对每个音频段进行特征提取,得到多个音频段对应的多个第一特征向量;

19、处理单元,用于基于n个参考分类器和多个第一特征向量,对每个音频段进行n次事件分类,得到在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,其中,任意两次事件分类下确定出的目标音频段互斥,每次事件分类下的目标音频段为该次事件分类下每个音频段的最大第一分类概率处于预设置信度区间的音频段;

20、处理单元,用于基于在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,生成第二标签,其中,第二标签用于表示训练音频中包括的y个事件以及每个事件的起始时刻和终止时刻;

21、处理单元,用于基于目标分类器对多个第一特征向量进行分类,得到每个音频段在各个预设事件下的第二分类概率;

22、处理单元,用于基于第一标签、第二标签、在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,以及每个音频段在各个预设事件下的第二分类概率,对事件检测模型进行训练,得到训练好的目标分类器。

23、第四方面,本申请实施例提供一种事件检测装置,该事件检测装置包括:获取单元和处理单元;

24、获取单元,用于获取待识别音频;

25、处理单元,用于将待识别音频进行分段,得到多个待识别音频段;

26、处理单元,用于对每个待识别音频段进行特征提取,得到多个待识别特征向量;

27、处理单元,用于将多个待识别特征向量输入训练好的目标分类器进行事件检测,得到待识别音频中目标事件的起始时刻和终止时刻。

28、第五方面,本申请实施例提供一种电子设备,包括:处理器和存储器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面和第二方面的方法。

29、第六方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序使得计算机执行如第一方面和第二方面的方法。

30、第七方面,本申请实施例提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面和第二方面的方法。

31、实施本申请实施例,具有如下有益效果:首先获取训练音频,其中,训练音频标注有第一标签,第一标签用于表示训练音频中包括的m个事件;然后将训练音频进行分段,得到多个音频段;然后对每个音频段进行特征提取,得到多个音频段对应的多个第一特征向量;然后基于n个参考分类器和多个第一特征向量,对每个音频段进行n次事件分类,得到在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,其中,任意两次事件分类下确定出的目标音频段互斥,每次事件分类下的目标音频段为该次事件分类下每个音频段的最大第一分类概率处于预设置信度区间的音频段;然后基于在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,生成第二标签,其中,第二标签用于表示训练音频中包括的m个事件以及每个事件的起始时刻和终止时刻;然后基于目标分类器对多个第一特征向量进行分类,得到每个音频段在各个预设事件下的第二分类概率;最后基于第一标签、第二标签、在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,以及每个音频段在各个预设事件下的第二分类概率,对事件检测模型进行训练,得到训练好的目标分类器,对训练音频只需要标注出包括的m个事件,不需要标注出每个事件发生的起始时刻和终止时刻,节约了时间,降低了成本,另外基于多个参考分类器和目标分类器进行事件分类后每个音频段在本文档来自技高网...

【技术保护点】

1.一种事件检测模型的训练方法,其特征在于,所述事件检测模型包括N个参考分类器和目标分类器;所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述多个参考分类器和所述多个第一特征向量,对每个音频段进行N次事件分类,得到在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于第i-1次事件分类下每个音频段在所述各个预设事件下的第一分类概率,对第i-1次事件分类对应的多个第二特征向量进行调整,得到与第i次事件分类对应的多个第二特征向量,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,生成第二标签,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于所述第一标签、所述第二标签、所述在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,以及所述每个音频段在所述各个预设事件下的第二分类概率,对所述事件检测模型进行训练,得到训练好的目标分类器,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一标签和所述在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,确定与每个参考分类器对应的第一损失,包括:

7.根据权利要求5或6所述的方法,其特征在于,所述基于所述第二标签、所述每个音频段在所述各个预设事件下的第二分类概率,确定与所述目标分类器对应的第二损失,包括:

8.根据权利要求1所述的方法,其特征在于,基于在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,生成第二标签,包括:

9.根据权利要求8所述的方法,其特征在于,基于第i-1次事件分类下每个音频段在各个预设事件下的第五分类概率,对第i次事件分类下每个音频段在各个预设事件下的第一分类概率进行调整,得到第i次事件分类下每个音频段在各个预设事件下的第五分类概率,包括:

10.根据权利要求9所述的方法,其特征在于,基于每次事件分类下每个音频段在各个预设事件下的第五分类概率,生成第二标签,包括:

11.根据权利要求10所述的方法,其特征在于,基于第一标签、第二标签、在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,以及每个音频段在各个预设事件下的第二分类概率,对事件检测模型进行训练,得到训练好的目标分类器,包括:

12.根据权利要求11所述的方法,其特征在于,基于第一标签、每次事件分类下每个音频段在各个预设事件下的第五分类概率,确定每个参考分类器对应的第四损失,包括:

13.一种事件检测方法,其特征在于,所述方法包括:

14.一种事件检测模型的训练装置,其特征在于,所述事件检测模型包括N个参考分类器和目标分类器;所述装置包括:获取单元和处理单元;

15.一种事件检测装置,其特征在于,所述事件检测装置包括:获取单元和处理单元;

16.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如权利要求1-13中任一项所述的方法。

17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-13中任一项所述的方法。

...

【技术特征摘要】

1.一种事件检测模型的训练方法,其特征在于,所述事件检测模型包括n个参考分类器和目标分类器;所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述多个参考分类器和所述多个第一特征向量,对每个音频段进行n次事件分类,得到在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于第i-1次事件分类下每个音频段在所述各个预设事件下的第一分类概率,对第i-1次事件分类对应的多个第二特征向量进行调整,得到与第i次事件分类对应的多个第二特征向量,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,生成第二标签,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于所述第一标签、所述第二标签、所述在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,以及所述每个音频段在所述各个预设事件下的第二分类概率,对所述事件检测模型进行训练,得到训练好的目标分类器,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一标签和所述在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,确定与每个参考分类器对应的第一损失,包括:

7.根据权利要求5或6所述的方法,其特征在于,所述基于所述第二标签、所述每个音频段在所述各个预设事件下的第二分类概率,确定与所述目标分类器对应的第二损失,包括:

8.根据权利要求1所述的方法,其特征在于,基于在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,生成第二标签,包括:

9.根...

【专利技术属性】
技术研发人员:王启萌
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1