一种音视频处理方法、装置、设备及介质制造方法及图纸

技术编号:37132481 阅读:10 留言:0更新日期:2023-04-06 21:30
本申请提供一种音视频处理方法、装置、设备及介质,用于提高音视频播放的智能性,提高用户体验。该方法包括:第一设备获取摄像机采集的第一音视频数据;第一设备从第一音频数据中提取至少一个第一声音特征,从第一视频数据中提取至少一个第一人物特征;第一设备根据声音特征和人物特征的映射信息,确定至少一个第一声音特征与至少一个第一人物特征的对应关系;第一设备根据至少一个第一声音特征与至少一个第一人物特征的对应关系处理第一音视频数据,得到第二音视频数据;第一设备向第二设备发送第二音视频数据;第二设备播放第二音视频数据,在播放到人声时,视频画面中对应至少一个人物的图像区域上显示有标记信息。一个人物的图像区域上显示有标记信息。一个人物的图像区域上显示有标记信息。

【技术实现步骤摘要】
一种音视频处理方法、装置、设备及介质


[0001]本申请涉及计算机
,尤其涉及一种音视频处理方法、装置、设备及介质。

技术介绍

[0002]目前,很多监控设备可以同时采集图像和声音,生成音视频数据,播放设备播放该音视频数据时,用户可以同时查看视频画面和收听声音。但是,现有技术中播放设备只是对监控设备采集的原始音视频数据进行重放,智能性差,当播放到有人声的视频画面时,如果视频画面中有多个人,用户难区分是哪个人发出了声音,影响用户体验。

技术实现思路

[0003]本申请提供一种音视频处理方法、装置、设备及介质,用于提高音视频播放的智能性,进而提高用户体验。
[0004]第一方面,本申请实施例提供一种音视频处理方法,应用于第一设备,包括:获取摄像机采集的第一音视频数据;其中,所述第一音视频数据包括第一音频数据和第一视频数据;从所述第一音频数据中提取至少一个第一声音特征,从所述第一视频数据中提取至少一个第一人物特征;根据声音特征和人物特征的映射信息,确定所述至少一个第一声音特征与所述至少一个第一人物特征的对应关系,其中所述映射信息用于指示至少一个第二声音特征与至少一个第二人物特征的对应关系;根据所述至少一个第一声音特征与所述至少一个第一人物特征的对应关系处理所述第一音视频数据,得到第二音视频数据,向第二设备发送所述第二音视频数据;其中,所述第二音视频数据包括第二音频数据和第二视频数据,所述第二视频数据中包含标记信息,所述标记信息用于指示在所述第二音视频数据中说话的人。
[0005]在本方案中,第一设备获取摄像机采集的第一音视频数据,根据声音特征和人物特征的映射信息,确定第一音视频数据中至少一个第一声音特征与至少一个第一人物特征的对应关系,然后根据至少一个第一声音特征与至少一个第一人物特征的对应关系处理第一音视频数据,得到第二音视频数据,第二音视频数据含有说话的人的标记信息,这样第二音视频数据在被播放时,在播放到人声时,视频画面中对应至少一个人物的图像区域上显示有标记信息,提高了音视频播放的智能性,进而用户可以根据确定哪个人在说话,提高了用户的体验。
[0006]可选的,声音特征包括以下一项或多项:声纹、音调、音色、语调、语义分析结果。
[0007]当然,以上几种仅为示例,实际还可以有其它实现。
[0008]可选的,人物特征包括以下一项或多项:人脸特征、肢体特征、衣着特征、步态特征、唇语分析结果。
[0009]当然,以上几种仅为示例,实际还可以有其它实现。
[0010]可选的,所述第一设备为所述摄像机,或者,所述第一设备为与所述摄像机通信连接的网络设备。
[0011]通过本方式,可以根据实际需求选择第一设备,提高了方案的灵活性。
[0012]可选的,在根据声音特征和人物特征的映射信息,确定所述至少一个第一声音特征与所述至少一个第一人物特征的对应关系,还包括:从本地预配置信息中读取所述映射信息;或者,从其它设备获取所述映射信息;或者,获取所述摄像机采集的第三音视频数据,所述第三音视频数据中包括第三音频数据和第三视频数据;根据所述第三音视频数据生成所述映射信息。
[0013]通过本方式,第一设备可以从本地预配置信息中读取映射信息,也可以从其它设备获取映射信息,还可以根据音视频数据生成映射信息,提高了方案的灵活性,能够更好地满足实际需求。
[0014]可选的,所述根据所述第三音视频数据生成所述映射信息,包括:从所述第三音视频数据中提取所述至少一个第二声音特征和所述至少一个第二人物特征;其中,所述第二声音特征至少包括语义分析结果,所述第二人物特征至少包括唇语分析结果;从所述至少一个第二声音特征和所述至少一个第二人物特征中确定出语义分析结果和唇语分析结果相匹配的第二声音特征和第二人物特征;在语义分析结果和唇语分析结果相匹配的第二声音特征和第二人物特征之间建立对应关系。
[0015]通过本方式,第一设备通过匹配语义分析结果与唇语分析结果确定声音特征和人物特征之间的对应关系,可靠性高;并且,直接根据第三音视频数据确定对应关系,无需人工参与,智能性高。
[0016]可选的,在所述获取所述摄像机采集的第三音视频数据之前,还包括:控制所述摄像机的摄像头转动至发声位置,以使所述摄像机采集所述第三音视频数据;所述根据所述第三音视频数据生成所述映射信息,包括:从所述第三音频数据中提取一个第二声音特征,从所述第三视频数据中提取一个第二人物特征;建立所述一个第二声音特征和所述一个第二人物特征的对应关系。
[0017]通过本方式,当第一设备为摄像机时,可以根据发声位置转动摄像头,采集发声位置处的第三音视频数据;再从第三音频数据中提取至少一个第二声音特征,从第三视频数据中提取至少一个第二人物特征,建立一个第二声音特征和一个第二人物特征的对应关系,提高了方案的完整性,并且操作仅在摄像机上执行,提高了音视频处理效率。
[0018]可选的,所述控制所述摄像机的摄像头转动至发声位置,以使所述摄像机采集所述第三音视频数据,包括:控制所述摄像机的摄像头聚焦于人像,以使所述摄像机采集所述第三音视频数据。
[0019]通过本方式,使得摄像机可以清楚的采集到人像,便于后续第一设备根据第三视频数据获取人物特征,提高了方案的完整性与可靠性。
[0020]可选的,所述根据声音特征和人物特征的绑定关系,确定所述至少一个第一声音特征与所述至少一个第一人物特征的对应关系,包括:确定所述至少一个第一声音特征中的一个第一声音特征与所述映射关系中的一个第二声音特征的相似度高于第一阈值;根据所述映射关系确定与所述一个第二声音特征相对应的第二人物特征;根据所述与所述一个第二声音特征相对应的第二人物特征,从所述至少一个第一人物特征中确定出与所述一个第一声音特征相对应的第一人物特征,其中所述与所述一个第二声音特征相对应的第二人物特征、所述与所述一个第一声音特征相对应的第一人物特征的相似度高于第二阈值。
[0021]通过本方式,第一设备先确定当前采集到的一个第一声音特征与映射信息中的一个第二声音特征相同;然后根据映射关系确定该第二声音特征对应的第二人物特征;再从至少一个第一人物特征中确定出与该第二人物特征的相似度高于第二阈值的第一人物特征,即第一设备确定映射信息中的一个第二人物特征与一个第一人物特征相同;最终确定出该第一声音特征与该第一人物特征属于同一个人,实现过程可靠性高。
[0022]可选的,所述根据所述至少一个第一声音特征与所述至少一个第一人物特征的对应关系处理所述第一音视频数据,包括:从所述第一音视频数据中获取第一子音频数据和第一子视频数据,其中,所述第一子音频数据的采集时间和所述第一子视频数据的采集时间至少部分重叠,所述第一子音频数据对应所述至少一个第一声音特征中的任意一个声音特征;根据所述对应关系确定所述任意一个声音特征对应的人物特征;在所述第一子视频数据中确定出与所述任意一个声音特征对应的人物特征相匹配的图像区域,在所述图像区域上添加标记信息。
...

【技术保护点】

【技术特征摘要】
1.一种音视频处理方法,其特征在于,所述方法应用于第一设备,包括:获取摄像机采集的第一音视频数据;其中,所述第一音视频数据包括第一音频数据和第一视频数据;从所述第一音频数据中提取至少一个第一声音特征,从所述第一视频数据中提取至少一个第一人物特征;根据声音特征和人物特征的映射信息,确定所述至少一个第一声音特征与所述至少一个第一人物特征的对应关系,其中所述映射信息用于指示至少一个第二声音特征与至少一个第二人物特征的对应关系;根据所述至少一个第一声音特征与所述至少一个第一人物特征的对应关系处理所述第一音视频数据,得到第二音视频数据,向第二设备发送所述第二音视频数据;其中,所述第二音视频数据包括第二音频数据和第二视频数据,所述第二视频数据中包含标记信息,所述标记信息用于指示在所述第二音视频数据中说话的人。2.如权利要求1所述的方法,其特征在于,所述声音特征包括以下一项或多项:声纹、音调、音色、语调、语义分析结果。3.如权利要求1所述的方法,其特征在于,所述人物特征包括以下一项或多项:人脸特征、肢体特征、衣着特征、步态特征、唇语分析结果。4.如权利要求1所述的方法,其特征在于,所述第一设备为所述摄像机,或者,所述第一设备为与所述摄像机通信连接的网络设备。5.如权利要求1

4任一项所述的方法,其特征在于,在根据声音特征和人物特征的映射信息,确定所述至少一个第一声音特征与所述至少一个第一人物特征的对应关系,还包括:从本地预配置信息中读取所述映射信息;或者,从其它设备获取所述映射信息;或者,获取所述摄像机采集的第三音视频数据,所述第三音视频数据中包括第三音频数据和第三视频数据;根据所述第三音视频数据生成所述映射信息。6.如权利要求5所述的方法,其特征在于,所述根据所述第三音视频数据生成所述映射信息,包括:从所述第三音视频数据中提取所述至少一个第二声音特征和所述至少一个第二人物特征;其中,所述第二声音特征至少包括语义分析结果,所述第二人物特征至少包括唇语分析结果;从所述至少一个第二声音特征和所述至少一个第二人物特征中确定出语义分析结果和唇语分析结果相匹配的第二声音特征和第二人物特征;在语义分析结果和唇语分析结果相匹配的第二声音特征和第二人物特征之间建立对应关系。7.如权利要求5所述的方法,其特征在于,在所述获取所述摄像机采集的第三音视频数据之前,还包括:控制所述摄像机的摄像头转动至发声位置,以使所述摄像机采集所述第三音视频数据;所述根据所述第三音视频数据生成所述映射信息,包括:从所述第三音频数据中提取一个第二声音特征,从所述第三视频数据中提取一个第二人物特征;建立所述一个第二声音特征和所述一个第二人物特征的对应关系。
8.如权利要求1

4任一项所述的方法,其特征在于,所述根据声音特征和人物特征的绑定关系,确定所述至少一个第一声音特征与所述至少一个第一人物特征的对应关系,包括:确定所述至少一个第一声音特征中的一个第一声音特征与所述映射关系中的一个第二声音特征的相似度高于第一阈值;根据所述映射关系确定与所述一个第二声音特征相对应的第二人物特征;根据所述与所述一个第二声音特征相对应的第二人物特征,从所述至少一个第一人物特征中确定出与所述一个第一声音特征相对应的第一人物特征,其中...

【专利技术属性】
技术研发人员:豆红雷
申请(专利权)人:杭州华橙软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1