视频中音频聚类的处理方法和装置制造方法及图纸

技术编号:23161752 阅读:30 留言:0更新日期:2020-01-21 21:59
本公开涉及一种视频中音频聚类的处理方法和装置,其中,该方法包括:获取视频片段集,视频片段集包括多个视频片段;获取每个视频片段的音频;提取所述音频的音频特征;获取每个视频片段的人脸图像;提取人脸图像的人脸特征;基于视频片段的音频特征和人脸特征,确定音频之间的综合相似度;基于综合相似度,对音频进行聚类。通过本公开的处理方法,提高了音频聚类的准确率。

Processing method and device of audio clustering in video

【技术实现步骤摘要】
视频中音频聚类的处理方法和装置
本公开涉及音频聚类
,具体是涉及一种视频中音频聚类的处理方法和装置。
技术介绍
对于音频的聚类,除了采用人工听音频,根据音色的不同,通过主观判断对音频进行聚类之外,还往往通过提取该音频的声纹特征,基于提取得到的声纹特征进行聚类。通过这两种方式对音频进行聚类,其聚类的准确率存在瓶颈。
技术实现思路
为了克服相关技术问题,本公开提供一种视频中音频聚类的处理方法和装置。第一方面,本公开实施例提供一种视频中音频聚类的处理方法,其包括:获取视频片段集,视频片段集包括多个视频片段;获取每个视频片段的音频;提取音频的音频特征;获取每个视频片段的人脸图像;提取人脸图像的人脸特征;基于视频片段的音频特征和人脸特征,确定音频之间的综合相似度;基于综合相似度,对音频进行聚类。一种实施方式中,获取视频片段集包括:获取视频;基于视频,根据语音活动检测,对视频进行切分,得到视频片段集。另一种实施方式中,获取每个视频片段的音频包括:基于视频片段,通过分轨处理,得到视频片段的音频。又一种实施方式中,提取音频的音频特征,得到音频特征向量;提取人脸图像的人脸特征,得到人脸特征向量;基于音频特征和人脸特征,确定音频之间的综合相似度,包括:根据音频特征向量之间的第一距离,以及人脸特征向量之间的第二距离,确定音频之间的综合距离;基于综合相似度,对音频进行聚类,包括:基于综合距离,根据距离阈值对音频进行聚类。又一种实施方式中,基于综合距离,根据距离阈值对音频进行聚类,包括:确定音频之间的综合距离的最小值,并判断最小值是否大于距离阈值;若综合距离的最小值小于或等于距离阈值,则将综合距离最小的音频进行聚类,并返回执行确定音频之间的综合距离的最小值,并判断最小值是否大于距离阈值的步骤;若综合距离最小值大于距离阈值,则完成对音频的聚类。又一种实施方式中,获取每个视频片段的人脸图像包括:提取每个视频片段的图像代表帧,基于图像代表帧,切取图像代表帧中的人脸图像。又一种实施方式中,提取每个视频片段的图像代表帧包括:基于每个视频片段,通过人脸特征检测、人脸校验,以及人脸姿态估计,提取每个视频片段的图像代表帧。第二方面,本公开实施例提供了一种视频中音频聚类的处理装置,该视频中音频聚类的处理装置具有实现上述第一方面或第一方面任意一种实施方式中所涉及的视频中音频聚类的处理方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。一种实施方式中,视频中音频聚类的处理装置包括:获取视频片段集模块,用于获取视频片段集,视频片段集包括多个视频片段;获取音频模块,用于获取每个视频片段的音频;提取音频特征模块,用于提取音频的音频特征;获取人脸图像模块,用于获取每个视频片段的人脸图像;提取人脸特征模块,用于提取人脸图像的人脸特征;确定模块,用于基于视频片段的音频特征和人脸特征,确定音频之间的综合相似度;聚类模块,用于基于综合相似度,对音频进行聚类。另一种实施方式中,获取视频片段集模块采用如下方式获取视频片段集:获取视频;基于视频,根据语音活动检测,对视频进行切分,得到视频片段集。又一种实施方式中,提取音频特征模块采用如下方式提取音频的音频特征:提取音频的音频特征,得到音频特征向量;提取人脸特征模块采用如下方式提取人脸图像的人脸特征:提取人脸图像的人脸特征,得到人脸特征向量;确定模块采用如下方式确定音频的综合相似度:根据音频特征向量之间的第一距离,以及人脸特征向量之间的第二距离,确定音频之间的综合距离;聚类模块采用如下方式对音频进行聚类:基于综合距离,根据距离阈值对所述音频进行聚类。又一实施方式中,聚类模块采用如下方式对音频进行聚类:确定音频之间的综合距离的最小值,并判断最小值是否大于距离阈值;若综合距离的最小值小于或等于距离阈值,则将综合距离最小的音频进行聚类,并返回执行确定音频之间的综合距离的最小值,并判断最小值是否大于距离阈值的步骤;若综合距离最小值大于距离阈值,则完成对音频的聚类。又一种实施方式中,获取人脸图像模块采用如下方式获取每个视频片段的人脸图像:提取每个视频片段的图像代表帧,基于图像代表帧,切取图像代表帧中的人脸图像。又一种实施方式中,获取人脸图像模块采用如下方式提取每个视频片段的图像代表帧:基于每个视频片段,通过人脸特征检测、人脸校验,以及人脸姿态估计,提取每个视频片段的图像代表帧。第三方面,本公开实施例提供一种电子设备,其中,电子设备包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行视频中音频聚类的处理方法。第四方面,本公开实施例提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行视频中音频聚类的处理方法。本公开提供的一种视频中音频聚类的处理方法和装置,其中,本公开的处理方法通过获取与每个视频片段对应的音频特征,以及与每个视频片段对应的人脸图像的人脸特征,并基于视频片段的音频特征和人脸特征,对与视频片段对应的音频进行聚类。通过本公开的处理方法,提高了音频聚类的准确率。附图说明通过参考附图阅读下文的详细描述,本公开实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的实施方式,其中:图1示出了本公开实施例提供的一种视频中音频聚类的处理方法示意图;图2示出了本公开实施例提供的一种视频中音频聚类的处理方法中获取视频片段集的步骤的示意图;图3示出了本公开实施例提供的一种视频中音频聚类的处理装置示意图;图4示出了本公开实施例提供的一种电子设备示意图。具体实施方式下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。需要注意,虽然本文中使用“第一”、“第二”等表述来描述本公开的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。本公开提供一种视频中音频聚类的处理方法,该处理方法应用于对视频中的音频进行聚类处理的过程中。图1示出了本公开实施例提供的一种视频中音频聚类的处理方法示意图。如图1所示,视频中音频聚类的处理方法100包括步骤S101、步骤S102、步骤S103、步骤S104、步骤S105、步骤S106,以及步骤S107。下面将分别介绍各步骤的具体情况。在步骤S101中,视频片段集包括多个视频片段。其中,视频片段中包含有正在说话的人。在步骤S102中,获取每一个视频片段对应的音频。其中,一个视频片段对应一个音频。在步骤S103中,基于获取的每一个视频本文档来自技高网...

【技术保护点】
1.一种视频中音频聚类的处理方法,其特征在于,所述方法包括:/n获取视频片段集,所述视频片段集包括多个视频片段;/n获取每个所述视频片段的音频;/n提取所述音频的音频特征;/n获取每个所述视频片段的人脸图像;/n提取所述人脸图像的人脸特征;/n基于所述视频片段的所述音频特征和所述人脸特征,确定所述音频之间的综合相似度;/n基于所述综合相似度,对所述音频进行聚类。/n

【技术特征摘要】
1.一种视频中音频聚类的处理方法,其特征在于,所述方法包括:
获取视频片段集,所述视频片段集包括多个视频片段;
获取每个所述视频片段的音频;
提取所述音频的音频特征;
获取每个所述视频片段的人脸图像;
提取所述人脸图像的人脸特征;
基于所述视频片段的所述音频特征和所述人脸特征,确定所述音频之间的综合相似度;
基于所述综合相似度,对所述音频进行聚类。


2.根据权利要求1所述的处理方法,其特征在于,所述获取视频片段集包括:
获取视频;
基于所述视频,根据语音活动检测,对所述视频进行切分,得到所述视频片段集。


3.根据权利要求1所述的处理方法,其特征在于,所述获取每个所述视频片段的音频包括:
基于所述视频片段,通过分轨处理,得到所述视频片段的音频。


4.根据权利要求1所述的处理方法,其特征在于,
提取所述音频的音频特征,得到音频特征向量;
提取所述人脸图像的人脸特征,得到人脸特征向量;
所述基于所述音频特征和所述人脸特征,确定所述音频之间的综合相似度,包括:
根据所述音频特征向量之间的第一距离,以及所述人脸特征向量之间的第二距离,确定所述音频之间的综合距离;
所述基于所述综合相似度,对所述音频进行聚类,包括:
基于所述综合距离,根据距离阈值对所述音频进行聚类。


5.根据权利要求4所述的处理方法,其特征在于,所述基于所述综合距离,根据距离阈值对所述音频进行聚类,包括:
确定所述音频之间的所述综合距离的最小值,并判断所述最小值是否大于所述距离阈值;
若所述综合距离的最小值小于或等于所述距离阈值,则将所述综合距离最小的所述音频进行聚类,并返回执行确定所述音频之间的所述综合距离的最小值,并判断所述最小值是否大于所述距离阈值的步骤;
若所述综合距离最小值大于所述距离阈值,则完成对所述音频的聚类。


6.根据权利要求1所述的处理方法,其特征在于,所述获取每个所述视频片段的人脸图像包括:
提取所述每个所述视频片段的图像代表帧,基于所述图像代表帧,切取所述图像代表帧中的人脸图像。


7.根据权利要求6所述的处理方法,其特征在于,所述提取所述每个视频片段的图像代表帧包括:
基于所述每个视频片段,通过人脸特征检测、人脸校验,以及人脸姿态估计,提取所述每个视频片段的图像代表帧。


8.一种视频中音频聚类的处理装置,其特征在于,所述装置包括:
获取视频片段集模块,用于获取视频片段集,所述视频片段集包括多个视频片段;
获取音频模块,用于获取每个所述视频片段的音频;
提取音频特征模块,用于提取所述音频的音频特征;
获取人脸图像模块,用于获取每个所述视频片段的人脸图像;
提取人脸特征模块,用于提取所述人脸图...

【专利技术属性】
技术研发人员:闫启伟黄宇凯郝玉峰曹琼李科
申请(专利权)人:北京海天瑞声科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1