视频中音频聚类的处理方法和装置制造方法及图纸

技术编号：23161752 阅读：31 留言：0更新日期：2020-01-21 21:59

本公开涉及一种视频中音频聚类的处理方法和装置，其中，该方法包括：获取视频片段集，视频片段集包括多个视频片段；获取每个视频片段的音频；提取所述音频的音频特征；获取每个视频片段的人脸图像；提取人脸图像的人脸特征；基于视频片段的音频特征和人脸特征，确定音频之间的综合相似度；基于综合相似度，对音频进行聚类。通过本公开的处理方法，提高了音频聚类的准确率。

Processing method and device of audio clustering in video

全部详细技术资料下载

【技术实现步骤摘要】
视频中音频聚类的处理方法和装置
本公开涉及音频聚类
，具体是涉及一种视频中音频聚类的处理方法和装置。
技术介绍
对于音频的聚类，除了采用人工听音频，根据音色的不同，通过主观判断对音频进行聚类之外，还往往通过提取该音频的声纹特征，基于提取得到的声纹特征进行聚类。通过这两种方式对音频进行聚类，其聚类的准确率存在瓶颈。
技术实现思路
为了克服相关技术问题，本公开提供一种视频中音频聚类的处理方法和装置。第一方面，本公开实施例提供一种视频中音频聚类的处理方法，其包括：获取视频片段集，视频片段集包括多个视频片段；获取每个视频片段的音频；提取音频的音频特征；获取每个视频片段的人脸图像；提取人脸图像的人脸特征；基于视频片段的音频特征和人脸特征，确定音频之间的综合相似度；基于综合相似度，对音频进行聚类。一种实施方式中，获取视频片段集包括：获取视频；基于视频，根据语音活动检测，对视频进行切分，得到视频片段集。另一种实施方式中，获取每个视频片段的音频包括：基于视频片段，通过分轨处理，得到视频片段的...

【技术保护点】
1.一种视频中音频聚类的处理方法，其特征在于，所述方法包括：/n获取视频片段集，所述视频片段集包括多个视频片段；/n获取每个所述视频片段的音频；/n提取所述音频的音频特征；/n获取每个所述视频片段的人脸图像；/n提取所述人脸图像的人脸特征；/n基于所述视频片段的所述音频特征和所述人脸特征，确定所述音频之间的综合相似度；/n基于所述综合相似度，对所述音频进行聚类。/n

【技术特征摘要】
1.一种视频中音频聚类的处理方法，其特征在于，所述方法包括：
获取视频片段集，所述视频片段集包括多个视频片段；
获取每个所述视频片段的音频；
提取所述音频的音频特征；
获取每个所述视频片段的人脸图像；
提取所述人脸图像的人脸特征；
基于所述视频片段的所述音频特征和所述人脸特征，确定所述音频之间的综合相似度；
基于所述综合相似度，对所述音频进行聚类。

2.根据权利要求1所述的处理方法，其特征在于，所述获取视频片段集包括：
获取视频；
基于所述视频，根据语音活动检测，对所述视频进行切分，得到所述视频片段集。

3.根据权利要求1所述的处理方法，其特征在于，所述获取每个所述视频片段的音频包括：
基于所述视频片段，通过分轨处理，得到所述视频片段的音频。

4.根据权利要求1所述的处理方法，其特征在于，
提取所述音频的音频特征，得到音频特征向量；
提取所述人脸图像的人脸特征，得到人脸特征向量；
所述基于所述音频特征和所述人脸特征，确定所述音频之间的综合相似度，包括：
根据所述音频特征向量之间的第一距离，以及所述人脸特征向量之间的第二距离，确定所述音频之间的综合距离；
所述基于所述综合相似度，对所述音频进行聚类，包括：
基于所述综合距离，根据距离阈值对所述音频进行聚类。

5.根据权利要求4所述的处理方法，其特征在于，所述基于所述综合距离，根据距离阈值对所述音频进行聚类，包括：
确定所述音频之间的所述综合距离的最小值，并判断所述最小值是否大于所述距离阈值；
若所述综合距离的最小值小于或等于所述距离阈值，则将所述综合距离最小的所述音频进行聚类，并返回执行确定所述音频之间的所述综合距离的最小值，并判断所述最小值是否大于所述距离阈值的步骤；
若所述综合距离最小值大于所述距离阈值，则完成对所述音频的聚类。

6.根据权利要求1所述的处理方法，其特征在于，所述获取每个所述视频片段的人脸图像包括：
提取所述每个所述视频片段的图像代表帧，基于所述图像代表帧，切取所述图像代表帧中的人脸图像。

7.根据权利要求6所述的处理方法，其特征在于，所述提取所述每个视频片段的图像代表帧包括：
基于所述每个视频片段，通过人脸特征检测、人脸校验，以及人脸姿态估计，提取所述每个视频片段的图像代表帧。

8.一种视频中音频聚类的处理装置，其特征在于，所述装置包括：
获取视频片段集模块，用于获取视频片段集，所述视频片段集包括多个视频片段；
获取音频模块，用于获取每个所述视频片段的音频；
提取音频特征模块，用于提取所述音频的音频特征；
获取人脸图像模块，用于获取每个所述视频片段的人脸图像；
提取人脸特征模块，用于提取所述人脸图...

【专利技术属性】
技术研发人员：闫启伟，黄宇凯，郝玉峰，曹琼，李科，
申请(专利权)人：北京海天瑞声科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人