一种说话人定位方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40079722 阅读：33 留言：0更新日期：2024-01-17 02:23

本发明专利技术实施例提供的一种说话人定位方法、装置、电子设备及存储介质，应用于信息技术领域，通过对待识别视频片段进行包含台词的音频的提取，得到台词音频片段；对所述台词音频片段进行特征提取，得到台词的音频特征；对待识别视频片段进行视频特征提取，得到所述待识别视频片段中台词对应的时间段的视频特征；对所述音频特征和所述视频特征进行堆叠计算，得到堆叠特征；根据所述堆叠特征和预设自注意力矩阵计算得到重编码特征；将所述重编码特征输入预先训练好的网络模型，得到所述待识别视频片段中各台词与表达所述各台词的人物的映射关系，不但可以实现视频中说话人的定位，计算得到台词的说话角色，还可以提高说话角色的识别的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息，特别是涉及一种说话人定位方法、装置、电子设备及存储介质。

技术介绍

1、在说话人定位业务中，通用的检测方法主要应用单个说话人的音视频信息建模。这种策略在处理单个说话人的情况下可能是合适的，但在需要确定多个候选说话人中的具体发言者是谁时，无法提供准确的检测结果。具体的，通过现有技术仅仅能够做到识别出画面中存在人物，从而借助人体、人脸检测技术进行判断，但涉及到多人同屏的画面，凭借上述技术无法定位具体哪个是说话人。

技术实现思路

1、本专利技术实施例的目的在于提供一种说话人定位方法、装置、电子设备及存储介质，以实现视频中说话人的识别。具体技术方案如下：

2、在本专利技术实施的第一方面，首先提供了一种网络模型的训练方法，所述方法包括：

3、获取预先创建的视频片段样本；

4、对所述视频片段样本进行包含台词的音频的提取，得到样本台词音频片段，其中，所述视频片段样本包括至少两个人物和至少一段台词；对所述样本台词音频片段进行特征提取，得到多段样本台词的音频特征；

本文档来自技高网...

【技术保护点】

1.一种网络模型的训练方法，其特征在于，所述方法包括：

2.一种说话人定位方法，其特征在于，应用于业务服务器，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述重编码特征输入预先训练好的网络模型，得到所述待识别视频片段中各台词与表达所述各台词的人物的映射关系，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述音频特征和所述视频特征进行堆叠计算，得到堆叠特征，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述堆叠特征和预设自注意力矩阵计算得到重编码特征，包括：

6.根据权利要求3所述的方法，...

【技术特征摘要】

1.一种网络模型的训练方法，其特征在于，所述方法包括：

2.一种说话人定位方法，其特征在于，应用于业务服务器，所述方法包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述音频特征和所述视频特征进行堆叠计算，得到堆叠特征，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述堆叠特征和预设自注意力矩阵计算得到重编码特征，包括：

6.根...

【专利技术属性】
技术研发人员：王发发，
申请(专利权)人：北京爱奇艺科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人