一种视频字幕的人物识别方法、装置、设备及存储介质制造方法及图纸

技术编号：37160848 阅读：33 留言：0更新日期：2023-04-06 22:25

本发明专利技术实施例提供了一种视频字幕的人物识别方法、装置、设备及存储介质，应用于视频处理技术领域。所述方法包括：对待识别视频进行文字识别，得到多个字幕文本；针对每一个字幕文本，确定该字幕文本所属的视频帧集合中所包含的相应人物，并确定该字幕文本属于相应人物的第一概率；对待识别视频中的音频进行声纹分割聚类，得到至少一个声纹类簇；确定各字幕文本与各声纹片段在时序上的对应关系；将同一声纹类簇中的声纹片段视为同一人物的声纹片段，基于第一概率及对应关系，确定各声纹类簇各自对应的人物；根据各声纹类簇各自对应的人物及对应关系，分别确定各字幕文本对应的人物。应用本发明专利技术实施例，能够准确地识别各字幕文本对应的人物。应的人物。应的人物。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频字幕的人物识别方法、装置、设备及存储介质

[0001]本专利技术涉及视频处理
，特别是涉及一种视频字幕的人物识别方法、装置、设备及存储介质。

技术介绍

[0002]字幕即以文字形式显示于电视、电影、舞台作品中的对话等非影像内容。通常视频中的字幕不包含说话人物的名称，在对包含字幕的视频数据进行处理时，比如对剪辑的影视剧进行智能起标题等，剪辑得到的视频数据中包含字幕信息，基于这些字幕信息仅能知晓视频数据中发生的事件，而无法准确地定位到发生该事件的人，使得视频数据中人物类信息的缺失，妨碍了自然语言处理(Natural language processing，NLP)等算法在该视频处理场景下的发展。因此，如何识别视频中字幕对应的说话人物的信息尤为重要。
[0003]现有识别视频中字幕对应的说话人信息的方法中，提取视频数据中的音频数据，将音频数据切分成多个音频段，利用声纹识别模型对各音频段进行声纹识别，以得到各音频段对应的声纹特征的人物信息，该声纹识别模型是根据样本音频数据，以及该样本音频数据对应的人物信息进行训...

【技术保护点】

【技术特征摘要】
1.一种视频字幕的人物识别方法,其特征在于，所述方法包括：对待识别视频进行文字识别，得到多个字幕文本，所述字幕文本与所述待识别视频中的字幕一一对应；针对每一个字幕文本，确定该字幕文本所属的视频帧集合中所包含的相应人物，并确定该字幕文本属于相应人物的第一概率；对所述待识别视频中的音频进行声纹分割聚类，得到至少一个声纹类簇；其中，每个所述声纹类簇中包含至少一段声纹片段，所述声纹片段是对所述音频进行声纹分割得到的；确定各所述字幕文本与各所述声纹片段在时序上的对应关系；将同一所述声纹类簇中的声纹片段视为同一人物的声纹片段，基于所述第一概率及所述对应关系，确定各所述声纹类簇各自对应的人物；根据各所述声纹类簇各自对应的人物及所述对应关系，分别确定各所述字幕文本对应的人物。2.根据权利要求1所述的方法，其特征在于，所述针对每一个字幕文本，确定该字幕文本所属的视频帧集合中所包含的相应人物，并确定该字幕文本属于相应人物的第一概率，包括：针对每一个字幕文本，确定该字幕文本显示时间段对应的视频帧集合；确定所述视频帧集合中所包含的人物数量，以及各人物出现的次数；基于所述人物数量以及各所述人物出现的次数，确定该字幕文本属于相应人物的第一概率。3.根据权利要求1所述的方法，其特征在于，所述对所述待识别视频中的音频进行声纹分割聚类，得到至少一个声纹类簇，包括：获取所述待识别视频中的音频数据；对所述音频数据进行去噪处理，得到去噪后的音频数据；对所述去噪后的音频数据进行声纹分割，得到多个声纹片段；针对各所述声纹片段，将该声纹片段转换为嵌入声纹特征；对各所述嵌入声纹特征进行聚类，得到至少一个声纹类簇。4.根据权利要求1所述的方法，其特征在于，所述将同一所述声纹类簇中的声纹片段视为同一人物的声纹片段，基于所述第一概率及所述对应关系，确定各所述声纹类簇各自对应的人物，包括：针对每一个声纹片段，基于所述对应关系，将该声纹片段对应的字幕文本属于相应人物的第一概率作为该声纹片段属于所述相应人物的第二概率；以同一所述声纹类簇中的声纹片段是同一人物的声纹片段为约束条件，根据所述第二概率对所述声纹类簇所对应的人物进行匹配，确定各所述声纹类簇各自对应的人物。5.根据权利要求1所述的方法，其特征在于，所述根据各所述声纹类簇各自对应的人物及所述对应关系，分别确定各所述字幕文本对应的人物，包括：根据各所述声纹类簇各自对应的人物，及各所述声纹类簇中包含的声纹片段，确定各...

【专利技术属性】
技术研发人员：保俊杉，
申请(专利权)人：北京爱奇艺科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人