视频和文本的对齐方法、装置、设备、介质及程序产品制造方法及图纸

技术编号:39298993 阅读:12 留言:0更新日期:2023-11-07 11:07
本申请实施例提供了视频和文本的对齐方法、装置、设备、介质及程序产品,涉及人工智能、地图等领域,应用场景包括但不限于长视频场景。该方法包括:确定目标视频中多个对白视频片段、目标视频中多个非对白视频片段、目标文本中多个对白文本片段和目标文本中多个非对白文本片段;基于多个对白视频片段中对白和多个对白文本片段,进行全局对齐处理,确定全局对齐路径;基于除至少两个对白视频片段之外的其他对白视频片段中视频、除至少两个对白文本片段之外的其他对白文本片段、多个非对白视频片段和多个非对白文本片段,进行局部对齐处理,确定多个局部对齐路径;基于全局对齐路径和多个局部对齐路径,确定目标视频和目标文本之间的对齐路径。之间的对齐路径。之间的对齐路径。

【技术实现步骤摘要】
视频和文本的对齐方法、装置、设备、介质及程序产品


[0001]本申请涉及计算机
,具体而言,本申请涉及一种视频和文本的对齐方法、装置、设备、介质及程序产品。

技术介绍

[0002]随着长视频行业竞争日趋激烈,各大视频网站在提升用户观影体验方面投入了大量资源,以提升用户观看时长;并增加例如视频弹幕、弹幕防遮挡、只看Ta等功能,但是这些功能无法完全满足用户看故事的需求,例如用户只看主线剧情。究其原因,是因为故事和情节信息不仅仅通过视频画面表现,更多的信息蕴含在对话、旁白等文本中;而剧本作为拍摄视频的依据,其描述故事的完整性要远胜于角色对白。但是,现有技术中长视频和剧本对齐的效率和准确度都较低。

技术实现思路

[0003]本申请针对现有的方式的缺点,提出一种视频和文本的对齐方法、装置、设备、计算机可读存储介质及计算机程序产品,用于解决如何提高长视频和剧本对齐的效率和准确度问题。
[0004]第一方面,本申请提供了一种视频和文本的对齐方法,包括:
[0005]获取目标视频和目标视频对应的目标文本;
[0006]确定目标视频中多个对白视频片段、目标视频中多个非对白视频片段、目标文本中多个对白文本片段和目标文本中多个非对白文本片段;
[0007]基于多个对白视频片段中对白和多个对白文本片段,进行全局对齐处理,确定全局对齐路径,全局对齐路径用于表征多个对白视频片段中至少两个对白视频片段和多个对白文本片段中至少两个对白文本片段之间的对应关系;
[0008]基于除至少两个对白视频片段之外的其他对白视频片段中视频、除至少两个对白文本片段之外的其他对白文本片段、多个非对白视频片段和多个非对白文本片段,进行局部对齐处理,确定多个局部对齐路径,多个局部对齐路径用于表征多个非对白视频片段和多个非对白文本片段之间的对应关系,以及其他对白视频片段中视频和其他对白文本片段之间的对应关系,多个对白视频片段包括其他对白视频片段,多个对白文本片段包括其他对白文本片段;
[0009]基于全局对齐路径和多个局部对齐路径,确定目标视频和目标文本之间的对齐路径。
[0010]在一个实施例中,确定目标视频中多个对白视频片段、目标视频中多个非对白视频片段、目标文本中多个对白文本片段和目标文本中多个非对白文本片段,包括:
[0011]基于视频镜头分割算法或视频场景分割算法,将目标视频分割为多个视频片段;
[0012]基于文本检测算法,将多个视频片段中每个视频片段确定为对白视频片段或非对白视频片段,多个视频片段包括目标视频中多个对白视频片段和目标视频中多个非对白视
频片段;
[0013]基于目标文本中换行符或标点符号,将目标文本切分为多个字符串;
[0014]将多个字符串中每个字符串输入至文本分类模型,将每个字符串确定为对白文本片段或非对白文本片段,多个字符串包括目标文本中多个对白文本片段和目标文本中多个非对白文本片段。
[0015]在一个实施例中,基于多个对白视频片段中对白和多个对白文本片段,进行全局对齐处理,确定全局对齐路径,包括:
[0016]将多个对白视频片段中任一对白视频片段的对白和多个对白文本片段中任一对白文本片段输入至文本相似度模型,确定任一对白视频片段的对白和任一对白文本片段之间的相似度;
[0017]基于各相似度,通过对齐算法,确定全局对齐路径,各相似度中每个相似度都大于预设相似度阈值。
[0018]在一个实施例中,将多个对白视频片段中任一对白视频片段的对白和多个对白文本片段中任一对白文本片段输入至文本相似度模型,确定任一对白视频片段的对白和任一对白文本片段之间的相似度,包括:
[0019]将多个对白视频片段按照时间先后顺序进行排序,得到多个对白视频片段对应的第一排序列表;并将多个对白文本片段按照时间先后顺序进行排序,得到多个对白文本片段对应的第二排序列表;
[0020]针对同一时间,将第一排序列表中任一对白视频片段的对白和第二排序列表中任一对白文本片段输入至文本相似度模型,进行相似度计算,得到所述任一对白视频片段的对白和任一对白文本片段之间的相似度。
[0021]在一个实施例中,基于各相似度,通过对齐算法,确定全局对齐路径,包括:
[0022]构建各相似度对应的第一矩阵,各相似度中每个相似度为第一矩阵的元素;
[0023]基于第一矩阵,通过对齐算法,确定第一矩阵的多条路径中最大路径,并将最大路径确定为全局对齐路径;
[0024]其中,在多条路径中最长路径上各元素之和为最大。
[0025]在一个实施例中,基于除至少两个对白视频片段之外的其他对白视频片段中视频、除至少两个对白文本片段之外的其他对白文本片段、多个非对白视频片段和多个非对白文本片段,进行局部对齐处理,确定多个局部对齐路径,包括:
[0026]将除至少两个对白视频片段之外的其他对白视频片段中任一对白视频片段的视频和除至少两个对白文本片段之外的其他对白文本片段中任一对白文本片段输入至视文匹配模型,确定其他对白视频片段中任一对白视频片段的视频和其他对白文本片段中任一对白文本片段之间的第一相似度,其他对白视频片段中任一对白视频片段的对白和其他对白文本片段中任一对白文本片段之间的相似度小于或等于预设相似度阈值;
[0027]将多个非对白视频片段中任一非对白视频片段和多个非对白文本片段中任一非对白文本片段输入至视文匹配模型,确定任一非对白视频片段和任一非对白文本片段之间的第二相似度;
[0028]基于各第一相似度和各第二相似度,通过对齐算法,确定多个局部对齐路径。
[0029]在一个实施例中,基于各第一相似度和各第二相似度,通过对齐算法,确定多个局
部对齐路径,包括:
[0030]构建各第一相似度对应的多个第二矩阵和各第二相似度对应的多个第三矩阵,各第一相似度中每个第一相似度为多个第二矩阵中一个第二矩阵的元素,各第二相似度中每个第二相似度为多个第三矩阵中一个第三矩阵的元素;
[0031]基于多个第二矩阵,通过对齐算法,确定多个第二矩阵中每个第二矩阵的最大路径,并将每个第二矩阵的最大路径确定为局部对齐路径;
[0032]基于多个第三矩阵,通过对齐算法,确定多个第三矩阵中每个第三矩阵的最大路径,并将每个第三矩阵的最大路径确定为局部对齐路径。
[0033]在一个实施例中,在基于全局对齐路径和多个局部对齐路径,确定目标视频和目标文本之间的对齐路径之后,还包括:
[0034]当播放目标视频中任一视频片段时,基于对齐路径,展示任一视频片段对应的目标文本中文本片段,任一视频片段的类型为对白视频片段或非对白视频片段,文本片段的类型为对白文本片段或非对白文本片段。
[0035]第二方面,本申请提供了一种视频和文本的对齐装置,包括:
[0036]第一处理模块,用于获取目标视频和目标视频对应的目标文本;
[0037]第二处理模块,用于确定目标视频中多个对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频和文本的对齐方法,其特征在于,包括:获取目标视频和所述目标视频对应的目标文本;确定所述目标视频中多个对白视频片段、所述目标视频中多个非对白视频片段、所述目标文本中多个对白文本片段和所述目标文本中多个非对白文本片段;基于所述多个对白视频片段中对白和所述多个对白文本片段,进行全局对齐处理,确定全局对齐路径,所述全局对齐路径用于表征所述多个对白视频片段中至少两个对白视频片段和所述多个对白文本片段中至少两个对白文本片段之间的对应关系;基于除所述至少两个对白视频片段之外的其他对白视频片段中视频、除所述至少两个对白文本片段之外的其他对白文本片段、所述多个非对白视频片段和所述多个非对白文本片段,进行局部对齐处理,确定多个局部对齐路径,所述多个局部对齐路径用于表征所述多个非对白视频片段和所述多个非对白文本片段之间的对应关系,以及所述其他对白视频片段中视频和所述其他对白文本片段之间的对应关系,所述多个对白视频片段包括所述其他对白视频片段,所述多个对白文本片段包括所述其他对白文本片段;基于所述全局对齐路径和所述多个局部对齐路径,确定所述目标视频和所述目标文本之间的对齐路径。2.根据权利要求1所述的方法,其特征在于,所述确定所述目标视频中多个对白视频片段、所述目标视频中多个非对白视频片段、所述目标文本中多个对白文本片段和所述目标文本中多个非对白文本片段,包括:基于视频镜头分割算法或视频场景分割算法,将所述目标视频分割为多个视频片段;基于文本检测算法,将所述多个视频片段中每个视频片段确定为对白视频片段或非对白视频片段,所述多个视频片段包括所述目标视频中多个对白视频片段和所述目标视频中多个非对白视频片段;基于所述目标文本中换行符或标点符号,将所述目标文本切分为多个字符串;将所述多个字符串中每个字符串输入至文本分类模型,将所述每个字符串确定为对白文本片段或非对白文本片段,所述多个字符串包括所述目标文本中多个对白文本片段和所述目标文本中多个非对白文本片段。3.根据权利要求1所述的方法,其特征在于,所述基于所述多个对白视频片段中对白和所述多个对白文本片段,进行全局对齐处理,确定全局对齐路径,包括:将所述多个对白视频片段中任一对白视频片段的对白和所述多个对白文本片段中任一对白文本片段输入至文本相似度模型,确定所述任一对白视频片段的对白和所述任一对白文本片段之间的相似度;基于各相似度,通过对齐算法,确定全局对齐路径,所述各相似度中每个相似度都大于预设相似度阈值。4.根据权利要求3所述的方法,其特征在于,所述将所述多个对白视频片段中任一对白视频片段的对白和所述多个对白文本片段中任一对白文本片段输入至文本相似度模型,确定所述任一对白视频片段的对白和所述任一对白文本片段之间的相似度,包括:将所述多个对白视频片段按照时间先后顺序进行排序,得到所述多个对白视频片段对应的第一排序列表;并将所述多个对白文本片段按照时间先后顺序进行排序,得到所述多个对白文本片段对应的第二排序列表;
针对同一时间,将所述第一排序列表中任一对白视频片段的对白和所述第二排序列表中任一对白文本片段输入至文本相似度模型,进行相似度计算,得到所述任一对白视频片段的对白和所述任一对白文本片段之间的相似度。5.根据权利要求3所述的方法,其特征在于,所述基于各相似度,通过对齐算法,确定全局对齐路径,包括:构建各相似度对应的第一矩阵,所述各相似度中每个相似度为所述第一矩阵的元素;基于所述第一矩阵,通过对齐算法,确定所述第一矩阵的多条路径中最大路径,并将所述最大路径确定为全局对齐路径;其中,在所述多条路径中所述最长路径上各元素之和为最大。6.根据权利要求1所述的方法,其特征在于,所述基于除所述至少两个对白视频片段之外的其他对白视频片段中视频、除所述至少两个对白文本片段之外的其他对白文本片段、所述多个非对白视频片段和所述多个非对白文本片...

【专利技术属性】
技术研发人员:裴唯一曲直赵丽丽谢晓辉王烨鑫史勤杨天舒
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1