一种视频画面的定位方法、相关装置、设备及存储介质制造方法及图纸

技术编号:30633053 阅读:13 留言:0更新日期:2021-11-04 00:08
本申请公开了一种基于人工智能技术以及存储技术实现的视频画面定位方法,包括:接收终端设备发送的搜索信息;将搜索信息与索引库中目标视频的目标关联文本进行匹配,得到匹配分值;若匹配分值满足匹配条件,则确定目标关联文本所对应的时间信息;向终端设备发送目标关联文本所对应的时间信息以及目标关联文本,以使终端设备展示目标视频的画面定位结果。本申请还提供了一种相关装置、设备及存储介质。本申请能够快速找到相关内容出现的场景,节省其他相似视频画面缩略图的干扰,提升视频画面定位的准确性。此外,便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面,从而提升搜索的效率。提升搜索的效率。提升搜索的效率。

【技术实现步骤摘要】
一种视频画面的定位方法、相关装置、设备及存储介质


[0001]本申请涉及人工智能领域,尤其涉及一种视频画面的定位方法、相关装置、设备及存储介质。

技术介绍

[0002]随着社会的发展进步和科技创新,多媒体技术也呈现出突飞猛进的发展。集计算机技术、通信技术以及电视技术为一体的多媒体技术已经与人们的日常生活密不可分。其中,视频作为常见的多媒体形式,具有很好的娱乐性和传播性。
[0003]当用户需要查看视频中的某个片段时,可以在视频播放器提供的进度条上进行拖动操作,并且显示播放位置对应的视频画面缩略图。基于此,通过视频画面缩略图帮助用户快速定位到某个一时间点位置。
[0004]然而,通过视频画面缩略图进行定位的方式较为繁琐,而且容易错过用户想要的视频画面缩略图,导致定位准确度较低。此外,如果视频是演讲视频或者会议视频等画面内容差异不大的视频,那么很难通过视频画面缩略图定位到准确的时间点。

技术实现思路

[0005]本申请实施例提供了一种视频画面的定位方法、相关装置、设备及存储介质,采用文本搜索或语音搜索能够快速找到相关内容出现的场景,基于单个视频的搜索可节省其他相似视频画面缩略图的干扰,提升视频画面定位的准确性。此外,还可以便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面,从而提升搜索的效率。
[0006]有鉴于此,本申请一方面提供一种视频画面的定位方法,包括:
[0007]接收终端设备发送的搜索信息,其中,搜索信息为搜索文本或搜索语音;
[0008]将搜索信息与索引库中目标视频的目标关联文本进行匹配,得到匹配分值,其中,索引库包括K个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息,K个视频包括目标视频,K为大于或等于1的整数;
[0009]若匹配分值满足匹配条件,则确定目标关联文本所对应的时间信息;
[0010]向终端设备发送目标关联文本所对应的时间信息以及目标关联文本,以使终端设备根据目标关联文本所对应的时间信息以及目标关联文本,展示目标视频的画面定位结果。
[0011]本申请另一方面提供一种视频画面的定位方法,包括:
[0012]获取搜索信息,其中,搜索信息为搜索文本或搜索语音;
[0013]向服务器发送搜索信息,以使服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配,得到匹配分值,其中,索引库包括K个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息,K个视频包括目标视频,K为大于或等于1的整数;
[0014]若匹配分值满足匹配条件,则接收服务器发送的目标关联文本所对应的时间信息以及目标关联文本;
[0015]根据目标关联文本所对应的时间信息以及目标关联文本,展示目标视频的画面定位结果。
[0016]本申请另一方面提供一种视频画面定位装置,包括:
[0017]获取模块,用于接收终端设备发送的搜索信息,其中,搜索信息为搜索文本或搜索语音;
[0018]匹配模块,用于将搜索信息与索引库中目标视频的目标关联文本进行匹配,得到匹配分值,其中,索引库包括K个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息,K个视频包括目标视频,K为大于或等于1的整数;
[0019]确定模块,用于若匹配分值满足匹配条件,则确定目标关联文本所对应的时间信息;
[0020]发送模块,用于向终端设备发送目标关联文本所对应的时间信息以及目标关联文本,以使终端设备根据目标关联文本所对应的时间信息以及目标关联文本,展示目标视频的画面定位结果。
[0021]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,视频画面定位装置还包括识别模块以及存储模块;
[0022]识别模块,用于在匹配模块将搜索信息与索引库中目标视频的目标关联文本进行匹配,得到匹配分值之前,针对于目标视频,若目标视频包括字幕信息,则对目标视频中的字幕信息进行光学字符识别OCR处理,得到关联文本;
[0023]获取模块,还用于获取关联文本所对应的时间信息;
[0024]存储模块,用于将关联文本以及关联文本所对应的时间信息存储于索引库。
[0025]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0026]匹配模块,具体用于根据搜索信息生成第一文本序列,其中,第一文本序列包括M个字符,M为大于或等于1的整数;
[0027]根据目标视频的目标关联文本生成第二文本序列,其中,第二文本序列包括N个字符,N为大于或等于1的整数;
[0028]根据第一文本序列以及第二文本序列,构建字符矩阵;
[0029]从字符矩阵中确定最大路径所对应的累计操作数;
[0030]将累计操作数与M之间的比值作为匹配分值。
[0031]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0032]匹配模块,具体用于根据搜索信息生成第一文本序列,其中,第一文本序列包括R个词语,R为大于或等于1的整数;
[0033]根据目标视频的目标关联文本生成第二文本序列,其中,第二文本序列包括T个词语,T为大于或等于1的整数;
[0034]根据第一文本序列以及第二文本序列,确定词语集合,其中,词语集合为R个词语与T个词语的并集;
[0035]根据词语集合以及第一文本序列,确定第一词频向量;
[0036]根据词语集合以及第二文本序列,确定第二词频向量;
[0037]将第一词频向量与第二词频向量之间的余弦相似度作为匹配分值。
[0038]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,视频画
面定位装置还包括识别模块以及存储模块;
[0039]识别模块,用于在匹配模块将搜索信息与索引库中目标视频的目标关联文本进行匹配,得到匹配分值之前,针对于目标视频,若目标视频包括语音信息,则对目标视频中的语音信息进行自动语音识别ASR处理,得到关联文本;
[0040]获取模块,还用于获取关联文本所对应的时间信息;
[0041]存储模块,用于将关联文本以及关联文本所对应的时间信息存储于索引库。
[0042]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0043]匹配模块,具体用于根据搜索信息生成第一音素序列,其中,第一音素序列包括P个音素,P为大于或等于1的整数;
[0044]根据目标视频的目标关联文本生成第二音素序列,其中,第二音素序列包括Q个音素,Q为大于或等于1的整数;
[0045]根据第一音素序列以及第二音素序列,构建音素矩阵;
[0046]从音素矩阵中确定最大路径所对应的累计操作数;
[0047]将累计操作数与P之间的比值作为匹配分值。
[0048]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,视频画面定位装置还包括识别模块以及存储模块;
...

【技术保护点】

【技术特征摘要】
1.一种视频画面的定位方法,其特征在于,包括:接收终端设备发送的搜索信息,其中,所述搜索信息为搜索文本或搜索语音;将所述搜索信息与索引库中目标视频的目标关联文本进行匹配,得到匹配分值,其中,所述索引库包括K个视频中每个视频的关联文本以及所述每个视频的关联文本所对应的时间信息,所述K个视频包括所述目标视频,所述K为大于或等于1的整数;若所述匹配分值满足匹配条件,则确定所述目标关联文本所对应的时间信息;向所述终端设备发送所述目标关联文本所对应的时间信息以及所述目标关联文本,以使所述终端设备根据所述目标关联文本所对应的时间信息以及所述目标关联文本,展示所述目标视频的画面定位结果。2.根据权利要求1所述的定位方法,其特征在于,所述方法还包括:针对于所述目标视频,若所述目标视频包括字幕信息,则对所述目标视频中的字幕信息进行光学字符识别OCR处理,得到所述关联文本;获取所述关联文本所对应的时间信息;将所述关联文本以及所述关联文本所对应的时间信息存储于所述索引库。3.根据权利要求1或2所述的定位方法,其特征在于,所述将所述搜索信息与索引库中所述目标视频的目标关联文本进行匹配,得到匹配分值,包括:根据所述搜索信息生成第一文本序列,其中,所述第一文本序列包括M个字符,所述M为大于或等于1的整数;根据所述目标视频的目标关联文本生成第二文本序列,其中,所述第二文本序列包括N个字符,所述N为大于或等于1的整数;根据所述第一文本序列以及所述第二文本序列,构建字符矩阵;从所述字符矩阵中确定最大路径所对应的累计操作数;将所述累计操作数与所述M之间的比值作为所述匹配分值。4.根据权利要求1或2所述的定位方法,其特征在于,所述将所述搜索信息与索引库中所述目标视频的目标关联文本进行匹配,得到匹配分值,包括:根据所述搜索信息生成第一文本序列,其中,所述第一文本序列包括R个词语,所述R为大于或等于1的整数;根据所述目标视频的目标关联文本生成第二文本序列,其中,所述第二文本序列包括T个词语,所述T为大于或等于1的整数;根据所述第一文本序列以及所述第二文本序列,确定词语集合,其中,所述词语集合为所述R个词语与所述T个词语的并集;根据所述词语集合以及所述第一文本序列,确定第一词频向量;根据所述词语集合以及所述第二文本序列,确定第二词频向量;将所述第一词频向量与所述第二词频向量之间的余弦相似度作为所述匹配分值。5.根据权利要求1所述的定位方法,其特征在于,所述方法还包括:针对于所述目标视频,若所述目标视频包括语音信息,则对所述目标视频中的语音信息进行自动语音识别ASR处理,得到所述关联文本;获取所述关联文本所对应的时间信息;将所述关联文本以及所述关联文本所对应的时间信息存储于所述索引库。
6.根据权利要求1或5所述的定位方法,其特征在于,所述将所述搜索信息与索引库中所述目标视频的目标关联文本进行匹配,得到匹配分值,包括:根据所述搜索信息生成第一音素序列,其中,所述第一音素序列包括P个音素,所述P为大于或等于1的整数;根据所述目标视频的目标关联文本生成第二音素序列,其中,所述第二音素序列包括Q个音素,所述Q为大于或等于1的整数;根据所述第一音素序列以及所述第二音素序列,构建音素矩阵;从所述音素矩阵中确定最大路径所对应的累计操作数;将所述累计操作数与所述P之间的比值作为所述匹配分值。7.根据权利要求1所述的定位方法,其特征在于,所述方法还包括:针对于所述目标视频,对所述目标视频中的视频帧进行图像识别处理,得到所述关联文本;获取所述关联文本所对应的时间信息;将所述关联文本以及所述关联文本所对应的时间信息存储于所述索引库。8.根据权利要求1或7所述的定位方法,其特征在于,所述将所述搜索信息与索引库中所述目标视频的目标关联文本进行匹配,得到匹配分值,包括:基于所述搜索信息,通过语义匹配模型所包括的输入层,获取第一词向量;基于所述目标视频的目标关...

【专利技术属性】
技术研发人员:郭洋朱明清
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1