一种视频画面的定位方法、相关装置、设备及存储介质制造方法及图纸

技术编号：30633053 阅读：13 留言：0更新日期：2021-11-04 00:08

本申请公开了一种基于人工智能技术以及存储技术实现的视频画面定位方法，包括：接收终端设备发送的搜索信息；将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值；若匹配分值满足匹配条件，则确定目标关联文本所对应的时间信息；向终端设备发送目标关联文本所对应的时间信息以及目标关联文本，以使终端设备展示目标视频的画面定位结果。本申请还提供了一种相关装置、设备及存储介质。本申请能够快速找到相关内容出现的场景，节省其他相似视频画面缩略图的干扰，提升视频画面定位的准确性。此外，便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面，从而提升搜索的效率。提升搜索的效率。提升搜索的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频画面的定位方法、相关装置、设备及存储介质

[0001]本申请涉及人工智能领域，尤其涉及一种视频画面的定位方法、相关装置、设备及存储介质。

技术介绍

[0002]随着社会的发展进步和科技创新，多媒体技术也呈现出突飞猛进的发展。集计算机技术、通信技术以及电视技术为一体的多媒体技术已经与人们的日常生活密不可分。其中，视频作为常见的多媒体形式，具有很好的娱乐性和传播性。
[0003]当用户需要查看视频中的某个片段时，可以在视频播放器提供的进度条上进行拖动操作，并且显示播放位置对应的视频画面缩略图。基于此，通过视频画面缩略图帮助用户快速定位到某个一时间点位置。
[0004]然而，通过视频画面缩略图进行定位的方式较为繁琐，而且容易错过用户想要的视频画面缩略图，导致定位准确度较低。此外，如果视频是演讲视频或者会议视频等画面内容差异不大的视频，那么很难通过视频画面缩略图定位到准确的时间点。

技术实现思路

[0005]本申请实施例提供了一种视频画面的定位方法、相关装置、设备及存储介质，采用文本搜索或语音搜索能够快速找到相关内容出现的场景，基于单个视频的搜索可节省其他相似视频画面缩略图的干扰，提升视频画面定位的准确性。此外，还可以便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面，从而提升搜索的效率。
[0006]有鉴于此，本申请一方面提供一种视频画面的定位方法，包括：
[0007]接收终端设备发送的搜索信息，其中，搜索信息为搜索文本或搜索语音；
[0008]将搜索

【技术保护点】

【技术特征摘要】
1.一种视频画面的定位方法，其特征在于，包括：接收终端设备发送的搜索信息，其中，所述搜索信息为搜索文本或搜索语音；将所述搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，其中，所述索引库包括K个视频中每个视频的关联文本以及所述每个视频的关联文本所对应的时间信息，所述K个视频包括所述目标视频，所述K为大于或等于1的整数；若所述匹配分值满足匹配条件，则确定所述目标关联文本所对应的时间信息；向所述终端设备发送所述目标关联文本所对应的时间信息以及所述目标关联文本，以使所述终端设备根据所述目标关联文本所对应的时间信息以及所述目标关联文本，展示所述目标视频的画面定位结果。2.根据权利要求1所述的定位方法，其特征在于，所述方法还包括：针对于所述目标视频，若所述目标视频包括字幕信息，则对所述目标视频中的字幕信息进行光学字符识别OCR处理，得到所述关联文本；获取所述关联文本所对应的时间信息；将所述关联文本以及所述关联文本所对应的时间信息存储于所述索引库。3.根据权利要求1或2所述的定位方法，其特征在于，所述将所述搜索信息与索引库中所述目标视频的目标关联文本进行匹配，得到匹配分值，包括：根据所述搜索信息生成第一文本序列，其中，所述第一文本序列包括M个字符，所述M为大于或等于1的整数；根据所述目标视频的目标关联文本生成第二文本序列，其中，所述第二文本序列包括N个字符，所述N为大于或等于1的整数；根据所述第一文本序列以及所述第二文本序列，构建字符矩阵；从所述字符矩阵中确定最大路径所对应的累计操作数；将所述累计操作数与所述M之间的比值作为所述匹配分值。4.根据权利要求1或2所述的定位方法，其特征在于，所述将所述搜索信息与索引库中所述目标视频的目标关联文本进行匹配，得到匹配分值，包括：根据所述搜索信息生成第一文本序列，其中，所述第一文本序列包括R个词语，所述R为大于或等于1的整数；根据所述目标视频的目标关联文本生成第二文本序列，其中，所述第二文本序列包括T个词语，所述T为大于或等于1的整数；根据所述第一文本序列以及所述第二文本序列，确定词语集合，其中，所述词语集合为所述R个词语与所述T个词语的并集；根据所述词语集合以及所述第一文本序列，确定第一词频向量；根据所述词语集合以及所述第二文本序列，确定第二词频向量；将所述第一词频向量与所述第二词频向量之间的余弦相似度作为所述匹配分值。5.根据权利要求1所述的定位方法，其特征在于，所述方法还包括：针对于所述目标视频，若所述目标视频包括语音信息，则对所述目标视频中的语音信息进行自动语音识别ASR处理，得到所述关联文本；获取所述关联文本所对应的时间信息；将所述关联文本以及所述关联文本所对应的时间信息存储于所述索引库。
6.根据权利要求1或5所述的定位方法，其特征在于，所述将所述搜索信息与索引库中所述目标视频的目标关联文本进行匹配，得到匹配分值，包括：根据所述搜索信息生成第一音素序列，其中，所述第一音素序列包括P个音素，所述P为大于或等于1的整数；根据所述目标视频的目标关联文本生成第二音素序列，其中，所述第二音素序列包括Q个音素，所述Q为大于或等于1的整数；根据所述第一音素序列以及所述第二音素序列，构建音素矩阵；从所述音素矩阵中确定最大路径所对应的累计操作数；将所述累计操作数与所述P之间的比值作为所述匹配分值。7.根据权利要求1所述的定位方法，其特征在于，所述方法还包括：针对于所述目标视频，对所述目标视频中的视频帧进行图像识别处理，得到所述关联文本；获取所述关联文本所对应的时间信息；将所述关联文本以及所述关联文本所对应的时间信息存储于所述索引库。8.根据权利要求1或7所述的定位方法，其特征在于，所述将所述搜索信息与索引库中所述目标视频的目标关联文本进行匹配，得到匹配分值，包括：基于所述搜索信息，通过语义匹配模型所包括的输入层，获取第一词向量；基于所述目标视频的目标关...

【专利技术属性】
技术研发人员：郭洋，朱明清，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人