用于构建搜索索引库的方法及装置、搜索方法及装置制造方法及图纸

技术编号:39440211 阅读:10 留言:0更新日期:2023-11-19 16:23
本公开提供了一种用于构建搜索索引库的方法及搜索方法,其中,用于构建搜索索引库的方法包括:获取目标视频文件;基于目标视频文件,提取第一节点集合,第一节点集合包括至少一个第一节点,每个第一节点包括与目标视频文件的一个帧图像对应的文本信息;基于目标视频文件,提取第二节点集合,第二节点集合包括至少一个第二节点,每个第二节点包括与目标视频文件的一个音频片段对应的文本信息;将第一节点集合和第二节点集合添加至搜索索引库。通过该方法,有助于实现更细粒度的视频搜索,并有助于快速、准确定位至视频中的与搜索文本相关的部分,从而有助于提升用户搜索体验。从而有助于提升用户搜索体验。从而有助于提升用户搜索体验。

【技术实现步骤摘要】
用于构建搜索索引库的方法及装置、搜索方法及装置


[0001]本公开涉及计算机
,更具体地,涉及一种用于构建搜索索引库的方法及装置、搜索方法及装置、计算设备、计算机可读存储介质、计算机程序产品。

技术介绍

[0002]相比于文字、图片、音频等媒介,视频往往可以承载更为丰富的信息,并有助于以更为直观、更易于理解或更具趣味性的方式来传递信息。故,在当前的各种网站、应用程序等中,常常存在大量视频数据,以供用户浏览和查看,以便其获取各类信息。然而,由于视频数据所承载的内容的丰富性,如何更高效且准确地在众多视频数据中搜索到用户所期望的内容,成为一项备受关注的问题。

技术实现思路

[0003]有鉴于此,本公开提供了一种用于构建搜索索引库的方法及装置、搜索方法及装置、计算设备、计算机可读存储介质、计算机程序产品,可以缓解、减轻或甚至消除上述问题。
[0004]根据本公开的一方面,提供了一种用于构建搜索索引库的方法,包括:获取目标视频文件;基于目标视频文件,提取第一节点集合,第一节点集合包括至少一个第一节点,每个第一节点包括与目标视频文件的一个帧图像对应的文本信息;基于目标视频文件,提取第二节点集合,第二节点集合包括至少一个第二节点,每个第二节点包括与目标视频文件的一个音频片段对应的文本信息;将第一节点集合和第二节点集合添加至搜索索引库。
[0005]在一些实施例中,每个第一节点还包括:与该第一节点所包括的文本信息相对应的帧图像的时间信息,以及,每个第二节点还包括:与该第二节点所包括的文本信息相对应的音频片段的时间信息。
[0006]在一些实施例中,基于目标视频文件,提取第一节点集合包括:基于目标视频文件,提取至少一个关键帧;针对至少一个关键帧中的每个关键帧,提取与该关键帧相对应的文本信息,并至少基于所提取的文本信息,生成与该关键帧相对应的第一节点。
[0007]在一些实施例中,上述方法还包括针对每个第一节点执行以下步骤:提取与该第一节点相对应的帧图像;将所提取的帧图像存储至存储器;将所提取的帧图像的路径信息添加至该第一节点,其中,所提取的帧图像的路径信息用于表征所提取的帧图像在存储器中的存储路径。
[0008]在一些实施例中,上述方法还包括:在第一节点集合上滑动第一预设时间窗口,并在第一预设时间窗口内执行第一去重操作,以更新第一节点集合,第一去重操作包括:响应于在第一预设时间窗口内存在包含重复文本信息的至少两个连续的第一节点,在该至少两个连续的第一节点中,仅在其中一个第一节点中保留该重复文本信息,并在其他第一节点中删除该重复文本信息。
[0009]在一些实施例中,基于目标视频文件,提取第二节点集合包括:提取目标视频文件
中的音频文件;针对音频文件,执行语音识别,得到与音频文件的至少一个音频片段对应的文本信息;针对至少一个音频片段中的每个音频片段,至少基于相对应的文本信息,生成与该音频片段相对应的第二节点。
[0010]在一些实施例中,上述方法还包括针对每个第二节点执行以下步骤:提取与该第二节点相对应的帧图像,其中,与该第二节点相对应的帧图像为与该第二节点所对应的音频片段相对应的帧图像;将所提取的帧图像存储至存储器;将所提取的帧图像的路径信息添加至该第二节点,其中,所提取的帧图像的路径信息用于表征所提取的帧图像在存储器中的存储路径。
[0011]在一些实施例中,上述方法还包括:在第一节点集合中的每个第一节点中添加目标视频文件的基础信息;在第二节点集合中的每个第二节点中添加目标视频文件的基础信息,其中,目标视频文件的基础信息包括目标视频的标题、摘要、标签中的至少一项。
[0012]根据本公开的另一方面,提供了一种搜索方法,包括:接收搜索请求,搜索请求包括搜索文本;基于搜索文本与搜索索引库中的第一节点和/或第二节点的文本信息的匹配情况,反馈搜索结果,其中,搜索索引库是通过前述方面所描述的用于构建搜索索引库的方法得到的。
[0013]在一些实施例中,基于搜索文本与搜索索引库中的第一节点和/或第二节点的文本信息的匹配情况,反馈搜索结果包括:基于匹配情况,确定匹配节点集合,匹配节点集合包括至少一个匹配节点子集,每个匹配节点子集与一个目标视频相对应,并包括与搜索文本相匹配的至少一个第一节点和/或至少一个第二节点;在每个匹配节点子集中,根据时间顺序对该匹配节点子集中的至少一个第一节点和/或至少一个第二节点进行排序,得到经排序的匹配节点子集;基于经排序的匹配节点子集,反馈搜索结果。
[0014]在一些实施例中,基于经排序的匹配节点子集,反馈搜索结果包括:在每个经排序的匹配节点子集上,滑动第二预设时间窗口,并在第二预设时间窗口内执行第二去重操作,得到去重后的匹配节点子集,第二去重操作包括:响应于在第二预设时间窗口内存在至少两个节点,保留该至少两个节点中的与搜索文本匹配程度最高的节点,并删除其余节点,节点包括第一节点和第二节点;基于去重后的匹配节点子集,反馈搜索结果。
[0015]根据本公开的又一方面,提供了一种搜索方法,包括:获取搜索文本;基于搜索文本发送搜索请求;接收搜索结果,搜索结果是基于搜索文本与搜索索引库中的第一节点和/或第二节点的文本信息的匹配情况来反馈的,其中,搜索索引库是通过前述方面所描述的用于构建搜索索引库的方法得到的;基于搜索结果,呈现与搜索文本相匹配的至少一个第一节点和/或至少一个第二节点的文本信息。
[0016]在一些实施例中,呈现与搜索文本相匹配的至少一个第一节点和/或至少一个第二节点的文本信息包括:针对第一节点的文本信息,呈现第一标识;针对第二节点的文本信息,呈现第二标识。
[0017]在一些实施例中,上述方法还包括以下两项中的至少一项:响应于接收到针对一个第一节点或第二节点的文本信息的第一查看操作,呈现与该第一节点或第二节点对应的图像帧;响应于接收到针对一个第一节点或第二节点的文本信息的第二查看操作,以与该第一节点或第二节点对应的时间为起始时间,播放与该第一节点或第二节点对应的目标视频文件。
[0018]根据本公开的又一方面,提供了一种用于构建搜索索引库的装置,包括:获取模块,被配置为获取目标视频文件;第一提取模块,被配置为:基于目标视频文件,提取第一节点集合,第一节点集合包括至少一个第一节点,每个第一节点包括与目标视频文件的一个帧图像对应的文本信息;第二提取模块,被配置为:基于目标视频文件,提取第二节点集合,第二节点集合包括至少一个第二节点,每个第二节点包括与目标视频文件的一个音频片段对应的文本信息;添加模块,被配置为将第一节点集合和第二节点集合添加至搜索索引库。
[0019]根据本公开的又一方面,提供了一种搜索装置,包括:接收模块,被配置为:接收搜索请求,搜索请求包括搜索文本;反馈模块,被配置为:基于搜索文本与搜索索引库中的第一节点和/或第二节点的文本信息的匹配情况,反馈搜索结果,其中,搜索索引库是通过前述方面所描述的用于构建搜索索引库的方法得到的。
[0020]根据本公开的又一方面,提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于构建搜索索引库的方法,包括:获取目标视频文件;基于所述目标视频文件,提取第一节点集合,所述第一节点集合包括至少一个第一节点,每个第一节点包括与所述目标视频文件的一个帧图像对应的文本信息;基于所述目标视频文件,提取第二节点集合,所述第二节点集合包括至少一个第二节点,每个第二节点包括与所述目标视频文件的一个音频片段对应的文本信息;将所述第一节点集合和所述第二节点集合添加至搜索索引库。2.根据权利要求1所述的方法,其中,每个第一节点还包括:与该第一节点所包括的文本信息相对应的帧图像的时间信息,以及,每个第二节点还包括:与该第二节点所包括的文本信息相对应的音频片段的时间信息。3.根据权利要求1所述的方法,其中,所述基于所述目标视频文件,提取第一节点集合包括:基于所述目标视频文件,提取至少一个关键帧;针对所述至少一个关键帧中的每个关键帧,提取与该关键帧相对应的文本信息,并至少基于所提取的文本信息,生成与该关键帧相对应的第一节点。4.根据权利要求1至3中任一项所述的方法,还包括针对每个第一节点执行以下步骤:提取与该第一节点相对应的帧图像;将所提取的帧图像存储至存储器;将所提取的帧图像的路径信息添加至该第一节点,其中,所提取的帧图像的路径信息用于表征所提取的帧图像在所述存储器中的存储路径。5.根据权利要求1所述的方法,还包括:在所述第一节点集合上滑动第一预设时间窗口,并在所述第一预设时间窗口内执行第一去重操作,以更新所述第一节点集合,所述第一去重操作包括:响应于在所述第一预设时间窗口内存在包含重复文本信息的至少两个连续的第一节点,在该至少两个连续的第一节点中,仅在其中一个第一节点中保留该重复文本信息,并在其他第一节点中删除该重复文本信息。6.根据权利要求1所述的方法,其中,所述基于所述目标视频文件,提取第二节点集合包括:提取所述目标视频文件中的音频文件;针对所述音频文件,执行语音识别,得到与所述音频文件的至少一个音频片段对应的文本信息;针对所述至少一个音频片段中的每个音频片段,至少基于相对应的文本信息,生成与该音频片段相对应的第二节点。7.根据权利要求6所述的方法,还包括针对每个第二节点执行以下步骤:提取与该第二节点相对应的帧图像,其中,与该第二节点相对应的帧图像为与该第二节点所对应的音频片段相对应的帧图像;将所提取的帧图像存储至存储器;将所提取的帧图像的路径信息添加至该第二节点,其中,所提取的帧图像的路径信息用于表征所提取的帧图像在所述存储器中的存储路径。
8.根据权利要求1所述的方法,还包括:在所述第一节点集合中的每个第一节点中添加所述目标视频文件的基础信息;在所述第二节点集合中的每个第二节点中添加所述目标视频文件的基础信息,其中,所述目标视频文件的基础信息包括所述目标视频的标题、摘要、标签中的至少一项。9.一种搜索方法,包括:接收搜索请求,所述搜索请求包括搜索文本;基于所述搜索文本与搜索索引库中的第一节点和/或第二节点的文本信息的匹配情况,反馈搜索结果,其中,所述搜索索引库是通过权利要求1至8中任一项所述的方法得到的。10.根据权利要求9所述的方法,其中,所述基于所述搜索文本与搜索索引库中的第一节点和/或第二节点的文本信息的匹配情况,反馈搜索结果包括:基于所述匹配情况,确定匹配节点集合,所述匹配节点集合包括至少一个匹配节点子集,每个匹配节点子集与一个目标视频相对应,并包括与所述搜索文本相匹配的至少一个第一节点和/或至少一个第二节点;在每个匹配节点子集中,根据时间顺序对该匹配节点子集中的至少一个第一节点和/或至少一个第二节点进行排序...

【专利技术属性】
技术研发人员:吕政伟石智中梁霄雷涛
申请(专利权)人:中国国际金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1