视频标签获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37673850 阅读：25 留言：0更新日期：2023-05-26 04:37

本申请提供一种视频标签获取方法、装置、电子设备及存储介质，该方法包括：获取视频的至少一个关键帧；对所述至少一个关键帧分别进行语音识别处理和文字识别处理，相应得到各关键帧对应的语音识别文本和文字识别文本；将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合；根据各关键帧对应的第一标签集合确定所述视频的标签。本申请实施例的技术方案能精确获取视频的标签，为用户提供精准标签检索。为用户提供精准标签检索。为用户提供精准标签检索。

全部详细技术资料下载

【技术实现步骤摘要】
视频标签获取方法、装置、电子设备及存储介质

[0001]本申请涉及数据处理
，具体而言，涉及一种视频标签获取方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网的普及，视频数据也成为网络时代重要的数据存储类型之一，如电影、电视节目、动漫等娱乐向视频，以及随着线上教育的迅速普及，从而爆炸式增长的微课学习向视频。
[0003]对于海量的视频资源，如何让用户快速准确的找到自己想要的视频成为亟待解决的问题，在现有的技术实现中，常通过为这些视频打上标签，后续再通过检索或者推荐的方式呈现给用户。但现有的视频标签抽取或生成的方法大多通过人工观看视频，人为理解视频的内容，然后给视频打上相应的标签，这种方法效率低，人工成本高；还有一些标签生成方法中仅通过视频的标题提取关键字，或是仅通过提取视频语音提取关键字，然后将关键词作为视频的标签，这种方法得到的视频标签较为粗糙且无法准确全面的反应视频的内容，无法实现根据客户查询标签进行准确视频推荐。

技术实现思路

[0004]为解决上述技术问题，本申请的实施例...

【技术保护点】

【技术特征摘要】
1.一种视频标签获取方法，其特征在于，包括：获取视频的至少一个关键帧；对所述至少一个关键帧分别进行语音识别处理和文字识别处理，相应得到各关键帧对应的语音识别文本和文字识别文本；将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合；根据各关键帧对应的第一标签集合确定所述视频的标签。2.根据权利要求1所述的方法，其特征在于，所述获取视频的至少一个关键帧，包括：对所述视频含有的视频帧进行文字识别处理，得到各视频帧对应的文字识别文本；根据不同视频帧对应的文字识别文本对所述视频进行分段，得到多个视频段；选取每个视频段中踪片数量最多的视频帧为关键帧。3.根据权利要求2所述的方法，其特征在于，所述根据不同视频帧对应的文字识别文本对所述视频进行分段，得到多个视频段，包括：获取不同视频帧对应的文字识别文本之间的特征相似度，并确定特征相似度大于第一预设阈值的不同视频帧为同一踪片；确定空间距离小于第二预设阈值的任意两个踪片为冲突踪片对；对所述视频进行多次分段，得到多个视频段，其中，每个视频段内的冲突踪片对的数量小于第三预设阈值。4.根据权利要求1所述的方法，其特征在于，所述将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合，包括：将每个关键帧对应的语音识别文本和文字识别文本分别进行编码，相应得到语音表征和文字表征；根据所述语音表征和文字表征之间的交叉注意力将所述语音表征和所述文字表征进行融合，得到融合表征；根据所述融合表征进行标签分类，得到各关键帧对应的标签，由各关键帧对应的标签形成各关键帧对应的第一标签集合。5.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述视频所属的领域构建对应的标签库；根据所述各关键帧对应的语音识别文本和文字识别文本确定对应关键帧的标题；根据每个关键帧的标题在所述标签库中进行召回处理，以得到每...

【专利技术属性】
技术研发人员：熊昊奇，饶孟良，曹云波，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人