封面图像提取方法、装置、设备及计算机存储介质制造方法及图纸

技术编号：39186771 阅读：9 留言：0更新日期：2023-10-27 08:34

本申请公开了一种封面图像提取方法、装置、设备及计算机存储介质，可应用于云技术、人工智能、智慧交通、辅助驾驶、地图等各种场景，从目标多媒体资源中抽取多个候选图像，并分别生成相应的图像描述文本，将目标多媒体资源包括的多种媒介形式的资源内容，以及各个图像描述文本输入至已训练的分类评估模型中，分别获得目标多媒体资源的目标资源类型和各个候选图像的模型评估结果，基于目标资源类型确定的封面评估规则来对各个模型评估结果进行更新，获得各个候选图像的目标评估结果，基于各个候选图像的目标评估结果，从各个候选图像中确定封面图像，该方法考虑了资源类型，使得封面图像与当前资源类型更为契合，提升了封面图像的准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
封面图像提取方法、装置、设备及计算机存储介质

[0001]本申请涉及计算机技术人工智能
，尤其涉及人工智能
，提供一种封面图像提取方法、装置、设备及计算机存储介质。

技术介绍

[0002]随着网络技术的发展，可以很方便的从网络获取多媒体资源；例如：可以在资源提供平台中进行搜索，以获取包含多图像的多媒体资源。在展示包含多图像的多媒体资源时，通常首先展示的是该多媒体资源的封面图像，因而封面图像所展示的内容直接决定了对该多媒体资源的第一印象。例如，多媒体资源为视频或者图集，以视频为例，通过视频的封面图像可以直观的感知该视频的内容以及风格等信息，从而一定程度上决定了该视频是否被点击观看。由此可见，视频或者图集等多媒体资源的封面图像的选取是十分重要的。
[0003]目前，在进行封面图像的选取时，通常是对各个图像进行统一评估后排序选图，例如：通过分析各图像的主体信息，基于主体的位置大小、清晰度及图片质量等信息得出图片评估值，最后基于图片评估值选取出封面图像。
[0004]然而，这种选取方式针对所有多媒体资源均采用统一的评估标准，而在实际场景中，统一的评估标准可能无法适用于所有的多媒体资源，则可能出现由于图像评估不准确而使得封面图像选取不准确的情况。

技术实现思路

[0005]本申请实施例提供一种封面图像提取方法、装置、设备及计算机存储介质，用于提升提取的封面图像的准确性。
[0006]一方面，提供一种封面图像提取方法，所述方法包括：
[0007]从目标多媒体资源包括的各...

【技术保护点】

【技术特征摘要】
1.一种封面图像提取方法，其特征在于，所述方法包括：从目标多媒体资源包括的各个原始图像中抽取多个候选图像，并分别基于各候选图像的图像内容生成相应的图像描述文本；将所述目标多媒体资源包括的多种媒介形式的资源内容，以及各个图像描述文本输入至已训练的分类评估模型中，分别获得所述目标多媒体资源的目标资源类型和各个候选图像的模型评估结果，其中，每个模型评估结果表征：相应的候选图像被推荐作为封面图像的推荐度；基于所述目标资源类型确定所述目标多媒体资源对应的封面评估规则，并基于所述封面评估规则分别对获得的各个模型评估结果进行更新，获得所述各个候选图像的目标评估结果；基于所述各个候选图像的目标评估结果，从所述各个候选图像中确定封面图像。2.如权利要求1所述的方法，其特征在于，基于所述目标资源类型确定所述目标多媒体资源对应的封面评估规则，并基于所述封面评估规则分别对获得的各个模型评估结果进行更新，获得所述各个候选图像的目标评估结果，包括：分别基于所述各个候选图像中图像主体的位置信息进行封面图像评估，获得所述各个候选图像的主体评估结果；基于所述目标资源类型，确定所述封面评估规则中所述模型评估结果与所述主体评估结果的权重；基于所述各个候选图像的模型评估结果与主体评估结果，以及获得的各个权重，获得所述各个候选图像的目标评估结果。3.如权利要求2所述的方法，其特征在于，分别基于所述各个候选图像中图像主体的位置信息进行封面图像评估，获得所述各个候选图像的主体评估结果，包括：针对所述各个候选图像，分别执行如下步骤：针对一个候选图像，对所述一个候选图像进行主体检测，获得所述一个候选图像中图像主体所在的目标区域；根据所述目标区域与所述一个候选图像的中心区域之间的重叠度，获得所述一个候选图像的主体评估结果。4.如权利要求1所述的方法，其特征在于，每个模型评估结果包括相应的候选图像相对于各个资源类型的推荐度；则基于所述目标资源类型确定所述目标多媒体资源对应的封面评估规则，并基于所述封面评估规则分别对获得的各个模型评估结果进行更新，获得所述各个候选图像的目标评估结果，包括：基于所述目标资源类型，确定所述封面评估规则中所述各个资源类型各自对应的权重；基于所述各个候选图像相对于所述各个资源类型的推荐度以及相应的权重，确定所述各个候选图像的目标评估结果。5.如权利要求1所述的方法，其特征在于，所述资源内容包括所述各个原始图像和所述目标多媒体资源的资源描述文本；则将所述目标多媒体资源包括的多种媒介形式的资源内容，以及各图像描述文本输入
至已训练的分类评估模型中，分别获得所述目标多媒体资源的目标资源类型和各个候选图像的模型评估结果，包括：分别对所述各个原始图像提取相应的原始图像特征；对所述资源描述文本提取第一文本特征，并分别对所述各个图像描述文本提取相应的第二文本特征；对获得的第一文本特征和各个第二文本特征进行文本特征融合，获得融合文本特征，以及，对获得的各个原始图像特征进行图像特征融合，获得融合图像特征；基于所述融合文本特征和所述融合图像特征，预测所述目标资源类型和所述各个模型评估结果。6.如权利要求5所述的方法，其特征在于，所述分类评估模型包括文本编码器和图像编码器，所述文本编码器和所述图像编码器共享权重参数；则所述对获得的第一文本特征和各个第二文本特征进行文本特征融合，获得融合文本特征，以及，对获得的各个原始图像特征进行图像特征融合，获得融合图像特征，包括：采用所述文本编码器，基于所述权重参数对获得的第一文本特征和各个第二文本特征进行文本特征编码，获得所述融合文本特征；采用所述图像编码器，基于所述权重参数对获得的各个原始图像特征进行图像特征编码，获得所述融合图像特征。7.如权利要求1～6任一所述的方法，其特征在于，从目标多媒体资源包括的各个原始图像中抽取多个候选图像，包括：采用等间隔抽取方式，从所述各个原始图像中抽取N个初选图像；分别基于所述N个初选图像的至少...

【专利技术属性】
技术研发人员：高洵，罗文寒，徐鲁辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人