封面确定方法、装置、设备及可读存储介质制造方法及图纸

技术编号:20221808 阅读:22 留言:0更新日期:2019-01-28 20:18
本发明专利技术实施例公开了一种封面确定方法、装置、设备及可读存储介质。其中,方法包括:获取文件的候选图像集合,并从各候选图像中获取显示的实体的信息;获取所述文件的内容信息;计算各候选图像显示的实体的信息与文件的内容信息的相关度;从候选图像集合中,确定相关度满足第一预设要求的候选图像作为所述文件的封面,使得确定的封面贴合文件的主要内容,实现图文相符;而且,通过智能确定相关度高的封面,可以节省人工选封面的人力成本,选取的优质封面能够提升用户点击率。

【技术实现步骤摘要】
封面确定方法、装置、设备及可读存储介质
本专利技术实施例涉及计算机视觉技术,尤其涉及一种封面确定方法、装置、设备及可读存储介质。
技术介绍
封面原指书刊外面的一层,有时特指印有书名、著者或编者、出版者名称等的第一面。近些年,网页、视频、电子漫画书、电子图集等电子文件大量涌现,一般采用图像作为这些文件的封面。现有技术一般从文件中任意选取一张图像作为封面,例如,从视频中任意选取一个视频帧作为该视频的封面,又例如,从网页中任意选取一张图像作为该网页的封面。由于文件中的图像往往有很多且图像内容庞杂,导致现有方法选取的封面质量低,与文件的关联性低。
技术实现思路
本专利技术实施例提供一种封面确定方法、装置、设备及可读存储介质,以使得确定的封面贴合文件的主要内容,实现图文相符。第一方面,本专利技术实施例提供了一种封面确定方法,包括:获取文件的候选图像集合,并从各候选图像中获取显示的实体的信息;获取所述文件的内容信息;计算各候选图像显示的实体的信息与文件的内容信息的相关度;从候选图像集合中,确定相关度满足第一预设要求的候选图像作为所述文件的封面。第二方面,本专利技术实施例还提供了一种封面确定装置,该装置包括:第一获取模块,用于获取文件的候选图像集合,并从各候选图像中获取显示的实体的信息;第二获取模块,用于获取所述文件的内容信息;计算模块,用于计算各候选图像显示的实体的信息与文件的内容信息的相关度;确定模块,用于从候选图像集合中,确定相关度满足第一预设要求的候选图像作为所述文件的封面。第三方面,本专利技术实施例还提供了一种电子设备,所述电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一实施例所述的封面确定方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的封面确定方法。本专利技术实施例中,通过获取文件的候选图像集合,并从各候选图像中获取显示的实体的信息,获取所述文件的内容信息,计算各候选图像显示的实体的信息与文件的内容信息的相关度,从而得到候选图像的实体的信息与内容信息的关联程度;通过从候选图像集合中,确定相关度满足第一预设要求的候选图像作为所述文件的封面,从而根据候选图像的实体信息与内容信息的关联程度确定封面,使得确定的封面贴合文件的主要内容,实现图文相符;而且,通过智能确定相关度高的封面,可以节省人工选封面的人力成本,选取的优质封面能够提升用户点击率。附图说明图1是本专利技术实施例一提供的一种封面确定方法的流程图;图2是本专利技术实施例二提供的一种封面确定方法的流程图;图3是本专利技术实施例三提供的一种封面确定方法的流程图;图4是本专利技术实施例四提供的一种封面确定装置的结构图;图5是本专利技术实施例五提供的一种电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的一种封面确定方法的流程图,本实施例可适用于确定文件的封面的情况。可选地,可以响应于对文件的内容信息的修改操作或者对候选图像集合的修改操作,执行本实施例提供的封面确定方法;也可以在对文件进行拉取或者分发时,执行本实施例提供的封面确定方法;还可以周期性执行本实施例提供的封面确定方法。该方法可以由封面确定装置来执行,该装置可以由硬件和/或软件构成,并一般集成在电子设备中,具体包括如下操作:S110、获取文件的候选图像集合,并从各候选图像中获取显示的实体的信息。可选地,本实施例中的文件包括但不限于视频文件、图集、漫画书、音频文件和网页。相应地,文件的候选图像集合包括文件中的至少两张图像的集合和/或文件关联的至少两张图像的集合,可选地,文件关联的图像可以是用户针对该文件输入的图像。本实施例将从这些图像中确定封面图像,为了方便描述和区分,将这些图像称为候选图像,候选图像构成的集合称为候选图像集合。在一示例中,该文件为视频文件,则从视频文件中按照设定频率抽取至少两个视频帧,作为候选图像集合。设定频率可以预先设置,例如1秒抽取1个视频帧、2秒抽取一个视频帧。进一步地,从视频文件中的预设时间段按照设定频率抽取至少两个视频帧。基于视频文件的开头部分和结尾部分一般是广告、序幕等与视频内容关联不大的视频帧,预设时间段可以是视频文件的中部时间段,例如30%-70%时间段,以便抽取到与视频内容关联较大的视频帧。在另一示例中,该文件为音频文件,则获取音频文件关联的歌手图像、唱片图像等的集合。在获取到文件的候选图像集合之后,从候选图像集合的各候选图像中获取显示的实体的信息。例如,候选图像显示的实体包括候选图像显示的人物、物体、场景等。可选地,实体的信息是文本类型的信息,包括人物姓名、物体名称、场景信息等。S120、获取文件的内容信息。其中,文件的内容信息指能够体现文件主要内容的信息,可选地,文件的内容信息是文本类型的信息,例如文件的标题内容信息,文件的摘要内容信息、文件的简介内容信息、文件的类别信息等。值得说明的是,S110和S120可以先后执行,或者并列执行,操作顺序不进行限定。S130、计算各候选图像显示的实体的信息与文件的内容信息的相关度。本实施例中,相关度指实体的信息与内容信息的关联程度,或者也可以称为相似度。可选地,分别计算各候选图像显示的实体的信息与文件的内容信息的相关度。相关度计算方法包括但不限于余弦相似度、欧氏距离、皮尔逊相关性和斯皮尔曼等级相关系数。S140、从候选图像集合中,确定相关度满足第一预设要求的候选图像作为文件的封面。本实施例中,与文件的内容信息相关度越大,对应的候选图像越能够表征文件的内容,也就越符合文件的封面要求。为了从候选封面集合中确定最符合封面的图像,预先设置第一预设要求。可选地,第一预设要求包括相关度大于等于预设阈值,或者相关度最大。相应地,确定相关度大于等于预设阈值的候选图像作为文件的封面;或者,确定候选图像集合中相关度最大的候选图像作为文件的封面。如果大于等于预设阈值的候选图像有多个,则选取任意一个候选图像作为文件的封面。本专利技术实施例中,通过获取文件的候选图像集合,并从各候选图像中获取显示的实体的信息,获取文件的内容信息,计算各候选图像显示的实体的信息与文件的内容信息的相关度,从而得到候选图像的实体的信息与内容信息的关联程度;通过从候选图像集合中,确定相关度满足第一预设要求的候选图像作为文件的封面,从而根据候选图像的实体信息与内容信息的关联程度确定封面,使得确定的封面贴合文件的主要内容,实现图文相符;而且,通过智能确定相关度高的封面,可以节省人工选封面的人力成本,选取的优质封面能够提升用户点击率。进一步地,实体的信息可以是文本类型的信息,文件的内容信息也可以是文本类型的信息,文本是一种高维的语义空间,能够准确表征实体的信息和内容信息;接着,通过计算两个文本类型的信息的相关度,能够较精确地得到候选图像与文件的关联程度,进而提高封面确定的准确性。实施例二图2是本专利技术实施例二提供的一种封面确定方法的流程图。本文档来自技高网...

【技术保护点】
1.一种封面确定方法,其特征在于,包括:获取文件的候选图像集合,并从各候选图像中获取显示的实体的信息;获取所述文件的内容信息;计算各候选图像显示的实体的信息与文件的内容信息的相关度;从候选图像集合中,确定相关度满足第一预设要求的候选图像作为所述文件的封面。

【技术特征摘要】
1.一种封面确定方法,其特征在于,包括:获取文件的候选图像集合,并从各候选图像中获取显示的实体的信息;获取所述文件的内容信息;计算各候选图像显示的实体的信息与文件的内容信息的相关度;从候选图像集合中,确定相关度满足第一预设要求的候选图像作为所述文件的封面。2.根据权利要求1所述的方法,其特征在于,所述从各候选图像中获取显示的实体的信息,包括:识别各候选图像显示的实体,得到各候选图像中实体的描述信息;将各候选图像中实体的描述信息或者描述信息中的关键词作为各候选图像显示的实体的信息。3.根据权利要求2所述的方法,其特征在于,所述识别各候选图像显示的实体,得到各候选图像中实体的描述信息,包括:将各候选图像输入至实体识别模型,得到各候选图像中实体的描述信息,所述实体识别模型至少包括:人脸识别模型、物品识别模型以及姿态识别模型中的一种。4.根据权利要求1所述的方法,其特征在于,所述计算各候选图像显示的实体的信息与文件的内容信息的相关度,包括:将所述文件的内容信息生成第一文本向量;将每个候选图像显示的实体的信息生成第二文本向量;根据所述第一文本向量和各第二文本向量,计算各候选图像显示的实体的信息与文件的内容信息的相关度。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一文本向量和各第二文本向量,计算各候选图像显示的实体的信息与文件的内容信息的相关度,包括:计算所述第一文本向量和各第二文本向量的距离的倒数,作为各候选图像显示的实体的信息与文件的内容信息的相关度。6.根据权利要求1所述的方法,其特征在于,所述从候选图像集合中,确定相关度满足第一预设要求的候选图像作为所述文件的封面,包括:确定相关度大于等于预设阈值的候选图像作为所述文件的封面;或者,确定候选图像集合中相关度最大的候选图像作为所述文件的封面。7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:获取各候选图像的画质信息;相应的,从候选图像集合中,确定相关度满足第一预设要求的候选图像作为所述文件的封面包括:根据各候选图像显示的实体的信息与文件的内容信息的相关度,以及对应的画质信息,计算各候选图像的得分;从候选图像集合中,确定得分满足第二预设要求的候选图像作为所述文件的封面。8.根据权利要求7所述的方法,其特征在于,所述获取各候选图像的画质信息,包括:将各候选图像输入至画...

【专利技术属性】
技术研发人员:赵翔李鑫刘霄李旭斌孙昊文石磊丁二锐
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1