用于生成图文信息的方法和用于生成图像数据库的方法技术

技术编号:21004126 阅读:26 留言:0更新日期:2019-04-30 21:32
本申请实施例公开了用于生成图文信息的方法和用于生成图像数据库的方法。该用于生成图文信息方法的一具体实施方式包括:从待配图信息中获取标题关键词和内容主题;从图像数据库中选取与标题关键词和内容主题匹配的图像,其中,图像数据库基于图像描述生成;将选取的图像插入待配图信息中,生成目标图文信息。该实施方式有助于降低配图成本。

A Method for Generating Graphic and Text Information and a Method for Generating Image Database

【技术实现步骤摘要】
用于生成图文信息的方法和用于生成图像数据库的方法
本申请涉及计算机
,具体涉及用于生成图文信息的方法和用于生成图像数据库的方法。
技术介绍
互联网技术的快速发展与移动终端的普及改变了传统资讯(例如新闻)展示平台与内容展现形式。与传统的纯文本资讯信息相比,图文并茂的资讯信息更能吸引读者的注意。相关技术中通过人工配图实现图文并茂的资讯信息,然而人工配图是一件费时费力并且低效的工作。
技术实现思路
本申请实施例提出了用于生成图文信息的方法和用于生成图像数据库的方法。第一方面,本申请的一些实施例提供了一种用于生成图文信息的方法,该方法包括:从待配图信息中获取标题关键词和内容主题;从图像数据库中选取与标题关键词和内容主题匹配的图像,其中,图像数据库基于图像描述生成;将选取的图像插入待配图信息中,生成目标图文信息。第二方面,本申请的一些实施例提供了一种用于生成图文信息的方法,该方法包括:从待配图信息中获取标题关键词和内容主题;基于标题关键词和内容主题确定待选取图像的类别;从至少一个图像数据库中选取与类别匹配的图像数据库;从选取的图像数据库中选取与标题关键词和内容主题匹配的图像,其中,至少一个图像数据库是基于图像描述生成;将选取的图像插入待配图信息中,生成目标图文信息。第三方面,本申请的一些实施例提供了一种用于生成图像数据库的方法,该方法包括:获取图像集合,图像集合中的图像为图文信息中的配图;对于图像集合中的图像,获取该图像的描述信息,从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词;基于图像集合和所提取的图像关键词,生成图像数据库。第四方面,本申请的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面至第三方面描述的方法。第五方面,本申请的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面至第三方面描述的方法。本申请实施例提供的用于生成图文信息的方法和用于生成图像数据库的方法,通过从待配图信息中获取标题关键词和内容主题,之后从基于图像描述生成的图像数据库中选取与标题关键词和内容主题匹配的图像,最后将选取的图像插入待配图信息中生成目标图文信息,从而有助于降低配图成本。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请一些实施例可以应用于其中的示例性系统架构图;图2是根据本申请的用于生成图像数据库的方法的一个实施例的流程图;图3是根据本申请的用于生成图像数据库的方法的一个应用场景的示意图;图4是根据本申请的用于生成图文信息的方法的一个实施例的流程图;图5是根据本申请的用于生成图文信息的方法的一个实施例的流程图;图6是根据本申请的用于生成图文信息的方法的另一实施例的流程图;图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。如图1所示,系统架构100可以包括服务器101、103和网络102。网络102用以在服务器101和103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光线电缆等等。服务器101可以是用于生成图像数据库的服务器。服务器101可以获取图像集合(例如,从服务器103获取图像集合),之后获取每个图像的描述信息并从中提取图像关键词,生成图像与图相关词相对应的图像数据库。服务器101还可以是对资讯信息进行配图的服务器。服务器101可以从资讯信息中获取标题关键词和内容主题,并从基于图像描述生成的图像数据库中选择匹配的图像插入资讯信息中生成图文并茂的资讯信息。服务器102可以是储存有图像或图文信息的服务器。需要说明的是,本申请实施例所提供的用于生成图像数据库的方法或用于生成图文信息的方法一般由服务器101执行。需要说明的是,服务器101、103可以是硬件,也可以是软件。当服务器101、103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。需要指出的是,服务器101的本地也可以直接存储图像集合,服务器101可以直接获取本地的图像集合。此时,示例性系统架构100可以不包括服务器103。应该理解,图1中的网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意合适数目的网络和服务器。继续参考图2,示出了根据本申请的用于生成图像数据库的方法的一个实施例的流程200。该用于生成图像数据库的方法,可以包括以下步骤201~203。步骤201,获取图像集合。在本实施例中,用于生成图像数据库的方法的执行主体(例如图1的服务器101)可以从本地或远程获取图像集合。其中,图像集合中的图像可以是图文信息中的配图。图文信息可以包括文本内容和配图。例如,图文信息可以是新闻、博文等资讯信息。这里,图像集合中的图像可以是上述执行主体或不同于上述执行主体的服务器从存储图像或图文信息的服务器中获取。例如,通过网络爬虫从网页服务器中的网页中爬取配图。步骤202,对于图像集合中的每个图像,获取该图像的描述信息,从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词。在本实施例中,对于图像集合中的每个图像,用于生成图像数据库的方法的执行主体(例如图1的服务器101)可以首先获取该图像的描述信息,然后从获取的描述信息中提取至少一个关键词作为该图像的图像关键词。图像的描述信息可以是对图像中包含的特征(例如,图像中的场景、显著性物体等)的文字表述。这里,可以利用分词技术从描述信息中提取关键词。在本实施例的一些可选的实现方式中,可以通过如下步骤获取图像的描述信息:对图像进行图像识别(例如通过图像识别模型),然后根据图像识别结果生成图像的描述信息。作为示例,对于某一图像,经过图像识别,可以确定图像的场景为客厅以及图像中的显著性物体为一把椅子,则该图像的描述信息可以为“客厅中有一把椅子”。在本实施例的一些可选的实现方式中,可以通过图像描述技术(ImageCaptionTechnique)来获取图像的描述信息。例如,可以将图像输入到训练好的图像描述模型中,得到与输入图像对应的描述信息。这里,图像描述模型可以用于表征输入图像与描述信息之间的对应关系。该示例中,可以采用LSTM(LongShort-TermMemory,长短期记忆网络)单元的编码器框架作为图像描述模型。可选地,上述图像描述模型可以通过如下步骤训练得到:首先,从预先生成的图像描述数据库中获取多个图像以及与每个图像对应的描述信息。其中,图像描述数据库中存储有图像和与图像对应的描述信息。然后,将上述多个图像中的每个图像作为输本文档来自技高网...

【技术保护点】
1.一种用于生成图文信息的方法,其特征在于,包括:从待配图信息中获取标题关键词和内容主题;从图像数据库中选取与所述标题关键词和所述内容主题匹配的图像,其中,所述图像数据库基于图像描述生成;将选取的图像插入所述待配图信息中,生成目标图文信息。

【技术特征摘要】
1.一种用于生成图文信息的方法,其特征在于,包括:从待配图信息中获取标题关键词和内容主题;从图像数据库中选取与所述标题关键词和所述内容主题匹配的图像,其中,所述图像数据库基于图像描述生成;将选取的图像插入所述待配图信息中,生成目标图文信息。2.根据权利要求1所述的方法,其特征在于,所述图像数据库具体通过如下步骤生成:获取图像集合,所述图像集合中的图像为图文信息中的配图;对于所述图像集合中的图像,获取该图像的描述信息,从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词;基于所述图像集合和所提取的图像关键词,生成图像数据库。3.根据权利要求2所述的方法,其特征在于,所述获取该图像的描述信息,包括:将该图像输入预先训练的图像描述模型中,得到该图像的描述信息,其中,所述图像描述模型用于表征输入图像与描述信息之间的对应关系。4.根据权利要求3所述的方法,其特征在于,所述图像描述模型通过如下步骤训练得到:从预先生成的图像描述数据库中获取多个图像以及与所述多个图像对应的描述信息;将所述多个图像中的图像作为输入,将与输入图像对应的描述信息作为输出,训练得到所述图像描述模型。5.根据权利要求4所述的方法,其特征在于,所述图像描述数据库通过如下步骤生成:获取图文信息集合;对于图文信息集合中的图文信息,获取该图文信息中的配图以及与配图对应的描述信息;基于所获取的配图以及与配图对应的描述信息,生成所述图像描述数据库。6.根据权利要求2至5中任一项所述的方法,其特征在于,对于所述图像集合中的图像,该图像的描述信息为自然语言描述的句子,所述至少一个关键词包括所述自然语言描述的句子所包含的名词和/或形容词;所述从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词,包括:对所述自然语言描述的句子进行分词,得到所述自然语言描述的句子所包含的名词和/或形容词;将所述名词和/或形容词提取为该图像的图像关键词。7.根据权利要求2至6中任一项所述的方法,其特征在于,所述基于所述图像集合和所提取的图像关键词,生成图像数据库,包括:确定所述图像集合中不同图像的图像关键词之间的相似度;基于不同图像的图像关键词之间的相似度,对所述图像集合中的图像进行分类,得到至少一个子图像集合;生成与所述至少一个子图像集合分别对应的至少一个图像数据库。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述从图像数据库中选取与所述标题关键词和所述内容主题匹配的图像,...

【专利技术属性】
技术研发人员:齐镗泉
申请(专利权)人:连尚新昌网络科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1