一种获取图像信息的方法及相关装置制造方法及图纸

技术编号:20866402 阅读:28 留言:0更新日期:2019-04-17 09:19
本申请实施例提供了一种获取图像信息的方法及相关装置,方法包括:接收待匹配的目标文本信息;其中,所述目标文本信息包括目标实体;将所述目标实体与图像数据集中各候选图像所关联的候选实体进行匹配;若所述目标实体与所述图像数据集中的第一候选图像所关联的候选实体相匹配,则确定所述第一候选图像为与所述目标实体相匹配的候选图像;输出所述第一候选图像。本申请实施例中获取图像信息的方法不需要像现有技术中需要人工的逐篇查阅文本中的附图,极大的节省了人工成本。

【技术实现步骤摘要】
一种获取图像信息的方法及相关装置
本专利技术涉及数据处理领域,具体涉及一种获取图像信息的方法及相关装置。
技术介绍
当今信息时代,用户通过检索得到需要的文本信息已经成为日常工作和学习生活中常规的方式,文本信息诸如专利、学术论文,技术期刊等等。如技术人员需要了解一个实体的具体结构,该实体可以是一个设备,或者,该实体也可以是某一个设备中的某一个部件。当前技术中,用户可以通过关键词(如aa实体)进行检索,通过检索得到的检索结果为包括该实体的所有文本(例如专利文本)。在检索到的大量的文本中,用户需要逐篇文本进行分析,人工查找每篇专利文本中的附图,进而查找到该实体的附图,极大的浪费了人力成本。
技术实现思路
有鉴于此,本专利技术实施例提供了一种获取图像信息的方法及相关装置,本申请实施例中获取图像信息的方法不需要像现有技术中需要人工的逐篇查阅文本中的附图,而是将目标实体与图像数据集中各候选图像所关联的候选实体进行匹配;若目标实体与图像数据集中的第一候选图像所关联的候选实体相匹配,则确定第一候选图像为与目标实体相匹配的候选图像;直接输出第一候选图像,极大的节省了人工成本。第一方面,本申请实施例提供了一种获取图像信息的方法,包括:接收待匹配的目标文本信息;其中,所述目标文本信息包括目标实体;将所述目标实体与图像数据集中各候选图像所关联的候选实体进行匹配;若所述目标实体与所述图像数据集中的第一候选图像所关联的候选实体相匹配,则确定所述第一候选图像为与所述目标实体相匹配的候选图像;输出所述第一候选图像。在一种可能的实现方式中,所述图像数据集包括第一图像数据集,所述第一图像数据集包含高频实体的候选图像,所述高频实体为使用频次高于门限的候选实体;所述将所述目标实体与图像数据集中各候选图像所关联的候选实体进行匹配,包括:将所述目标实体与所述第一图像数据集中各候选图像所关联的候选实体进行匹配;若所述目标实体在所述第一图像数据集中未匹配到候选实体,则将所述目标实体与除了所述第一图像数据集之外的其他图像数据集中各候选图像所关联的候选实体进行匹配。在一种可能的实现方式中,所述目标实体至少包括第一目标实体和第二目标实体,所述目标文本信息还包括所述第一目标实体与所述第二目标实体之间的第一关系;所述方法还包括:若所述第一目标实体与所述图像数据集中的第一候选图像所关联的第一候选实体相匹配,所述第二目标实体与所述图像数据集中的第二候选图像所关联的第二候选实体相匹配;则将所述第一目标实体与所述第二目标实体之间的第一关系,与,所述第一候选实体与所述第二候选实体之间的第二关系进行匹配;若所述第一关系与所述第二关系相匹配,所述方法还包括:输出所述第二候选图像。在一种可能的实现方式中,所述图像数据集包括第一图像数据集,所述将所述目标实体与图像数据集中各候选图像所关联的文字信息进行匹配之前,所述方法还包括:建立所述图像数据集。在一种可能的实现方式中,所述建立所述图像数据集包括:获取候选文本集合;其中,所述候选文本集合包括多篇候选文本,每篇候选文本均包含候选实体;统计所述候选文本集合中每个候选实体出现的频次;根据所述频次确定高频实体;其中,所述高频实体包括在所述候选文本集合中出现的频次高于门限的实体,或者,所述高频实体包括按照所述频次进行排序后,在预置位置之前的实体;将每个所述高频实体关联至少一个对应的候选图像,得到所述第一图像数据集。在一种可能的实现方式中,所述建立所述图像数据集,包括:获取候选文本集合;其中,所述候选文本集合中的每篇候选文本包括附图说明与附图,所述附图说明包含候选实体及所述候选实体的标识,所述附图包含候选图像及所述标识;根据所述标识建立所述候选实体与所述候选图像的关联关系,得到所述第二图像数据集。在一种可能的实现方式中,所述建立所述图像数据集,包括:获取候选文本集合;其中,所述候选文本集合中的每篇候选文本包括标题及摘要附图;提取所述候选文本中的所述摘要附图;识别所述标题中的候选实体;建立所述候选实体与所述摘要附图的关联关系,得到所述第三图像数据集。在一种可能的实现方式中,所述图像数据集还包括候选图像关系,所述候选图像关系包括至少两个候选图像及所述至少两个候选图像之间的关系。在一种可能的实现方式中,当第一候选图像被包含于目标候选图像关系,所述方法还包括:确定所述目标候选图像关系中包含的第二候选图像,所述第二候选图像与所述第一候选图像具有关系;所述输出所述第一候选图像,包括:输出所述第一候选图像和所述第二候选图像。在一种可能的实现方式中,所述方法还包括:提取候选文本中的候选实体及所述候选实体之间的关系;根据所述候选实体之间的关系建立所述候选实体所关联的候选图像之间的关系。在一种可能的实现方式中,所述提取所述候选文本中的候选实体及所述候选实体之间的关系,包括:将所述候选文本输入到实体提取模型,通过所述实体提取模型识别所述候选文本中的候选实体;将已识别所述候选实体的候选文本输入到关系提取模型,通过所述关系提取模型输出所述候选实体之间的关系。在一种可能的实现方式中,所述将所述目标实体与图像数据集中各候选图像所关联的候选实体进行匹配,包括:获取所述目标实体的语义向量及各候选图像所关联的候选实体的语义向量;计算所述目标实体的语义向量与所述候选实体的语义向量的夹角余弦值。在一种可能的实现方式中,所述目标文本信息为结构化表示的目标结构。第二方面,本申请实施例提供了一种获取图像信息的装置,包括:接收模块,用于接收待匹配的目标文本信息,所述目标文本信息包括目标实体;匹配模块,用于将所述接收模块接收的所述目标实体与图像数据集中各候选图像所关联的候选实体进行匹配;候选图像确定模块,用于当匹配模块确定所述目标实体与所述图像数据集中的目标候选图像所关联的候选实体相匹配时,确定所述第一候选图像为与所述目标实体相匹配的候选图像;输出模块,用于输出所述候选图像确定模块确定的第一候选图像。第三方面,本申请实施例提供了一种电子设备,包括:存储器和处理器;所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行上述第一方面所述的方法。第四方面,本申请实施例提供了一种计算机存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。附图说明通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:图1为本申请实施例一种训练结构化模型的方法的一个实施例的步骤流程示意图;图2为本申请实施例一种文本结构化的方法的一个实施例的步骤流程示意图;图3为本申请实施例中的目标结构的示意图;图4为本申请实施例中的图像结构的示意图;图5为本申请实施例中一种确定文本相似度的方法的一个实施例的步骤流程示意图;图6为本申请实施例中的Word2vec模型训练过程示意图;图7为本申请实施例中的一种确定文本新颖度的方法的一个实施例的步骤流程示意图;图8为本申请实施例中的候选图谱的示意图;图9为本申请实施例中获取图像信息的方法的一个实施例的步骤流程示意图;图10为本申请实施例中候选文本中附图说明和附图的示意图;图11为本申请实施例中第一候选图像和第二候本文档来自技高网...

【技术保护点】
1.一种获取图像信息的方法,其特征在于,包括:接收待匹配的目标文本信息;其中,所述目标文本信息包括目标实体;将所述目标实体与图像数据集中各候选图像所关联的候选实体进行匹配;若所述目标实体与所述图像数据集中的第一候选图像所关联的候选实体相匹配,则确定所述第一候选图像为与所述目标实体相匹配的候选图像;输出所述第一候选图像。

【技术特征摘要】
1.一种获取图像信息的方法,其特征在于,包括:接收待匹配的目标文本信息;其中,所述目标文本信息包括目标实体;将所述目标实体与图像数据集中各候选图像所关联的候选实体进行匹配;若所述目标实体与所述图像数据集中的第一候选图像所关联的候选实体相匹配,则确定所述第一候选图像为与所述目标实体相匹配的候选图像;输出所述第一候选图像。2.根据权利要求1所述的方法,其特征在于,所述图像数据集包括第一图像数据集,所述第一图像数据集包含高频实体的候选图像,所述高频实体为使用频次高于门限的候选实体;所述将所述目标实体与图像数据集中各候选图像所关联的候选实体进行匹配,包括:将所述目标实体与所述第一图像数据集中各候选图像所关联的候选实体进行匹配;若所述目标实体在所述第一图像数据集中未匹配到候选实体,则将所述目标实体与除了所述第一图像数据集之外的其他图像数据集中各候选图像所关联的候选实体进行匹配。3.根据权利要求1所述的方法,其特征在于,所述目标实体至少包括第一目标实体和第二目标实体,所述目标文本信息还包括所述第一目标实体与所述第二目标实体之间的第一关系;所述方法还包括:若所述第一目标实体与所述图像数据集中的第一候选图像所关联的第一候选实体相匹配,所述第二目标实体与所述图像数据集中的第二候选图像所关联的第二候选实体相匹配;则将所述第一目标实体与所述第二目标实体之间的第一关系,与,所述第一候选实体与所述第二候选实体之间的第二关系进行匹配;若所述第一关系与所述第二关系相匹配,所述方法还包括:输出所述第二候选图像。4.根据权利要求1所述的方法,其特征在于,所述图像数据集包括第一图像数据集,所述将所述目标实体与图像数据集中各候选图像所关联的文字信息进行匹配之前,所述方法还包括:建立所述图像数据集。5.根据权利要求4所述的方法,其特征在于,所述建立所述图像数据集包括:获取候选文本集合;其中,所述候选文本集合包括多篇候选文本,每篇候选文本均包含候选实体;统计所述候选文本集合中每个候选实体出现的频次;根据所述频次确定高频实体;其中,所述高频实体包括在所述候选文本集合中出现的频次高于门限的实体,或者,所述高频实体包括按照所述频次进行排序后,在预置位置之前的实体;将每个所述高频实体关联至少一个对应的候选图像,得到所述第一图像数据集。6.根据权利要求4所述的方法,其特征在于,所述建立所述图像数据集,包括:获取候选文本集合;其中,所述候选文本集合中的每篇候选文本包括附图说明与附图,所述附图说明包含候选实体及所述候选实体的标识,所述附图包含候选图像及所述标识;根据所述标识建立所述候选实体与所述候选图像的关联关系,得到所述第二图像数据集。7.根据权利要求4所述的方法,其特征...

【专利技术属性】
技术研发人员:王志强姜庭欣李静毅王希桢刘乾楠李丽
申请(专利权)人:北京合享智慧科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1