一种基于图像相似度快速匹配的学术论文搜索方法技术

技术编号:10738028 阅读:187 留言:0更新日期:2014-12-10 13:04
本发明专利技术提供了一种基于图像相似度快速匹配的学术论文搜索方法,用于海量论文智能检索。本方法包括:从论文库中获取论文图像库,建立论文图像库的索引;获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵;根据源图像的图像关键词检索论文图像库索引,获取相关图像集;检索相关图像集,获取与源图像相似的图像,获得最终图像集;依据最终图像集,从论文库中获取相应的论文。本发明专利技术可利用图像及图像相关信息进行论文检索,图像特征采用更小的存储介质,且检索速度快,检索精准度高。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了,用于海量论文智能检索。本方法包括:从论文库中获取论文图像库,建立论文图像库的索引;获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵;根据源图像的图像关键词检索论文图像库索引,获取相关图像集;检索相关图像集,获取与源图像相似的图像,获得最终图像集;依据最终图像集,从论文库中获取相应的论文。本专利技术可利用图像及图像相关信息进行论文检索,图像特征采用更小的存储介质,且检索速度快,检索精准度高。【专利说明】
本专利技术涉及海量论文智能检索技术,具体设计。
技术介绍
—般的论文检索方式是通过论文作者、论文题目等文字信息检索。但这种检索方法在很多学科存在很多局限性,并不能满足如在考古学科中,搜索关于某种文物研究现状的论文检索需求。而现有的图像匹配技术,由于是对完整图像的完整匹配,性能相对较低,利用目前现有的图像匹配技术无法满足快速论文检索需求。
技术实现思路
本专利技术针对现有论文检索中,由于图像的完整匹配,性能相对较低,无法满足快速论文检索需求的问题,提出。 本专利技术的一种基于图像相似度快速匹配算法的学术论文检索方法,包括如下步骤: 步骤1:从论文库中获取论文图像库,建立论文图像库的索引; 步骤2:获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵;所述的图像关键词包括图像所属的研究领域; 步骤3:根据源图像的信息关键词检索论文图像库索引,获取相关图像集;所述的相关图像集指源图像所属研究领域中的图像集合; 步骤4:检索相关图像集,获取与源图像相似的图像,获得最终图像集;所述的相似图像是指在形状上具有共性的图像; 步骤5:依据最终图像集,从论文库中获取相应的论文。 所述的步骤I中建立论文图像库索引,具体包含如下步骤: 步骤101:遍历库中论文,抽取其中图像及相关的图像信息,形成论文图像库;所述的图像信息包括:图像高、图像宽、图像标注、论文标识符GUID和论文题目字段; 步骤102:计算论文图像库中所有图像的特征矩阵,对论文图像库中的每个图像,建立图像索引数据;所述的图像索引数据包括图像的特征矩阵和图像信息; 步骤103:将图像索引数据放入XML文件中,形成论文图像库的索引文件。 所述的步骤4中,遍历相关图像集,依次将相关图像集中各图像的特征矩阵与源图像的特征矩阵进行比较;特征矩阵比较的方法是:首先,构建一个与特征矩阵相同大小的结果矩阵;然后,依次比较两个特征矩阵的对应元素,如果两个元素的差值小于16,则结果矩阵对应元素的值记为1,否则为O;最后,统计结果矩阵中值为I的元素的比例r,若r>80%,则认为两幅图像相似,否则认为两幅图像不相似。 本专利技术的优点和积极效果在于:本专利技术实现了一种基于索引的图像快速匹配和检索的方法,可全面利用图像以及图像相关信息进行论文检索;特别是为在野外工作的学科,例如考古学,提供了一种便利的查询相关研究论文的方法,且检索速度快,检索精准度高。 【专利附图】【附图说明】 图1为本专利技术的学术论文检索方法的整体流程图; 图2是本专利技术实施例中用于搜索的源图片; 图3是本专利技术实施例搜索结果示意图。 【具体实施方式】 下面将结合附图对本专利技术的技术方案作进一步的详细说明。 本专利技术采用新的图像相似度快速匹配方法,并结合专有中文词库以及中文分词技术,完成了一种基于图像相似度快速匹配的学术论文检索方法。本专利技术的基于图像相似度快速匹配算法的学术论文检索方法,步骤如图1所示,下面进行详细说明。 步骤1:从论文中获取论文图像库,建立论文图像库的索引。具体地,建立图像及其相关信息的数据结构,抽取论文中的所有图像和相关信息,存储于该数据结构中,并形成论文图像库;然后根据图像特征矩阵计算方法,计算图像库中所有图像的特征矩阵;最后创建索引,并存储于XML文件中。具体步骤为: 步骤101:遍历库中论文,抽取其中图像及相关的图像信息,形成论文图像库。具体的,首先建立论文图像库中存储图像及其相关图像信息的数据结构,图像信息包括:图像高、图像宽、图像标注、论文GUID (全局唯一标识符)以及论文题目字段。然后从论文中抽取图像信息,存储在论文图像库中。其中,图像标注包括图像所属的研究领域等。 步骤102:计算论文图像库中所有图像的特征矩阵,形成图像索引数据,并通过图像索引数据结构存储。具体的,图像索引数据结构,包含图像特征矩阵、图像高、图像宽、图像标注、论文⑶ID,及论文题目字段。 遍历论文图像库的所有图像,采用图像特征值计算方法,计算图像的特征矩阵,并利用图像索引数据结构存储起来。 步骤103:将图像索引数据放入XML文件中,形成论文图像库的索引文件。具体的,根据图像索引数据结构,定义XML文档格式,并最终自动生成XML文档,建立论文图像库的索引文件,XML的索引文件的格式定义如下: 【权利要求】1.一种基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,包括如下步骤: 步骤1:从论文库中获取论文图像库,建立论文图像库的索引; 步骤2:获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵; 步骤3:根据源图像的图像关键词检索论文图像库索引,获取相关图像集; 步骤4:检索相关图像集,获取与源图像相似的图像,获得最终图像集; 步骤5:依据最终图像集,从论文库中获取相应的论文。2.根据权利要求1所述的基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,所述的步骤I具体实现过程为: 步骤101:遍历库中的论文,抽取其中的图像及图像信息,建立论文图像库;所述的图像信息包括:图像高、图像宽、图像标注、论文标识符GUID和论文题目字段; 步骤102:提取论文图像库中的各图像的特征矩阵,对论文图像库中的每个图像,建立图像索引数据;所述的图像索引数据包括图像的特征矩阵和图像信息; 步骤103:将图像索引数据放入XML文件中,形成论文图像库的索引文件。3.根据权利要求1或2所述的基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,所述的特征矩阵通过如下步骤获得: 步骤201:对图像进行二值化; 步骤202:对二值化图像进行边缘提取; 步骤203:计算步骤202处理后的图像的特征矩阵,具体是:将图像大小调整为128像素*128/n像素,η为图像的长宽比例;设定探测窗口大小为8像素*8/η像素,探测窗口内所有像素值的平均值作为该探测窗口的特征值,遍历整幅图像,得到图像的特征矩阵,特征矩阵大小为16*16。4.根据权利要求1所述的基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,所述的图像关键词包括图像所属的研究领域,所述的相关图像集为源图像所属研究领域中的图像集合。5.根据权利要求2或4所述的基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,所述的相关图像集,其获取方法是:首先,编写XML文档解析程序,从论文图像库索引文件中提取出图像标注和论文题目字段;然后,根据基于正向最长匹配策略的分词方法,提取出论文图像关键词;最后通过对源图像和论文图像关键词的比较,获取相关图像集。6.根据权利要求1所述的基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201410464732.html" title="一种基于图像相似度快速匹配的学术论文搜索方法原文来自X技术">基于图像相似度快速匹配的学术论文搜索方法</a>

【技术保护点】
一种基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,包括如下步骤:步骤1:从论文库中获取论文图像库,建立论文图像库的索引;步骤2:获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵;步骤3:根据源图像的图像关键词检索论文图像库索引,获取相关图像集;步骤4:检索相关图像集,获取与源图像相似的图像,获得最终图像集;步骤5:依据最终图像集,从论文库中获取相应的论文。

【技术特征摘要】

【专利技术属性】
技术研发人员:邓攀袁伟闫碧莹赵鑫李玉成刘昊
申请(专利权)人:中科嘉速北京并行软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1