一种基于图像分区进行大数据匹配计算的科技项目查重方法技术

技术编号:23604815 阅读:25 留言:0更新日期:2020-03-28 05:52
本发明专利技术公开了一种基于图像分区进行大数据匹配计算的科技项目查重方法,包括以下步骤:第一步,将现有科技项目资料进行解析,分别建立相应的图片库和文本库;第二步,对图片库中的图片进行分割,依据分割算法将图片划分为不同区域;第三步,获取图片及区域内部特征信息;第四步,将预立项的科研项目资料进行解析,抽取其中的图片,并对其进行图片分割;第五步,将现有科技项目的特征信息与预立项的科研项目进行比对,按图片特征信息相似度和特征信息的权重得到现有科技项目与预立项的科研项目的重合值,按重合值的大小进行排序得到第一查重结果。本发明专利技术可以提高科技项目的查重率,有效避免漏检或者错检。

A method of duplicate checking for scientific and technological projects based on big data matching calculation of image partition

【技术实现步骤摘要】
一种基于图像分区进行大数据匹配计算的科技项目查重方法
本专利技术涉及图像处理
,特别是一种基于图像分区进行大数据匹配计算的科技项目查重方法。
技术介绍
据统计,我国科研项目重复率达40%,,另外60%中与国外重复的约占30%以上。重复立项不仅造成科技资源的大量浪费,也导致科研活动的无序发展和大量低水平重复,严重损害开拓创新的科研精神,阻碍国家科技发展的步伐。目前,已有学者研究了一些项目查重的方法和机制问题,取得了一定的进展。常用的项目查重方法主要有以下4类:基于非分词技术的科技项目查重方法、基于TF-IDF值算法的科技项目查重方法、基于层次聚类的科技项目分类与查重方法、基于科技项目申报与审批流程进行的项目查重方法。基于非分词技术解决科技项目查重问题的方法,该方法不需要对文本进行分词处理,而是利用频繁闭项集构造向量空间模型对项目申请书进行建模并计算相似度。这种方法通过计算科技项目申请书之间的相似度,从而达到项目查重的目的。基于TF-IDF值算法的科技项目查重方法,该方法是通过使用特征向量模型的方法对科技项目申报文本进行分词及权重计算,对特征进行排序选取。基于层次聚类的科技项目分类与查重方法,该方法是在计算科技项目相似性时综合考虑了应用领域、研究内容和技术来源等因素,从而利用了项目本体相似度来计算模型和层次聚类的结果,以此提高查重的高效性与科学性。基于科技项目申报与审批流程进行的项目查重方法,该方法通过对科研项目的申报与审批流程进行分析,提出避免重复立项的具体措施。上述现有技术存在以下问题:都是通过文本相似度来进行科技项目查重,但现有科技项目成果表现形式如论文、专著或者专利都是各种语言进行撰写,对于同一主题的语言表达方式差异巨大,过分依赖查重人员的语言水平,很难避免漏检或者错检。而论文、专著或者专利中的附图,却有着固定的格式。但是,现有的科技项目查重中,尚未有将图片相似度作为科技项目查重手段的报道。CN104915955A
技术实现思路
本专利技术的目的是解决上述现有技术的问题,提出了一种基于图像分区进行大数据匹配计算的科技项目查重方法,可以辅助文本相似度的查重方式,提高科技项目的查重率,有效避免漏检或者错检。为达到上述专利技术目的,本专利技术所述的一种基于图像分区进行大数据匹配计算的科技项目查重方法,本专利技术是以如下技术方案实现的:第一步,将现有科技项目资料进行解析,分别建立相应的图片库和文本库;第二步,对图片库中的图片进行分割,依据分割算法将图片划分为不同区域;第三步,获取图片及区域内部特征信息,特征信息包括:区域中的HSV的H值方图、线条信息;第四步,将预立项的科研项目资料进行解析,抽取其中的图片,并对其进行图片分割,获取图片及区域内部特征信息。第五步,将现有科技项目按第二步和第三步获取的特征信息与预立项的科研项目按第四步获取的分割区域进行比对,按图片特征信息相似度和特征信息的权重得到现有科技项目与预立项的科研项目的第一重合值,按第一重合值的大小进行排序得到第一查重结果。优选的是,所述图片分割的数量为20-100。优选的是,所述HSV的H值方图、线条信息的重合值权重为4:5-10。优选的是,所述第四步,还包括对预立项的科研项目资料进行解析,抽取其中的文本信息,并将文本信息与现有科技项目的文本信息进行比对,得出现有科技项目与预立项的科研项目的第二重合值,按第二重值的大小进行排序得到第二查重结果。优选的是,将第二重合值小于70%的现有科技项目代入第五步,进行图片查重比对。本专利技术的有益效果:本专利技术可以提高科技项目查重的查重率,有效避免漏检或者错检。科技项目图片分辨率普遍较低,图片分割数量不宜过多,可以提高比对效率,也不宜太少,太少会提高漏检率。通过结合文本相似度的检索,可以进一步提高查重效率。通过图片分割的查重方式,可以实现跨语种的查重,克服文本查重所不能避免的语言表达差异性,提高查重效率和查准率。附图说明图1为本专利技术所述一种基于图像分区进行大数据匹配计算的科技项目查重方法的流程图。具体实施方式为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施例并配合附图予以说明。一种基于图像分区进行大数据匹配计算的科技项目查重方法,第一步,将现有科技项目资料进行解析,分别建立相应的图片库和文本库;第二步,对图片库中的图片进行分割,依据分割算法将图片划分为不同区域;具体算法参见中国专利CN104915955A。第三步,获取图片及区域内部特征信息,特征信息包括:区域中的HSV的H值方图、线条信息;第四步,将预立项的科研项目资料进行解析,抽取其中的图片,并对其进行图片分割。第五步,将现有科技项目按第二步和第三步获取的特征信息与预立项的科研项目按第四步获取的分割区域进行比对,按图片特征信息相似度和特征信息的权重得到一个现有科技项目与预立项的科研项目的重合值,按重合值的大小进行排序得到查重结果。本专利技术所述方法可以提高科技项目查重的查重率,有效避免漏检或者错检。在上述实施例中,优选的所述图片分割的数量为20-100。科技项目图片分辨率普遍较低,图片分割数量不宜过多,可以提高比对效率,也不宜太少,太少会提高漏检率在上述实施例中,所述HSV的H值方图、线条信息的重合值权重为2:5-10。通过重合值的权重设定,可以提高查准率。在上述实施例中,所述第四步,还包括对预立项的科研项目资料进行解析,抽取其中的文本信息,并将文本信息与现有科技项目的文本信息进行比对,得出现有科技项目与预立项的科研项目的第二重合值,按第二重值的大小进行排序得到第二查重结果。通过将文本重合值高的结果先挑选出来,再进行图片查重检索,可以提高查重效率。在上述实施例中,将第二重合值小于70%的现有科技项目代入第五步,进行图片查重比对。将文本重合值高的结果先挑选出来,再进行图片查重检索,可以提高查重效率。如图1所示。虽然,上文中已经用具体实施方式,对本专利技术作了详尽的描述,但在本专利技术基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本专利技术精神的基础上所做的这些修改或改进,均属于本专利技术要求保护的范围。本文档来自技高网
...

【技术保护点】
1.一种基于图像分区进行大数据匹配计算的科技项目查重方法,其特征在于包括以下步骤:/n第一步,将现有科技项目资料进行解析,分别建立相应的图片库和文本库;/n第二步,对图片库中的图片进行分割,依据分割算法将图片划分为不同区域;/n第三步,获取图片及区域内部特征信息,特征信息包括:区域中的HSV的H值方图、线条信息;/n第四步,将预立项的科研项目资料进行解析,抽取其中的图片,并对其进行图片分割。/n第五步,将现有科技项目按第二步和第三步获取的特征信息与预立项的科研项目按第四步获取的分割区域进行比对,按图片特征信息相似度和特征信息的权重得到现有科技项目与预立项的科研项目的第一重合值,按第一重合值的大小进行排序得到第一查重结果。/n

【技术特征摘要】
1.一种基于图像分区进行大数据匹配计算的科技项目查重方法,其特征在于包括以下步骤:
第一步,将现有科技项目资料进行解析,分别建立相应的图片库和文本库;
第二步,对图片库中的图片进行分割,依据分割算法将图片划分为不同区域;
第三步,获取图片及区域内部特征信息,特征信息包括:区域中的HSV的H值方图、线条信息;
第四步,将预立项的科研项目资料进行解析,抽取其中的图片,并对其进行图片分割。
第五步,将现有科技项目按第二步和第三步获取的特征信息与预立项的科研项目按第四步获取的分割区域进行比对,按图片特征信息相似度和特征信息的权重得到现有科技项目与预立项的科研项目的第一重合值,按第一重合值的大小进行排序得到第一查重结果。


2.根据权利要求1所述一种基于图像分区进行大数据匹配计算的...

【专利技术属性】
技术研发人员:谢积鉴陈旭红粟月萍钟雪梅胡婷婷玉泉陈金平李荣陈怡玲卢琳玲
申请(专利权)人:广西壮族自治区科学技术情报研究所
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1