一种基于图像分区进行大数据匹配计算的科技项目查重方法技术

技术编号:23604815 阅读:45 留言:0更新日期:2020-03-28 05:52
本发明专利技术公开了一种基于图像分区进行大数据匹配计算的科技项目查重方法,包括以下步骤:第一步,将现有科技项目资料进行解析,分别建立相应的图片库和文本库;第二步,对图片库中的图片进行分割,依据分割算法将图片划分为不同区域;第三步,获取图片及区域内部特征信息;第四步,将预立项的科研项目资料进行解析,抽取其中的图片,并对其进行图片分割;第五步,将现有科技项目的特征信息与预立项的科研项目进行比对,按图片特征信息相似度和特征信息的权重得到现有科技项目与预立项的科研项目的重合值,按重合值的大小进行排序得到第一查重结果。本发明专利技术可以提高科技项目的查重率,有效避免漏检或者错检。

A method of duplicate checking for scientific and technological projects based on big data matching calculation of image partition

【技术实现步骤摘要】
一种基于图像分区进行大数据匹配计算的科技项目查重方法
本专利技术涉及图像处理
,特别是一种基于图像分区进行大数据匹配计算的科技项目查重方法。
技术介绍
据统计,我国科研项目重复率达40%,,另外60%中与国外重复的约占30%以上。重复立项不仅造成科技资源的大量浪费,也导致科研活动的无序发展和大量低水平重复,严重损害开拓创新的科研精神,阻碍国家科技发展的步伐。目前,已有学者研究了一些项目查重的方法和机制问题,取得了一定的进展。常用的项目查重方法主要有以下4类:基于非分词技术的科技项目查重方法、基于TF-IDF值算法的科技项目查重方法、基于层次聚类的科技项目分类与查重方法、基于科技项目申报与审批流程进行的项目查重方法。基于非分词技术解决科技项目查重问题的方法,该方法不需要对文本进行分词处理,而是利用频繁闭项集构造向量空间模型对项目申请书进行建模并计算相似度。这种方法通过计算科技项目申请书之间的相似度,从而达到项目查重的目的。基于TF-IDF值算法的科技项目查重方法,该方法是通过使用特征向量模型的方法对科技项目申报文本进本文档来自技高网...

【技术保护点】
1.一种基于图像分区进行大数据匹配计算的科技项目查重方法,其特征在于包括以下步骤:/n第一步,将现有科技项目资料进行解析,分别建立相应的图片库和文本库;/n第二步,对图片库中的图片进行分割,依据分割算法将图片划分为不同区域;/n第三步,获取图片及区域内部特征信息,特征信息包括:区域中的HSV的H值方图、线条信息;/n第四步,将预立项的科研项目资料进行解析,抽取其中的图片,并对其进行图片分割。/n第五步,将现有科技项目按第二步和第三步获取的特征信息与预立项的科研项目按第四步获取的分割区域进行比对,按图片特征信息相似度和特征信息的权重得到现有科技项目与预立项的科研项目的第一重合值,按第一重合值的大...

【技术特征摘要】
1.一种基于图像分区进行大数据匹配计算的科技项目查重方法,其特征在于包括以下步骤:
第一步,将现有科技项目资料进行解析,分别建立相应的图片库和文本库;
第二步,对图片库中的图片进行分割,依据分割算法将图片划分为不同区域;
第三步,获取图片及区域内部特征信息,特征信息包括:区域中的HSV的H值方图、线条信息;
第四步,将预立项的科研项目资料进行解析,抽取其中的图片,并对其进行图片分割。
第五步,将现有科技项目按第二步和第三步获取的特征信息与预立项的科研项目按第四步获取的分割区域进行比对,按图片特征信息相似度和特征信息的权重得到现有科技项目与预立项的科研项目的第一重合值,按第一重合值的大小进行排序得到第一查重结果。


2.根据权利要求1所述一种基于图像分区进行大数据匹配计算的...

【专利技术属性】
技术研发人员:谢积鉴陈旭红粟月萍钟雪梅胡婷婷玉泉陈金平李荣陈怡玲卢琳玲
申请(专利权)人:广西壮族自治区科学技术情报研究所
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1