当前位置: 首页 > 专利查询>胡新伟专利>正文

一种科技项目查重对比的方法技术

技术编号:13331374 阅读:160 留言:0更新日期:2016-07-11 23:02
本发明专利技术一种科技项目查重对比的方法涉及信息内容相似度的查重的方法,尤其是涉及利用科技立项过程中确定申请的文件材料是否重复的查重的方法。具体的技术方案为:一种科技项目查重对比的方法,其特殊之处在于,是通过下述步骤实现的:将待比对的项目和已知的项目输入数据格式化模块,并依次通过分词处理模块、查重比对模块、查重判定模块、报告模块,最终获得项目相似度评价表。本发明专利技术的技术方案具有在检索查重领域快速、准确的特点。

【技术实现步骤摘要】

本专利技术一种科技项目查重对比的方法涉及信息内容相似度的查重的方法,尤其是涉及利用科技立项过程中确定申请的文件材料是否重复的查重的方法。
技术介绍
为了避免在科技项目和科技成果的重复申报而导致的科研经费浪费现象,在科技项目和科技成果的申报审核过程中,主要依靠人工审查方式和通过将项目申报书关键词集与项目数据库做简单比对这两种查重方式,将重复申报的项目从大量上报的项目中筛选出来。这两种筛选方式虽然也能够在一定程度上减少科研项目的重复申报,但是仍然存在效率低下和容易出现错判、漏判的缺点。特别是简单比对项目申报书关键词集的查重方式,一旦申报者更换标题或将项目申报书的内容稍加改变,则能够轻易避开查重系统。针对这一问题,国内部分科技项目管理系统尝试将历年申报的项目数据库中的数据与新上报的项目数据做进行简单分析比较,但是可靠性较差。
技术实现思路
本专利技术所要解决的技术问题是提供一种项目查重比对系统及方法,提高科技项目查重比对的效率,解决现有技术中难以对重复申报的科技项目做出有效检测的技本文档来自技高网...

【技术保护点】
一种科技项目查重对比的方法,其特征在于,是通过下述步骤实现的:将待比对的项目和已知的项目这两个项目输入数据格式化模块,并依次通过文本判定模块、分词处理模块、查重比对模块、查重判定模块、报告模块,最终获得项目相似度评价表;A,数据格式化模块:将两个项目中各个字段信息使用UTF‑8编码进行格式化编码;B,文本判定模块:计算数据格式化模块格式化后文本的大小,当大于150字节,则标记为长文本,否则标记短文本;C,分词处理模块:对格式化后的项目各个字段信息分词,并将分词后的字段特征文本以字段名为标签存入项目比对文件形成特征词集合,且分词处理模块中还分为长文本分词模块和短文本分词模块;长文本分词模块:对长...

【技术特征摘要】
1.一种科技项目查重对比的方法,其特征在于,是通过下述步骤实现的:将待比对的项
目和已知的项目这两个项目输入数据格式化模块,并依次通过文本判定模块、分词处理模
块、查重比对模块、查重判定模块、报告模块,最终获得项目相似度评价表;
A,数据格式化模块:将两个项目中各个字段信息使用UTF-8编码进行格式化编码;
B,文本判定模块:计算数据格式化模块格式化后文本的大小,当大于150字节,则标记
为长文本,否则标记短文本;
C,分词处理模块:对格式化后的项目各个字段信息分词,并将分词后的字段特征文本
以字段名为标签存入项目比对文件形成特征词集合,且分词处理模块中还分为长文本分词
模块和短文本分词模块;长文本分词模块:对长文本进行分词,分词采用Simhash算法,得到
特征词对,其中包括特征词和权重,权重是通过计算每个特征词在文本中的出现次数得出;
短文本分词模块:对短文本进行分词,分词采用Shingle算法,对于段文本长度为L,每隔N个
字符切一个特征词,如此切下去一共可以得到L-N+1个特征词;
D,查重比对模块:依次取出两个项目比对文件中相同字段名标签下的特征词文本,为
两个项目的逐项比对做好准备;长文本比对模块:先取两个项目相同字段名标签下的特征
词对集合,分别采用64位Simh...

【专利技术属性】
技术研发人员:胡新伟史丽男
申请(专利权)人:胡新伟
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1