【技术实现步骤摘要】
一种科技创新文档查重技术方法
[0001]本专利技术属于科创查重
,具体涉及一种科技创新文档查重技术方法
。
技术介绍
[0002]科技创新是国家电网每年都要开展的工作,对于电网持续发展的现状,科学技术研究项目
、
科技成果的评审越来越多,随之而来的重复立项
、
创新性不足等问题日趋严重,给项目提报人员,管理人员的工作带来了极大不便,因此提升项目提报阶段的质量是避免重复立项的基础;目前存在的问题是:一
、
目前科研重复立项检测主要通过比对项目标题或者比对项日申请书的内容进行甄别,一旦项目更换标题,该方法则会失效,项目申报材料中存在大量的信息重叠,重复立项造成科技资源的大量浪费;二
、
工作人员在监督审核过程中要重复审核信息,降低了人员的工作效率;三
、
科技项目在申报过程中产生的大量信息数据,在申报时没有办法及时的从信息数据查询当前申报的项目是否申报;四
、
项目数量呈现逐年快速增长的态势,数量庞大的项目为查重工作带
【技术保护点】
【技术特征摘要】
1.
一种科技创新文档查重技术方法,其特征在于:所述的方法包括以下步骤:步骤1:构建数字化模型库;步骤2:采用大数据技术挖掘方法进行预处理;步骤3:利用最长公共子序列公式算法,计算出文本相似度
。2.
如权利要求1所述的一种科技创新文档查重技术方法,其特征在于:所述的步骤1中的构建数字化模型库包括以下步骤:步骤
1.1
:对已经立项和验收的项目资料进行梳理;步骤
1.2
:确认导入文档的格式,该项目使用的
doc、docx
格式,并导入文本;步骤
1.3
:对文档内容进处理,通过正则匹配,获取与数据库相应字段,如目的和意义
、
项目研究内容和实施方案
、
项目创新点和解决的主要问题
、
项目产生的经济效益和社会效益等相关数据;步骤
1.4
:将预处理后的文档内容存储到数据库
。3.
如权利要求1所述的一种科技创新文档查重技术方法,其特征在于:所述的步骤2中的采用大数据技术挖掘方法进行预处理包括以下步骤:步骤
2.1
:搜集历史项目立项阶段等资料,抽出可数字化存储的数据模型;步骤
2.2
:从数据模型中获取到所有项目资料数据,如目的和意义
、
项目研究内容和实施方案
、
项目创新点和解决的主要问题
、
项目产生的经济效益和社会效益等相关数据;步骤
2.3
:对进行文本预处理,提取文本特征,将文本按照特殊字符进行划分,生成特定长度的文本;步骤
2.4
:对需要查重的文本也进行相同的预处理,提取文本特征,将文本按照特殊字符进行划分,生成特定长度的文本;步骤
2.5
:利用最长公共子序列公式算法,待查重文本与项目资料存储的数据进行对比,判断重复程度;步骤
2.6
:设置阈值,如果文本相似度超过设定阈值,则判定为重复文本;步骤
2.7
:将查重结果返回,包括重复文本来源
、
重复块
。4.
如权利要求1所述的一种科技创新文档查重技术方法,其特征在于:所述的步骤3中的利用最长公共子序列公式算法,计算出文本相似度包括以下步骤:步骤
3.1
:给定一个长度为
n
的序列
A
和一个长度为
m
的序列
B
,
A
i
代表序列
A
的前
i
个字符组成的序列;
B
j
代表序列
B
的前
j
个字符组成的序列;
A[x]
代表序列
A
的第
x
个字符,
i
>0;
B[y]
代表序列
B
的第
y
个字符,
j
>0;
dp[i][j]
代表序列
A
i
与序列
B
j
的最长公共子序列的长度;步骤
3.2
:若序列
A
i
,
B
j
的最后一个元素相同时,则最后一个元素一定在最长公共子序列中;此时,序列
A
i
与序列
B
j
的最长公共子序列的长度就等于序列
A_{i
‑
1}
与序列
B_{j
‑
1}
的最长公共子序列的长度,再加上最后一个相同元素,用公式表达为:
dp[i][j]
=
dp[i
‑
1][j
‑
1]+1
;步骤
...
【专利技术属性】
技术研发人员:李飚,丁锐鑫,杨松林,王荷茵,陈英豪,杨超超,王岩,马波,李瑞国,王莎,闫俊丽,张露蕊,任宏斌,
申请(专利权)人:国网河南省电力公司三门峡供电公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。