一种科技计划项目申报书相似性检测的方法技术

技术编号:39660849 阅读:6 留言:0更新日期:2023-12-11 18:23
本发明专利技术提供一种科技计划项目申报书相似性检测的方法,属于计算机软件数据处理领域,本发明专利技术通过将已有的申报书导入到申报书库,并对申报书文本进行提取,得到申报书库;将待检测的申报书内容分成若干个文本后与申报书库中的文字信息相比对,得到各个文本中与申报书库中文字信息之间的相似度;将比对结果进行高亮标识

【技术实现步骤摘要】
一种科技计划项目申报书相似性检测的方法


[0001]本专利技术涉及计算机软件数据处理领域,尤其涉及一种科技计划项目申报书相似性检测的方法


技术介绍

[0002]传统的科技计划管理信息系统中项目申报书的审核一般由人工进行,项目申报书可以作为文本比对的对象,将项目申报书文本信息汇总用于申报书相似性检测,可以辅助申报书的审核工作,比如判断申报书是否存在抄袭

由于项目申报书相似性检测环节需要耗费较多的人工比对精力


技术实现思路

[0003]为了解决以上技术问题,本专利技术提供了一种科技计划项目申报书相似性检测的方法

提供申报书库的管理和维护功能,提供申报书文本相似度检测功能,提供检测报告,辅助科技计划项目申报书审核工作

[0004]本专利技术的技术方案是:
[0005]一种科技计划项目申报书相似性检测的方法,通过将已有的申报书导入到申报书库,并对申报书文本进行提取,得到新申报书库;将待检测的申报书内容分成若干个文本后与新申报书库中的文字信息相比对,得到各个文本中与新申报书库中文字信息之间的相似度;将比对结果进行高亮标识

分值计算之后,生成申报书检测报告

[0006]进一步的,
[0007]包含如下几个部分:
[0008]查重比对库,用以支撑科技计划项目申报书的查重,用户可以根据业务需求自建比对库,将待查重检测的项目申报书与比对库文本进行比对查重;
[0009]查重比对任务,支持多种形式的查重比对任务构建;支持多种查重算法;并支持查重算法拓展,通过定义通用接口
Checker
,接口内约束方法

参数,拓展查重算法时,只需完成接口
Checker
中对应方法的实现即可;
[0010]查重对比报告,基于以上两部分,完成查重比对任务后,将产出综合比对报告

详细比对报告

[0011]再进一步的,
[0012]查重比对库,用于新建比对库

删除比对库

查询比对库

[0013]在新建比对库时,比对库文件类型可兼容一种以上类型文本格式,并支持其他类型文本格式拓展

[0014]基于事件驱动机制实现了申报书查重比对任务从开始

进行到结束状态变化的监听,查重过程中基于任务状态的变化,对进行中的任务进行监控,并于查重任务出现异常

查重任务完成时及时通知用户

[0015]综合比对报告从宏观层面对待检测文件

比对库文件

以及各文件间相似性结果
做展现;详细比对报告将针对文件,以短句的形式分别展示每一短句的相似性比对结果

[0016]查重比对报告的实现基于
freemarker
模板引擎技术,可通过定制比对报告模板产出不同比对报告

[0017]本专利技术的有益效果是
[0018]基于科技计划项目构建科技行业特有项目申报书查重比对库,并支持多种文件类型,可便捷拓展支持的比对库文件类型;支持多种查重比对任务形式,及可便捷拓展多种查重算法;本专利技术可对查重比对任务全链条状态进行有效监控,任务异常时可自动预警;本专利技术可产出查重比对报告,并支持自定义类型报告拓展,切实支撑科技工作者项目申报相关工作

附图说明
[0019]图1是计划申报书重要流转逻辑流程示意图;
[0020]图2是查重比对库操作流程示意图;
[0021]图3是查重比对报告流程示意图

具体实施方式
[0022]为使本专利技术实施例的目的

技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0023]本专利技术目的是提供一种科技计划项目申报书相似性检测的方法,主要包含申报书查重比对库

申报书查重比对任务

申报书查重报告等部分,各部分相互独立,以松耦合形式协同完成申报书各类形式比对任务

产出各类查重报告

[0024]一

申报书查重比对库
[0025]各个申报书查重比对库用以支撑科技计划项目申报书的查重,用户可以根据业务需求自建比对库,将待查重检测的项目申报书与比对库文本进行比对查重

申报书查重比库模块功能主要有:新建比对库

删除比对库

查询比对库等功能组成

[0026]其中,在新增比对库时,比对库文件类型可兼容多种类型文本格式
(doc、docx、pdf

)
,并支持其他类型文本格式拓展,拓展方式如下:
[0027]1)
定义文本解析工厂
com.inspur.similarity.core.convert.ConverterFactory
,工厂内定义
public Converter getConverter(FileType type)
方法,通过识别文件类型调用不同的文本解析器
Converter。
[0028]2)
定义文本解析器
Converter
通用接口,如下
[0029][0030]3)
按照不同文件类型依次实现文本解析器
Converter
通用接口,并将其根据文件类型在
com.inspur.similarity.core.convert.ConverterFactory#getConverter
中进行配置,通过传入不同文件类型返回不同文本解析器
Converter
实例

[0031]二

申报书查重比对任务申报书查重比对任务功能支持多种形式的查重比对任务构建,例如待查重文件1对1查重

待查重文件比对库查重等

[0032]查重比对支持多种查重算法,例如基于语义查重

基于字面查重等,并支持查重算法拓展,拓展方式与申报书查重比对库拓展文本解析器相似,通过定义通用接口
Checker
,接口内约束方法

参数,拓展查重算法时,只需完成接口
Checker
中对应方法的实现即可

[0033]此外基于事件驱动机制实现了申报书查重比对任务从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种科技计划项目申报书相似性检测的方法,其特征在于,通过将已有的申报书导入到申报书库,并对申报书文本进行提取,得到新申报书库;将待检测的申报书内容分成若干个文本后与新申报书库中的文字信息相比对,得到各个文本中与新申报书库中文字信息之间的相似度;将比对结果进行高亮标识

分值计算之后,生成申报书检测报告
。2.
根据权利要求1所述的方法,其特征在于,包含如下几个部分:查重比对库,用以支撑科技计划项目申报书的查重,用户可以根据业务需求自建比对库,将待查重检测的项目申报书与比对库文本进行比对查重;查重比对任务,支持多种形式的查重比对任务构建;支持多种查重算法;并支持查重算法拓展,通过定义通用接口
Checker
,接口内约束方法

参数,拓展查重算法时,只需完成接口
Checker
中对应方法的实现即可;查重对比报告,基于以上两部分,完成查重比对任务后,将产出综合比对报告

详细比对报告
。3.
根据权利要求2所述的方法,其特征在于,查重比对库,用于新建比对库

删除比对库

查询比对库
。4.
根据权利要求3所述的方法,其特征在于,在新建比对库时,比对库文件类型可兼容一种以上类型文本格式,并支持其他类型文本格式拓展
。5.
根据权利要求4所述的方法,其特征在于,拓展方式如下:
(1)
定义文本解析工厂
com.inspur.similarity.core.convert.ConverterFactor...

【专利技术属性】
技术研发人员:徐浩李灿张悦
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1