一种项目建设方案查重方法、装置、存储介质及电子设备制造方法及图纸

技术编号:31493714 阅读:10 留言:0更新日期:2021-12-18 12:31
本发明专利技术属于项目建设信息处理领域,提供了项目建设方案查重方法、装置、存储介质及电子设备。其中该方法包括获取新项目的建设方案、报价表和立项申请表;将预构建的行业知识库内每个历史项目的建设方案、报价表和立项申请表分别与新项目建设方案、报价表和立项申请表进行对应比对,得到行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分;赋予所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分相应预先训练好的权重,累加求和后得到每个历史项目与新项目的重复率分值;按照重复率分值从大到小的顺序,将排在前预设位数的历史项目作为疑似重复项目,用于新项目建设方案查重的复核确认。查重的复核确认。查重的复核确认。

【技术实现步骤摘要】
一种项目建设方案查重方法、装置、存储介质及电子设备


[0001]本专利技术属于项目建设信息处理领域,尤其涉及一种项目建设方案查重方法、装置、存储介质及电子设备。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]在政务信息化的发展过程中,各部门已建设大量的信息化系统,伴随着信息化进程的推进,各部门会提出新的建设需求。在新项目的立项审核过程中,如何有效识别出系统的重复建设情况,已成为政务信息化项目管理过程中最关心的问题。
[0004]在解决识别项目重复建设的问题上,业内采取的方式是利用关联分析和文本挖掘技术对建设方案进行整体文本分析,算出新项目的建设方案与历史项目库中的项目的重复率,然后对重复率高的项目进行人工确认。但是专利技术人发现,由于建设方案文本内容偏多,很多无效文本成为信息查重的噪点,导致查重识别准确率比较低,需要花费大量时间人工审核。

技术实现思路

[0005]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供一种项目建设方案查重方法、装置、存储介质及电子设备,其能够提高项目重复识别率,减少因无效信息带来大量的人工成本。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]本专利技术的第一个方面提供一种项目建设方案查重方法,其包括:
[0008]获取新项目的建设方案、报价表和立项申请表;
[0009]将预构建的行业知识库内每个历史项目的建设方案、报价表和立项申请表分别与新项目建设方案、报价表和立项申请表进行对应比对,得到所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分;
[0010]赋予所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分相应预先训练好的权重,累加求和后得到所述行业知识库内每个历史项目与新项目的重复率分值;
[0011]按照所述重复率分值从大到小的顺序,将排在前预设位数的历史项目作为疑似重复项目,以用于新项目建设方案查重的复核确认。
[0012]本专利技术的第二个方面提供一种项目建设方案查重装置,其包括:
[0013]新项目信息获取模块,其用于获取新项目的建设方案、报价表和立项申请表;
[0014]比对查重得分模块,其用于将预构建的行业知识库内每个历史项目的建设方案、报价表和立项申请表分别与新项目建设方案、报价表和立项申请表进行对应比对,得到所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分;
[0015]项目重复率分值计算模块,其用于赋予所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分相应预先训练好的权重,累加求和后得到所述行业知识库内每个历史项目与新项目的重复率分值;
[0016]疑似重复项目确定模块,其用于按照所述重复率分值从大到小的顺序,将排在前预设位数的历史项目作为疑似重复项目,以用于新项目建设方案查重的复核确认。
[0017]本专利技术的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的项目建设方案查重方法中的步骤。
[0018]本专利技术的第四个方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的项目建设方案查重方法中的步骤。
[0019]与现有技术相比,本专利技术的有益效果是:
[0020]本专利技术预先构建了行业知识库,利用预构建的行业知识库内每个历史项目的建设方案、报价表和立项申请表分别与新项目建设方案、报价表和立项申请表进行对应比对,解决自动语义识别关联性低或无法关联问题,提高了关联分析模型识别率。
[0021]本专利技术利用对应比对得到所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分,得到了查重判断的多个因子;再赋予这些多个因子相应预先训练好的权重,累加求和后得到所述行业知识库内每个历史项目与新项目的重复率分值,解决了对比过程中噪点信息过多的问题,提升了查询建设方案的查重准确率,较原有的单文件全文本识别方法,能够提升高识别的有效率。而且经过项目实际验证查重识别率从25%提升到45%,能够有效节约审核时间,降低人工成本。
[0022]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0023]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0024]图1是本专利技术实施例的项目建设方案查重方法的示例性应用环境的系统架构的示意图;
[0025]图2是本专利技术实施例的项目建设方案查重方法流程图;
[0026]图3是本专利技术实施例的项目建设方案查重结构示意图;
[0027]图4是本专利技术实施例的电子设备结构示意图。
具体实施方式
[0028]下面结合附图与实施例对本专利技术作进一步说明。
[0029]应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0030]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式
也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0031]图1示出了可以应用本专利技术实施例的项目建设方案查重方法的示例性应用环境的系统架构的示意图。
[0032]如图1所示,系统架构100可以包括电子设备101和/或电子设备102,网络103和服务器104。网络103用以在电子设备101、电子设备102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。电子设备101、电子设备102,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的电子设备、网络和服务器的数量仅仅是示意性的。根据实现需要,可以具有任意数目的电子设备、网络和服务器。比如服务器104可以是多个服务器组成的服务器集群等。
[0033]本专利技术实施例所提供的项目建设方案查重方法一般由服务器104执行,相应地,项目建设方案查重装置可以设置于服务器104中。本领域技术人员容易理解的是,本专利技术实施例所提供的项目建设方案查重方法也可以由电子设备101、电子设备102执行。
[0034]实施例一
[0035]参照图2,本实施例所提供的项目建设方案查重方法,其具体包括如下步骤:
[0036]S201:获取新项目的建设方案、报本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种项目建设方案查重方法,其特征在于,包括:获取新项目的建设方案、报价表和立项申请表;将预构建的行业知识库内每个历史项目的建设方案、报价表和立项申请表分别与新项目建设方案、报价表和立项申请表进行对应比对,得到所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分;赋予所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分相应预先训练好的权重,累加求和后得到所述行业知识库内每个历史项目与新项目的重复率分值;按照所述重复率分值从大到小的顺序,将排在前预设位数的历史项目作为疑似重复项目,以用于新项目建设方案查重的复核确认。2.如权利要求1所述的项目建设方案查重方法,其特征在于,所述行业知识库的构建过程包括:对历史项目的建设方案、报价表和立项申请表分别进行全文本抽取,自动分词后形成相应关键词库;对相应关键词库进行校正修改,丢弃无效同义词以及补充行业同义词,得到行业知识库。3.如权利要求1所述的项目建设方案查重方法,其特征在于,所述查重得分的计算过程为:将待查重文本以句子为单位进行拆分;将拆分后的句子进行预处理;将待查重文本的预处理后的每个句子与语料库中的每个句子进行相似性计算得出相似度,并找出相似度超过设定相似度阈值的句子;根据待查重文本中所有句子的相似度求平均,计算得出待查重文本的总体相似度,即为相应查重得分。4.如权利要求1所述的项目建设方案查重方法,其特征在于,所述立项申请表中预设内容包括建设目的、建设依据和建设内容。5.如权利要求1所述的项目建设方案查重方法,其特征在于,所述权重的训练过程为:从历史项目信息中获取权重训练的数据集;预设多种权重处理策略方案,将数据集应用到不同...

【专利技术属性】
技术研发人员:郭鑫鑫吴士伟曹建刘传浩周浩
申请(专利权)人:山东亿云信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1