投标文件相似度计算方法及装置制造方法及图纸

技术编号:24171097 阅读:29 留言:0更新日期:2020-05-16 02:58
本发明专利技术公开了一种投标文件相似度计算方法及装置,该方法包括:获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息;根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N‑a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落;根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数;根据所述相同词数确定第一投标文件和第二投标文件的相似度。本发明专利技术方法大大提高发现围标串标的效率和准确率,且能够大幅降低人力成本和可扩展性成本。

Similarity calculation method and device of bidding documents

【技术实现步骤摘要】
投标文件相似度计算方法及装置
本专利技术涉及自然语言处理领域,具体而言,涉及一种投标文件相似度计算方法及装置。
技术介绍
目前在招标时供应商为了利益可能会出现围标串标行为,极大地损害招标者的利益。投标文件本质上是一个文本篇章,是在招标方发布的投标文件模板的基础上进行完善后添加企业相应的投标内容,进行围标串标的企业其投标书的内容应该会比较类似甚至相同,因此可以对投标书的内容进行考察,从而尽可能的发现围标串标行为。但招标过程中应标的企业较多,目前通过人为阅读和比较,效率低下且准确率不高,难以准确的对围标串标行为进行识别。
技术实现思路
本专利技术为了解决上述
技术介绍
中的至少一个技术问题,提出了一种投标文件相似度计算方法及装置。为了实现上述目的,根据本专利技术的一个方面,提供了一种投标文件相似度计算方法,该方法包括:获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息;根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落;根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数;根据所述相同词数确定第一投标文件和第二投标文件的相似度。可选的,该方法还包括:对第一投标文件和第二投标文件进行预处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息,其中,预处理包括:分词处理、去燥处理以及去除模板内容中的至少一种。可选的,所述对第一投标文件和第二投标文件进行预处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息,具体包括:对所述第一投标文件和所述第二投标文件进行分词处理;对分词处理后的所述第一投标文件和所述第二投标文件进行去燥处理;对去燥处理后的所述第一投标文件和所述第二投标文件根据预设的投标文件模板内容进行去除模板内容处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息。可选的,所述根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落,包括:当两个段落相同词语的数量大于第一预设值时和/或当两个段落相同词语的数量占两个段落总词语数的百分比大于第二预设值时,确定该两个段落为语义相同的段落。可选的,所述相同词语查找算法为Rabin-Karp算法。为了实现上述目的,根据本专利技术的另一方面,提供了一种投标文件相似度计算装置,该装置包括:有效文本信息获取单元,用于获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息;语义相同段落查找单元,用于根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落;相同词数确定单元,用于根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数;相似度计算单元,用于根据所述相同词数确定第一投标文件和第二投标文件的相似度。可选的,该装置还包括:有效文本信息生成单元,用于对第一投标文件和第二投标文件进行预处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息,其中,预处理包括:分词处理、去燥处理以及去除模板内容中的至少一种。可选的,所述有效文本信息生成单元,包括:分词处理模块,用于对所述第一投标文件和所述第二投标文件进行分词处理;去燥处理模块,用于对分词处理后的所述第一投标文件和所述第二投标文件进行去燥处理;去除模板内容模块,用于对去燥处理后的所述第一投标文件和所述第二投标文件根据预设的投标文件模板内容进行去除模板内容处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息。可选的,所述语义相同段落查找单元,还用于当两个段落相同词语的数量大于第一预设值时和/或当两个段落相同词语的数量占两个段落总词语数的百分比大于第二预设值时,确定该两个段落为语义相同的段落。可选的,所述相同词语查找算法为Rabin-Karp算法。为了实现上述目的,根据本专利技术的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述投标文件相似度计算方法中的步骤。为了实现上述目的,根据本专利技术的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述投标文件相似度计算方法中的步骤。本专利技术的有益效果为:本专利技术可以应用在不同的投标应标项目环境中,特别是应标的供应商数量较多时,本专利技术可以对所有的投标书进行相似性检测,以确定疑似围标串标的标书,与现有的人为地去一一比对不同的招标书相比大大提高发现围标串标的效率和准确率,且能够大幅降低人力成本和可扩展性成本。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本专利技术实施例投标文件相似度计算方法的流程图;图2是本专利技术实施例生成投标文件的有效文本信息的流程图;图3是本专利技术实施例投标文件相似度计算装置的结构框图;图4是本专利技术实施例有效文本信息生成单元的组成结构框图;图5是本专利技术实施例计算机设备示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。本领域内的技术人员应明白,本专利技术的实施例可提供为方法、系统、或计算机程序产品。因此,本专利技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本专利技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征本文档来自技高网
...

【技术保护点】
1.一种投标文件相似度计算方法,其特征在于,包括:/n获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息;/n根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落;/n根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数;/n根据所述相同词数确定第一投标文件和第二投标文件的相似度。/n

【技术特征摘要】
1.一种投标文件相似度计算方法,其特征在于,包括:
获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息;
根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落;
根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数;
根据所述相同词数确定第一投标文件和第二投标文件的相似度。


2.根据权利要求1所述的投标文件相似度计算方法,其特征在于,还包括:
对第一投标文件和第二投标文件进行预处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息,其中,预处理包括:分词处理、去燥处理以及去除模板内容中的至少一种。


3.根据权利要求2所述的投标文件相似度计算方法,其特征在于,所述对第一投标文件和第二投标文件进行预处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息,具体包括:
对所述第一投标文件和所述第二投标文件进行分词处理;
对分词处理后的所述第一投标文件和所述第二投标文件进行去燥处理;
对去燥处理后的所述第一投标文件和所述第二投标文件根据预设的投标文件模板内容进行去除模板内容处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息。


4.根据权利要求1所述的投标文件相似度计算方法,其特征在于,所述根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落,包括:
当两个段落相同词语的数量大于第一预设值时和/或当两个段落相同词语的数量占两个段落总词语数的百分比大于第二预设值时,确定该两个段落为语义相同的段落。


5.根据权利要求1所述的投标文件相似度计算方法,其特征在于,所述相同词语查找算法为Rabin-Karp算法。


6.一种投标文件相似度计算装置,其特征在于,包括:
有效文本信息获取单元,用于获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息;
...

【专利技术属性】
技术研发人员:邓帅余孟泽黄斌李华窦文梅李振达
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1