一种基于全内容识别的投标文件相似性分析方法技术

技术编号:40011374 阅读:24 留言:0更新日期:2024-01-16 15:19
本发明专利技术公开了一种基于全内容识别的投标文件相似性分析方法,涉及相似性分析技术领域。该基于全内容识别的投标文件相似性分析方法,对目标投标文件文本及图像进行预处理;对于预处理后的目标投标文件获取目标投标文件的文本关键词信息、文本段落信息及图像信息;通过文本关键词信息分析计算出关键词相似符合指数,通过文本段落信息分析计算出段落相似符合指数,通过图像信息分析计算出图像相似符合指数;结合目标投标文件的关键词相似符合指数、段落相似符合指数与图像相似符合指数分析计算出目标投标文件总体相似符合指数;将目标投标文件相似符合指数与相似符合阈值对比分析,判断目标投标文件的总体相似性符合程度并生成相似性分析结果报告。

【技术实现步骤摘要】

本专利技术涉及相似性分析,具体为一种基于全内容识别的投标文件相似性分析方法


技术介绍

1、随着互联网与数字化技术的飞速发展,大量的文档数据被创建存储,在招标竞价过程中产生了大量投标文件,投标文件是指投标人在招标要求下编写的响应式文件,有助于投标人展示自身企业能力,获取商业机会,帮助招标企业发掘商业合作伙伴,提高招标项目工程质量。在招标过程中招标人员需要比较分析不同的招标文件的内容,以发现投标抄袭恶意竞争情况,由于招标文件非结构化、内容复杂、信息量大的特点,人工审查招标文件相似性难度高、识别效率低,容易出现相似遗漏及误判的问题,并且少数企业为了躲避相似性识别采用段落相似语句进行恶意竞争,严重扰乱市场公平秩序。

2、随着计算机技术的进步,现在出现了运用计算机开发识别内容相似性的方法,计算机运用能够有效对比投标文件的相似性,然而针对投标文件的全内容分类相似性分析,进而分段分图判断相似性位置,还缺乏一个完整的识别方法流程。

3、因此,针对以上问题,亟待需要一种基于全内容识别的投标文件相似性分析方法。


<p>技术实现思本文档来自技高网...

【技术保护点】

1.一种基于全内容识别的投标文件相似性分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述对目标投标文件文本及图像进行预处理具体为:对目标投标文件图像进行去噪、旋转矫正处置,利用OCR识别技术识别目标投标文件图像中文本内容,对目标投标文件文本去除特殊字符、标点符号,并进行分词,提取文本关键词及文本段落。

3.根据权利要求2所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述文本关键词信息包括关键词词频、关键词字符串符合率;

4.根据权利要求3所述的一种基于全内容识别的投...

【技术特征摘要】

1.一种基于全内容识别的投标文件相似性分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述对目标投标文件文本及图像进行预处理具体为:对目标投标文件图像进行去噪、旋转矫正处置,利用ocr识别技术识别目标投标文件图像中文本内容,对目标投标文件文本去除特殊字符、标点符号,并进行分词,提取文本关键词及文本段落。

3.根据权利要求2所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述文本关键词信息包括关键词词频、关键词字符串符合率;

4.根据权利要求3所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述关键词相似符合指数计算步骤为:

5.根据权利要求3所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述段落相似符合指数计算公式为:

6.根据权利要求3所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述图像相似符合指数计算步骤为:

7.根据权利要求6所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述目标投标文件总体相似符合指数计算步...

【专利技术属性】
技术研发人员:孙睿康跃武徐波刘凯曹雨阚涛宋树李茹石天宇王薇李刚刘晓强余洪祥
申请(专利权)人:国网安徽省电力有限公司物资分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1