【技术实现步骤摘要】
本专利技术涉及相似性分析,具体为一种基于全内容识别的投标文件相似性分析方法。
技术介绍
1、随着互联网与数字化技术的飞速发展,大量的文档数据被创建存储,在招标竞价过程中产生了大量投标文件,投标文件是指投标人在招标要求下编写的响应式文件,有助于投标人展示自身企业能力,获取商业机会,帮助招标企业发掘商业合作伙伴,提高招标项目工程质量。在招标过程中招标人员需要比较分析不同的招标文件的内容,以发现投标抄袭恶意竞争情况,由于招标文件非结构化、内容复杂、信息量大的特点,人工审查招标文件相似性难度高、识别效率低,容易出现相似遗漏及误判的问题,并且少数企业为了躲避相似性识别采用段落相似语句进行恶意竞争,严重扰乱市场公平秩序。
2、随着计算机技术的进步,现在出现了运用计算机开发识别内容相似性的方法,计算机运用能够有效对比投标文件的相似性,然而针对投标文件的全内容分类相似性分析,进而分段分图判断相似性位置,还缺乏一个完整的识别方法流程。
3、因此,针对以上问题,亟待需要一种基于全内容识别的投标文件相似性分析方法。
【技术保护点】
1.一种基于全内容识别的投标文件相似性分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述对目标投标文件文本及图像进行预处理具体为:对目标投标文件图像进行去噪、旋转矫正处置,利用OCR识别技术识别目标投标文件图像中文本内容,对目标投标文件文本去除特殊字符、标点符号,并进行分词,提取文本关键词及文本段落。
3.根据权利要求2所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述文本关键词信息包括关键词词频、关键词字符串符合率;
4.根据权利要求3所述的一
...【技术特征摘要】
1.一种基于全内容识别的投标文件相似性分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述对目标投标文件文本及图像进行预处理具体为:对目标投标文件图像进行去噪、旋转矫正处置,利用ocr识别技术识别目标投标文件图像中文本内容,对目标投标文件文本去除特殊字符、标点符号,并进行分词,提取文本关键词及文本段落。
3.根据权利要求2所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述文本关键词信息包括关键词词频、关键词字符串符合率;
4.根据权利要求3所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述关键词相似符合指数计算步骤为:
5.根据权利要求3所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述段落相似符合指数计算公式为:
6.根据权利要求3所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述图像相似符合指数计算步骤为:
7.根据权利要求6所述的一种基于全内容识别的投标文件相似性分析方法,其特征在于,所述目标投标文件总体相似符合指数计算步...
【专利技术属性】
技术研发人员:孙睿,康跃武,徐波,刘凯,曹雨,阚涛,宋树,李茹,石天宇,王薇,李刚,刘晓强,余洪祥,
申请(专利权)人:国网安徽省电力有限公司物资分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。