多版本文件比对方法技术

技术编号：39808643 阅读：31 留言：0更新日期：2023-12-22 02:43

本申请公开一种多版本文件比对方法

全部详细技术资料下载

【技术实现步骤摘要】
多版本文件比对方法、装置、系统及存储介质

[0001]本申请属于大数据信息处理
，尤其涉及一种多版本文件比对方法
、
装置
、
系统及存储介质
。

技术介绍

[0002]在投标人编制标书过程中，需要经过多轮编辑和修正，期间可能会调整项目经理，报价信息，资质证书等材料
。
如果一个投标单位，在修正过程中出现修改遗漏的情况，例如投标函中的项目经理和投标人基本信息表中项目经理信息不一致情况，会导致投标单位在本次投标过程中废标
。
[0003]针对该问题，为投标人提供标书多个版本的核对技术，投标人基于该技术能力，快速实现标书多个版本编辑过程中变更修订的内容，包括文件硬件信息
、
经济标清单差异
、
技术标文档变更内容等
。
通过快速的投标文件比对，方便投标单位快速发现并定位标书的变更内容
。
[0004]目前对文本内容的比对，可以通过
PDF
解析工具或文本提取库，将
PDF
文档本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种多版本文件比对方法，其特征在于，所述方法包括：获取原始文本数据，并对所述原始文本数据进行预处理，得到预处理文本数据；通过词向量模型对所述预处理文本数据进行词向量表示，得到词向量文本数据；通过文本结构分析算法对所述词向量文本数据进行处理，提取文本的结构化信息；基于所述词向量文本数据和所述结构化信息计算多版本文件之间的相似度；设定相似度阈值，通过所述相似度阈值与计算得到的所述多版本文件之间的相似度判断所述多版本文件之间是否相似，判断方法包括：若所述多版本文件之间的相似度高于所述相似度阈值，则判断所述多版本文件之间相似，若所述多版本文件之间的相似度低于所述相似度阈值，则判断所述多版本文件之间不相似
。2.
如权利要求1所述的多版本文件比对方法，其特征在于，所述对所述原始文本数据进行预处理，包括：通过
PDF
解析工具提取所述原始文本数据的文本内容，对所述文本内容进行清洗和规范化处理；所述
PDF
解析工具包括
PyPDF2
和
pdfplumber
；所述清洗和规范化处理包括：去除特殊字符
、
去除标点符号和统一大小写
。3.
如权利要求1所述的多版本文件比对方法，其特征在于，所述词向量模型包括
Word2Vec、GloVe
和
BERT
；所述文本结构分析算法包括段落识别
、
标题识别和表格解析，所述基于所述词向量文本数据和所述结构化信息计算多版本文件之间的相似度，包括：基于所述词向量文本数据计算多版本文件之间的内容相似度和基于所述结构化信息计算多版本文件之间的结构相似度
。4.
如权利要求3所述的多版本文件比对方法，其特征在于，所述基于所述词向量文本数据计算多版本文件之间的内容相似度，包括：计算每个文件的词向量平均或对每个文件的词向量进行加权求和计算，通过度量方法计算多版本文件之间的内容相似度，所述度量方法...

【专利技术属性】
技术研发人员：沈云，陈洲，曹立斌，黄素龙，李强，朱斌，何永龙，张志恒，陆建，陆卫东，
申请(专利权)人：国泰新点软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人