【技术实现步骤摘要】
一种电子投标文件与条款的匹配方法、设备及介质
[0001]本申请涉及数据识别领域,具体涉及一种电子投标文件与条款的匹配方法、设备及介质。
技术介绍
[0002]近年来,随着电子招投标的推广,投标文件电子化、结构化逐渐成为常态,让大数据分析、自然语言处理有了更好的应用基础。
[0003]工程项目电子招投标文件存在页数多、内容多、技术含量高、投标单位多等特点,传统的纸质文件对比方式无法满足电子招投标的精准快速评标的诉求。
技术实现思路
[0004]为了解决上述问题,本申请提出了一种电子投标文件与条款的匹配方法、设备及介质,包括:获取目标投标文件以及目标招标条款,对所述目标投标文件以及目标招标条款进行文字提取,以得到初始文本数据;所述初始文本数据进行Jieba分词处理,以得到分词数据;根据预建立的停留词表,对所述分词数据进行去停留词以及去无用词操作,以得到分词结果,并将所述分词结果以信息表数据的格式存储至工程建设词库中;从所述工程建设词库中获取所述目标投标文件对应的投标文本以及所述目标招标条款对应的招标文本;对所述投标文本以及所述招标文本各段落进行向量化表示,以得到段落向量;将所述段落向量,输入至优化后的文本匹配模型中,并根据输出结果确定所述投标文本中各段落分别与所述招标文本中各段落之间的匹配关系。
[0005]在一个示例中,所述获取目标投标文件以及目标招标条款,对所述目标投标文件以及目标招标条款进行文字提取,具体包括:通过几何校正卷积神经网络对目标投标文件图像以及目标招标文件图像进行图像纠 ...
【技术保护点】
【技术特征摘要】
1.一种电子投标文件与条款的匹配方法,其特征在于,包括:获取目标投标文件以及目标招标条款,对所述目标投标文件以及目标招标条款进行文字提取,以得到初始文本数据;对所述初始文本数据进行Jieba分词处理,以得到分词数据;根据预建立的停留词表,对所述分词数据进行去停留词以及去无用词操作,以得到分词结果,并将所述分词结果以信息表数据的格式存储至工程建设词库中;从所述工程建设词库中获取所述目标投标文件对应的投标文本以及所述目标招标条款对应的招标文本;对所述投标文本以及所述招标文本各段落进行向量化表示,以得到段落向量;将所述段落向量,输入至优化后的文本匹配模型中,并根据输出结果确定所述投标文本中各段落分别与所述招标文本中各段落之间的匹配关系。2.根据权利要求1所述的方法,其特征在于,所述获取目标投标文件以及目标招标条款,对所述目标投标文件以及目标招标条款进行文字提取,具体包括:通过几何校正卷积神经网络对目标投标文件图像以及目标招标文件图像进行图像纠正,以得到第一中间图像;通过第一卷积神经网络对所述第一中间图像进行图像增强,以得到第二中间图像;将所述第二中间图像的三个通道进行拆分,分别得到蓝色通道灰度图、绿色通道灰度图以及红色通道灰度图;根据预设阈值将所述通道灰度图进行二值化,并转换为三通道图像,以得到第三中间图像;通过第二卷积神经网络对所述第三中间图像进行版面分析,以提取所述第三中间图像内的表格区域以及图片区域,得到第四中间图像;对所述第四中间图像进行文字提取,以得到所述初始文本数据。3.根据权利要求1所述的方法,其特征在于,所述对所述初始文本数据进行Jieba分词处理之前,所述方法还包括:获取词库样本集,并根据所述样本集建立初始词库;筛选所述分词结果中的专业词语,以减少所述分词结果中分词错误的词语;根据所述专业词语的重要程度,赋予所述专业词语初始词频,并将所述专业词语加入所述工程建设词库中。4.根据权利要求3所述的方法,其特征在于,所述对所述初始文本数据进行Jieba分词处理,以得到分词数据,具体包括:获取多个线程,并同时使用所述多个线程对所述初始文本数据中的多个段落进行Jieba分词处理;导入所述工程建设词库,根据所述工程建设词库,对所述初始文本中的多个段落进行Jieba分词。5.根据权利要求1所述的方法,其特征在于,所述从所述工程建设词库中获取所述目标投标文件对应的投标文本以及所述目标招标条款对应的招标文本之后,所述方法还包括:确定所述信息表数据中,各段落分词结果结合分别对应的词频及逆文档频率权值矩阵;
确定所述各段落分词结果的父标题与各分词之间的编辑距离;将所述权值矩阵与所述编辑距离进行计算加权,并对加权后的矩阵进行归一化,并根据归一化结果确定各段落中的预设数量分词为所述各段落分别对应的主题词。6.根据权利要求5所述的方法,其特征在于,所述确定所述信息表数据中,各段落分词结果结合分别对应的词频及逆文档频率权值矩阵,具体包括:通过如下公式,确定各段落分词结果集合的文档词频:其中,表示特征词在文档中的词频,表示特征词在文档中出现的次数,表示文档中所有词出现的总次数;通过如下公式,确定各段落分词结果集合的逆文档频率:其中,表示特征词的逆文档频率,M表示文档集中文本的总数,表示文档集中包含特征词的文档数;通过如下公式,确定特...
【专利技术属性】
技术研发人员:李志杰,王金亮,徐明礼,孙宁振,魏晓军,姬建华,顾华伟,唐莉,周志刚,张津铭,
申请(专利权)人:山东齐鲁电子招标采购服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。