一种电子投标文件与条款的匹配方法、设备及介质组成比例

技术编号:38014540 阅读:9 留言:0更新日期:2023-06-30 10:38
本申请公开了一种电子投标文件与条款的匹配方法、设备及介质,涉及数据识别领域。方法包括:获取目标投标文件以及目标招标条款,对目标投标文件以及目标招标条款进行文字提取,以得到初始文本数据;进行Jieba分词处理,以得到分词数据;对分词数据进行去停留词以及去无用词操作,以得到分词结果,将分词结果以存储至工程建设词库中;对投标文本以及招标文本各段落进行向量化表示,以得到段落向量;将段落向量输入至优化后的文本匹配模型中,并根据输出结果确定投标文本段落与招标文本段落之间的匹配关系。通过建立工程建设专业词库,避免了由于专业领域词语分错,进而造成后面段落文本匹配错误的情况发生。本匹配错误的情况发生。本匹配错误的情况发生。

【技术实现步骤摘要】
一种电子投标文件与条款的匹配方法、设备及介质


[0001]本申请涉及数据识别领域,具体涉及一种电子投标文件与条款的匹配方法、设备及介质。

技术介绍

[0002]近年来,随着电子招投标的推广,投标文件电子化、结构化逐渐成为常态,让大数据分析、自然语言处理有了更好的应用基础。
[0003]工程项目电子招投标文件存在页数多、内容多、技术含量高、投标单位多等特点,传统的纸质文件对比方式无法满足电子招投标的精准快速评标的诉求。

技术实现思路

[0004]为了解决上述问题,本申请提出了一种电子投标文件与条款的匹配方法、设备及介质,包括:获取目标投标文件以及目标招标条款,对所述目标投标文件以及目标招标条款进行文字提取,以得到初始文本数据;所述初始文本数据进行Jieba分词处理,以得到分词数据;根据预建立的停留词表,对所述分词数据进行去停留词以及去无用词操作,以得到分词结果,并将所述分词结果以信息表数据的格式存储至工程建设词库中;从所述工程建设词库中获取所述目标投标文件对应的投标文本以及所述目标招标条款对应的招标文本;对所述投标文本以及所述招标文本各段落进行向量化表示,以得到段落向量;将所述段落向量,输入至优化后的文本匹配模型中,并根据输出结果确定所述投标文本中各段落分别与所述招标文本中各段落之间的匹配关系。
[0005]在一个示例中,所述获取目标投标文件以及目标招标条款,对所述目标投标文件以及目标招标条款进行文字提取,具体包括:通过几何校正卷积神经网络对目标投标文件图像以及目标招标文件图像进行图像纠正,以得到第一中间图像;通过第一卷积神经网络对所述第一中间图像进行图像增强,以得到第二中间图像;将所述第二中间图像的三个通道进行拆分,分别得到蓝色通道灰度图、绿色通道灰度图以及红色通道灰度图;根据预设阈值将所述通道灰度图进行二值化,并转换为三通道图像,以得到第三中间图像;通过第二卷积神经网络对所述第三中间图像进行版面分析,以提取所述第三中间图像内的表格区域以及图片区域,得到第四中间图像;对所述第四中间图像进行文字提取,以得到所述初始文本数据。
[0006]在一个示例中,所述对所述初始文本数据进行Jieba分词处理之前,所述方法还包括:获取词库样本集,并根据所述样本集建立初始词库;筛选所述分词结果中的专业词语,以减少所述分词结果中分词错误的词语;根据所述专业词语的重要程度,赋予所述专业词语初始词频,并将所述专业词语加入所述工程建设词库中。
[0007]在一个示例中,所述对所述初始文本数据进行Jieba分词处理,以得到分词数据,具体包括:获取多个线程,并同时使用所述多个线程对所述初始文本数据中的多个段落进
行Jieba分词处理;导入所述工程建设词库,根据所述工程建设词库,对所述初始文本中的多个段落进行Jieba分词。
[0008]在一个示例中,所述从所述工程建设词库中获取所述目标投标文件对应的投标文本以及所述目标招标条款对应的招标文本之后,所述方法还包括:确定所述信息表数据中,各段落分词结果结合分别对应的词频及逆文档频率权值矩阵;确定所述各段落分词结果的父标题与各分词之间的编辑距离;将所述权值矩阵与所述编辑距离进行计算加权,并对加权后的矩阵进行归一化,并根据归一化结果确定各段落中的预设数量分词为所述各段落分别对应的主题词。在一个示例中,所述确定所述信息表数据中,各段落分词结果结合分别对应的词频及逆文档频率权值矩阵,具体包括:通过如下公式,确定各段落分词结果集合的文档词频:;其中,表示特征词在文档中的词频,表示特征词在文档中出现的次数,表示文档中所有词出现的总次数;通过如下公式,确定各段落分词结果集合的逆文档频率:;其中,表示特征词的逆文档频率,表示文档集中文本的总数,表示文档集中包含特征词的文档数;通过如下公式,确定特征词的归一化词频及逆文档频率权值矩阵:;其中,为词频及逆文档频率权值矩阵;通过如下公式,确定所述父标题与所述各分词之间的编辑距离:离:其中,表示的前个词与的前个词之间的编辑距离;表示父标题字符串,表示段落文本的词语,为指示函数;按照如下公式,将所述权值矩阵与所述编辑距离按公式进行计算加权:;其中,表示加权后的权值矩阵,为词频及逆文档频率权值矩阵,为父标题长度,表示词语长度。
[0009]在一个示例中,所述优化后的文本匹配模型包括原始文本匹配模型以及设置于所述原始文本匹配模型后的排序输出层;所述排序输出层用于提取任一段落投标文本与全部段落招标文本分别对应的softmax值;所述softmax值为所述文本匹配模型的输出值;并将所述softmax值大于预设阈值的段落招标文本进行排序,并将拥有最大softmax值的段落招标文本作为所述任一段落投标文本的匹配条款。
[0010]在一个示例中,所述根据输出结果确定所述投标文本中各段落分别与所述招标文本中各段落之间的匹配关系,具体包括:将所述投标文本中各段落分别与所述招标文本中各段落之间的匹配关系,转换为二分类问题;若段落投标文本与段落招标文本的输出结果为0,则表示所述段落投标文本与所述段落招标文本不匹配;若所述段落投标文本与所述段
落招标文本的输出结果为1,则表示所述段落投标文本与所述段落招标文本匹配。
[0011]本申请还提供了一种电子投标文件与条款的匹配设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:获取目标投标文件以及目标招标条款,对所述目标投标文件以及目标招标条款进行文字提取,以得到初始文本数据;对所述初始文本数据进行Jieba分词处理,以得到分词数据;根据预建立的停留词表,对所述分词数据进行去停留词以及去无用词操作,以得到分词结果,并将所述分词结果以信息表数据的格式存储至工程建设词库中;从所述工程建设词库中获取所述目标投标文件对应的投标文本以及所述目标招标条款对应的招标文本;对所述投标文本以及所述招标文本各段落进行向量化表示,以得到段落向量;将所述段落向量,输入至优化后的文本匹配模型中,并根据输出结果确定所述投标文本中各段落分别与所述招标文本中各段落之间的匹配关系。
[0012]本申请还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:获取目标投标文件以及目标招标条款,对所述目标投标文件以及目标招标条款进行文字提取,以得到初始文本数据;对所述初始文本数据进行Jieba分词处理,以得到分词数据;根据预建立的停留词表,对所述分词数据进行去停留词以及去无用词操作,以得到分词结果,并将所述分词结果以信息表数据的格式存储至工程建设词库中;从所述工程建设词库中获取所述目标投标文件对应的投标文本以及所述目标招标条款对应的招标文本;对所述投标文本以及所述招标文本各段落进行向量化表示,以得到段落向量;将所述段落向量,输入至优化后的文本匹配模型中,并根据输出结果确定所述投标文本中各段落分别与所述招标文本中各段落之间的匹配关系。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子投标文件与条款的匹配方法,其特征在于,包括:获取目标投标文件以及目标招标条款,对所述目标投标文件以及目标招标条款进行文字提取,以得到初始文本数据;对所述初始文本数据进行Jieba分词处理,以得到分词数据;根据预建立的停留词表,对所述分词数据进行去停留词以及去无用词操作,以得到分词结果,并将所述分词结果以信息表数据的格式存储至工程建设词库中;从所述工程建设词库中获取所述目标投标文件对应的投标文本以及所述目标招标条款对应的招标文本;对所述投标文本以及所述招标文本各段落进行向量化表示,以得到段落向量;将所述段落向量,输入至优化后的文本匹配模型中,并根据输出结果确定所述投标文本中各段落分别与所述招标文本中各段落之间的匹配关系。2.根据权利要求1所述的方法,其特征在于,所述获取目标投标文件以及目标招标条款,对所述目标投标文件以及目标招标条款进行文字提取,具体包括:通过几何校正卷积神经网络对目标投标文件图像以及目标招标文件图像进行图像纠正,以得到第一中间图像;通过第一卷积神经网络对所述第一中间图像进行图像增强,以得到第二中间图像;将所述第二中间图像的三个通道进行拆分,分别得到蓝色通道灰度图、绿色通道灰度图以及红色通道灰度图;根据预设阈值将所述通道灰度图进行二值化,并转换为三通道图像,以得到第三中间图像;通过第二卷积神经网络对所述第三中间图像进行版面分析,以提取所述第三中间图像内的表格区域以及图片区域,得到第四中间图像;对所述第四中间图像进行文字提取,以得到所述初始文本数据。3.根据权利要求1所述的方法,其特征在于,所述对所述初始文本数据进行Jieba分词处理之前,所述方法还包括:获取词库样本集,并根据所述样本集建立初始词库;筛选所述分词结果中的专业词语,以减少所述分词结果中分词错误的词语;根据所述专业词语的重要程度,赋予所述专业词语初始词频,并将所述专业词语加入所述工程建设词库中。4.根据权利要求3所述的方法,其特征在于,所述对所述初始文本数据进行Jieba分词处理,以得到分词数据,具体包括:获取多个线程,并同时使用所述多个线程对所述初始文本数据中的多个段落进行Jieba分词处理;导入所述工程建设词库,根据所述工程建设词库,对所述初始文本中的多个段落进行Jieba分词。5.根据权利要求1所述的方法,其特征在于,所述从所述工程建设词库中获取所述目标投标文件对应的投标文本以及所述目标招标条款对应的招标文本之后,所述方法还包括:确定所述信息表数据中,各段落分词结果结合分别对应的词频及逆文档频率权值矩阵;
确定所述各段落分词结果的父标题与各分词之间的编辑距离;将所述权值矩阵与所述编辑距离进行计算加权,并对加权后的矩阵进行归一化,并根据归一化结果确定各段落中的预设数量分词为所述各段落分别对应的主题词。6.根据权利要求5所述的方法,其特征在于,所述确定所述信息表数据中,各段落分词结果结合分别对应的词频及逆文档频率权值矩阵,具体包括:通过如下公式,确定各段落分词结果集合的文档词频:其中,表示特征词在文档中的词频,表示特征词在文档中出现的次数,表示文档中所有词出现的总次数;通过如下公式,确定各段落分词结果集合的逆文档频率:其中,表示特征词的逆文档频率,M表示文档集中文本的总数,表示文档集中包含特征词的文档数;通过如下公式,确定特...

【专利技术属性】
技术研发人员:李志杰王金亮徐明礼孙宁振魏晓军姬建华顾华伟唐莉周志刚张津铭
申请(专利权)人:山东齐鲁电子招标采购服务有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1