一种投标材料中竞标者信息自动化分析方法和系统技术方案

技术编号:34253782 阅读:10 留言:0更新日期:2022-07-24 12:11
本发明专利技术提供了一种投标材料中竞标者信息自动化分析方法,将投标材料PDF文件进行编号、扫描与格式转换,得到格式转换后的文档;对格式转换后的文档,进行版面结构分析,将文档划分为文本区域、表格区域和图片区域;分别对文本区域、表格区域和图片区域进行文本检测识别、表格结构识别以及图片识别,得到识别结果;将识别结果输入机器学习方法进行回归分析,预测出标签分数值;基于嵌入式数据库SQLite搭建RAT

An automatic analysis method and system of bidder information in bidding materials

【技术实现步骤摘要】
一种投标材料中竞标者信息自动化分析方法和系统


[0001]本专利技术涉及文档自动化处理
,特别是指一种投标材料中竞标者信息自动化分析方法和系统。

技术介绍

[0002]政府、事业单位和企业在开展项目前一般都需要进行公开招标,竞标者或供应商提供的投标材料成为判断其资质是否满足招标项目要求的重要依据。投标材料中一般包含价格商务技术文件,当前对投标材料进行审核的主流方式为人工判断并评分,这种方式不仅实施效率较低、人力成本较高,而且难以保证在审核过程中的客观性,不符合信息化时代项目招投标的良序发展。

技术实现思路

[0003]本专利技术的主要目的在于克服现有技术中的上述缺陷,提出一种投标材料中竞标者信息自动化分析方法,通过对投标材料进行版面结构分析与文字图像表格识别,对其中影响供应商资质判断的信息进行自动化提取和解析,再通过评分机制筛选出最符合当前项目要求的竞标者,同时引入智慧问答功能,实现招投标过程中竞标者信息的自动化审核,高效便捷、判断精准,提高了审核效率和招投标过程中的自动化流程。
[0004]本专利技术采用如下技术方案:
[0005]一种投标材料中竞标者信息自动化分析方法,包括:
[0006]将投标材料PDF文件进行编号、扫描与格式转换,得到格式转换后的文档;
[0007]对格式转换后的文档,进行版面结构分析,将文档划分为文本区域、表格区域和图片区域;
[0008]分别对文本区域、表格区域和图片区域进行文本检测识别、表格结构识别以及图片识别,得到识别结果;
[0009]将识别结果输入机器学习方法进行回归分析,预测出标签分数值;
[0010]基于嵌入式数据库SQLite搭建RAT

SQL模型,实现智能问答,所述问答内容包括版面结构分析、识别结果和标签分数值。
[0011]具体地,将投标材料PDF文件进行编号、扫描与格式转换,得到格式转换后的文档,包括:
[0012]设置统一的编号方式对各个PDF文件进行命名,并且对各个PDF文件进行逐页高清扫描,并转换为png图片格式。
[0013]具体地,对格式转换后的文档,进行版面结构分析,将文档划分为文本区域、表格区域和图片区域,具体包括:
[0014]采用版面结构检测算法Structure

Det检测划分文本区域、表格区域和图片区域;
[0015]版面结构检测算法Structure

Det由特征提取器ResNet

101残差网络、特征融合网络Balanced Feature Pyramid Network以及任务对齐一阶段检测头组成;
[0016]具体地,所述任务对齐一阶段检测头具体为:
[0017]任务对齐一阶段检测头实现分类和定位的对齐,包含任务对齐头部和任务对齐学习模块;
[0018]任务对齐头部首先会对特征融合网络传来的输出特征图进行预测,得到类别概率和定位偏移量;并将得到的类别概率和定位偏移量再通过任务对齐学习模块在特征图的每个锚点上计算出一致性度量值;最后任务对齐头部相应地调整分类和定位结果的分布,通过对类别概率和定位偏移量参量进行学习,获取更高的类别分数值和更准确的定位检测框。
[0019]具体地,分别对文本区域、表格区域和图片区域进行文本检测识别、表格结构识别以及图片识别,具体包括:
[0020]对于文本和图片识别,采用差分二值化网络实现,利用MobileNetV3和双向LSTM获取特征表示,然后使用全连接层和Softmax作为分类器获取字符串中每个位置属于某个字符类别的概率值,概率最大的类别会进行解码作为结果输出;
[0021]对于表格结构识别,在文本检测识别的基础上,获取每行文本检测框的四个顶点坐标及对应的文字结果;利用结合注意力机制的空间变形网络和序列识别网络输出表格的HTML结构信息及每个文本单元格的四个顶点的坐标信息,其中注意力机制通过两个线性Linear层计算每个单元格的位置权重实现。
[0022]具体地,将识别结果输入机器学习方法进行回归分析,预测出标签分数值,具体包括:
[0023]将识别结果生成csv文件,包含所要判断对象,并在训练集中增加一列分数值作为标签,利用机器学习方法CatBoost进行回归分析,对输入模型的待判断对象进行判断,并预测出分数值。
[0024]具体地,基于嵌入式数据库SQLite搭建RAT

SQL模型,实现智能问答,所述问答内容包括版面结构分析、识别结果和标签分数值,具体为:
[0025]基于嵌入式数据库SQLite搭建RAT

SQL模型,并在RAT

SQL模型进行Text2SQL语义解析任务,所述RAT

SQL模型中采用关系感知的自注意力机制,在编码中综合考虑显式关系和隐式关系。
[0026]本专利技术实施例另一方面提供一种投标材料中竞标者信息自动化分析系统,包括:
[0027]将投标材料PDF文件进行编号、扫描与格式转换,得到格式转换后的文档;
[0028]对格式转换后的文档,进行版面结构分析,将文档划分为文本区域、表格区域和图片区域;
[0029]分别对文本区域、表格区域和图片区域进行文本检测识别、表格结构识别以及图片识别,得到识别结果;
[0030]将识别结果输入机器学习方法进行回归分析,预测出标签分数值;
[0031]基于嵌入式数据库SQLite搭建RAT

SQL模型,实现智能问答,所述问答内容包括版面结构分析、识别结果和标签分数值。
[0032]由上述对本专利技术的描述可知,与现有技术相比,本专利技术具有如下有益效果:
[0033](1)本专利技术提供一种投标材料中竞标者信息自动化分析方法,将投标材料PDF文件进行编号、扫描与格式转换,得到格式转换后的文档;对格式转换后的文档,进行版面结构
分析,将文档划分为文本区域、表格区域和图片区域;分别对文本区域、表格区域和图片区域进行文本检测识别、表格结构识别以及图片识别,得到识别结果;将识别结果输入机器学习方法进行回归分析,预测出标签分数值;基于嵌入式数据库SQLite搭建RAT

SQL模型,实现智能问答,所述问答内容包括版面结构分析、识别结果和标签分数值;本专利技术提供的方法,通过对投标材料进行版面结构分析与文字图像表格识别,对其中影响供应商资质判断的信息进行自动化提取和解析,再通过评分机制筛选出最符合当前项目要求的竞标者,同时引入智慧问答功能,实现招投标过程中竞标者信息的自动化审核,且高效便捷、判断精准,提高了审核效率和招投标过程中的自动化流程。
[0034](2)本专利技术提供的方法,相比于现有技术方法,可以方便、准确、快速、智能地实现对投标材料中竞标者信息进行审批,且能够实现对投标材料中竞标者信息实现自动化分析,简化处理流程、提升判断效率,而且可以轻松迁移运本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种投标材料中竞标者信息自动化分析方法,其特征在于,包括:将投标材料PDF文件进行编号、扫描与格式转换,得到格式转换后的文档;对经过格式转换后的文档,进行版面结构分析,将文档划分为文本区域、表格区域和图片区域;分别对文本区域、表格区域和图片区域进行文本检测识别、表格结构识别以及图片识别,得到识别结果;将识别结果利用机器学习方法进行回归分析,预测出标签分数值;基于嵌入式数据库SQLite搭建RAT

SQL模型,实现智能问答,所述问答内容包括版面结构分析、识别结果和标签分数值。2.根据权利要求1所述的一种投标材料中竞标者信息自动化分析方法,其特征在于,将投标材料PDF文件进行编号、扫描与格式转换,得到格式转换后的文档,包括:设置统一的编号方式对各个PDF文件进行命名,并且对各个PDF文件进行逐页高清扫描,并转换为png图片格式。3.根据权利要求1所述的一种投标材料中竞标者信息自动化分析方法,其特征在于,对格式转换后的文档,进行版面结构分析,将文档划分为文本区域、表格区域和图片区域,具体包括:采用版面结构检测算法Structure

Det检测划分文本区域、表格区域和图片区域;版面结构检测算法Structure

Det由特征提取器ResNet

101残差网络、特征融合网络Balanced Feature Pyramid Network以及任务对齐一阶段检测头组成。4.根据权利要求1所述的一种投标材料中竞标者信息自动化分析方法,其特征在于,所述任务对齐一阶段检测头具体为:任务对齐一阶段检测头实现分类和定位的对齐,包含任务对齐头部和任务对齐学习模块;任务对齐头部首先会对特征融合网络传来的输出特征图进行预测,得到类别概率和定位偏移量;并将得到的类别概率和定位偏移量再通过任务对齐学习模块在特征图的每个锚点上计算出一致性度量值;最后任务对齐头部相应地调整分类和定位结果的分布,通过对类别概率和定位偏移量参量进行学习。5.根据权利要求1所述的一种投标材料中竞标者信息自动化分析方法,其特征在于,分别对文本区域、表格区域和图片区域进行文本检测识别、表格结构识别以及图片识别,具体包括:对于文本和图片识别,采用差分二值化网络实现,利用M...

【专利技术属性】
技术研发人员:陈坤郭素芹梁海涛林益珊林瑞安吴高杰郑家林
申请(专利权)人:福建亿力电力科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1