当前位置: 首页 > 专利查询>国网重庆市电力公司国网重庆招标有限公司专利>正文

一种招标文件解析表格抽取方法技术

技术编号：37140057 阅读：14 留言：0更新日期：2023-04-06 21:44

本发明专利技术涉及一种招标文件解析表格抽取方法，包括如下步骤：确定关键字段，选择若干包含有关键字段的招标文档；构建表格抽取模型；将若干包含有关键字段的招标文档作为数据处理模块的输入，输出得到带有标签信息的正样本集和负样本集；构建训练集和测试集；利用训练集对文本分类模块进行训练学习，并用测试集进行验证优化；最终得到训练好的表格抽取模型。本发明专利技术方法可以准确快速的识别出行业招标文件中的关键表格信息，尤其是在有其他信息干扰的情况下，也可以准确的识别出所需的相关字段。也可以准确的识别出所需的相关字段。也可以准确的识别出所需的相关字段。

全部详细技术资料下载

【技术实现步骤摘要】
一种招标文件解析表格抽取方法

[0001]本专利技术涉及计算机机器学习、图像识别领域，特别涉及一种招标文件解析表格抽取方法。

技术介绍

[0002]在当前电力行业领域，大量的项目以招投标的方式进行，而招标采购的文件中所包含的文本数据有很大分析及研究价值，但是这些采购和公告文件，往往以文档的形式存储，这些文档型数据需要大量的人工成本梳理，理解，整理，提取信息才能实际使用。
[0003]随着人工智能技术的发展，文本内容抽取技术已经逐渐成熟，很多业务需求场景可以用机器替代部分人工劳动。通过深度学习算法训练文字抽取逻辑，利用模型自动抽取所需内容信息，从而将非结构化文档数据，变为可统计和分析的结构化数据存储，从而使业务人员快速的获取大量招标文件内的关注信息点，以及所需的有价值数据。
[0004]在标书文件中，表格是一种更加清晰的表述方式，大量的有价值信息往往存储在表格内。因此实际任务中如何能将表格中的信息准确高效的抽取出来，往往会决定一篇文档整体的抽取效果。表格抽取有多个场景，文档中所有表格均需抽取，文档中部分表格需要抽取，文档中全量或部分表格中的部分字段或单元格需要抽取。全量信息识别和抽取近似文档内容抽取，有一些相对成熟的技术支持，比如基于序列标注技术通过上下文来学习词性，文本特征，词语顺序等。但是，部分表格抽取或表格中部分内容抽取，其他部分内容均为干扰项，或者一篇文档有多个表格，只有个别表格是有效信息，其他表格均为干扰信息，这样就会造成在抽取信息时出现歧义、错位等问题。

技术实现思路

[00...

【技术保护点】

【技术特征摘要】
1.一种招标文件解析表格抽取方法，其特征在于：包括如下步骤：S100：确定关键字段，选择若干包含有关键字段的招标文档；所述招标文档中含有表格及表格中的单元格属性信息；所述单元格属性信息包括文本数据和结构化数据；S200：构建表格抽取模型，所述表格抽取模型包括数据处理模块和文本分类模块；所述数据处理模块对所述单元格属性信息标注标签，将带有关键字段的单元格标注正样本的标签，其余单元格标注负样本的标签；所述文本分类模块包括BERT预训练模块和逻辑回归分类器；S300：将若干包含有关键字段的招标文档作为数据处理模块的输入，输出得到带有标签的正样本集和负样本集；分别从正样本集和负样本集中随机选取部分数据作为训练集，训练集中共有N个训练样本，所述训练集中的每个训练样本包括单元格的标签、文本数据和结构化数据；正样本集和负样本集中的剩余部分数据作为测试集，所述测试集中的测试样本包括文本数据和结构化数据；S400：利用训练集对文本分类模块进行训练：S410：令i＝1；S420：将第i个训练样本中的单元格标签和文本数据嵌入到BERT预训练模块的多维向量空间中，得到第i个训练样本对应的文本向量；S430：将第i个训练样本对应的文本向量和第i个训练样本中的结构化数据作为逻辑回归分类器的输入；S440：令i＝i+1，当i>N，得到训练后的文本分类模块，并执行下一步；否则，返回S410；S450：将测试集作为训练后的文本分类模块的输入，输出为所有测试样本的预测标签；S460：...

【专利技术属性】
技术研发人员：陈丽娟，徐世阳，杨德胜，张丽娟，向洪伟，巫俊洁，敖翔，史春胜，邬默，昝云飞，纪传俊，邹安杰，张亚林，
申请(专利权)人：国网重庆市电力公司国网重庆招标有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人