一种招标文件解析表格抽取方法技术

技术编号:37140057 阅读:14 留言:0更新日期:2023-04-06 21:44
本发明专利技术涉及一种招标文件解析表格抽取方法,包括如下步骤:确定关键字段,选择若干包含有关键字段的招标文档;构建表格抽取模型;将若干包含有关键字段的招标文档作为数据处理模块的输入,输出得到带有标签信息的正样本集和负样本集;构建训练集和测试集;利用训练集对文本分类模块进行训练学习,并用测试集进行验证优化;最终得到训练好的表格抽取模型。本发明专利技术方法可以准确快速的识别出行业招标文件中的关键表格信息,尤其是在有其他信息干扰的情况下,也可以准确的识别出所需的相关字段。也可以准确的识别出所需的相关字段。也可以准确的识别出所需的相关字段。

【技术实现步骤摘要】
一种招标文件解析表格抽取方法


[0001]本专利技术涉及计算机机器学习、图像识别领域,特别涉及一种招标文件解析表格抽取方法。

技术介绍

[0002]在当前电力行业领域,大量的项目以招投标的方式进行,而招标采购的文件中所包含的文本数据有很大分析及研究价值,但是这些采购和公告文件,往往以文档的形式存储,这些文档型数据需要大量的人工成本梳理,理解,整理,提取信息才能实际使用。
[0003]随着人工智能技术的发展,文本内容抽取技术已经逐渐成熟,很多业务需求场景可以用机器替代部分人工劳动。通过深度学习算法训练文字抽取逻辑,利用模型自动抽取所需内容信息,从而将非结构化文档数据,变为可统计和分析的结构化数据存储,从而使业务人员快速的获取大量招标文件内的关注信息点,以及所需的有价值数据。
[0004]在标书文件中,表格是一种更加清晰的表述方式,大量的有价值信息往往存储在表格内。因此实际任务中如何能将表格中的信息准确高效的抽取出来,往往会决定一篇文档整体的抽取效果。表格抽取有多个场景,文档中所有表格均需抽取,文档中部分表格需要抽取,文档中全量或部分表格中的部分字段或单元格需要抽取。全量信息识别和抽取近似文档内容抽取,有一些相对成熟的技术支持,比如基于序列标注技术通过上下文来学习词性,文本特征,词语顺序等。但是,部分表格抽取或表格中部分内容抽取,其他部分内容均为干扰项,或者一篇文档有多个表格,只有个别表格是有效信息,其他表格均为干扰信息,这样就会造成在抽取信息时出现歧义、错位等问题。

技术实现思路

[0005]针对现有技术存在的上述问题,本专利技术要解决的技术问题是:如何更准确的抽取招标文件中的表格信息。
[0006]为解决上述技术问题,本专利技术采用如下技术方案:
[0007]一种招标文件解析表格抽取方法,包括如下步骤:
[0008]S100:确定关键字段,选择若干包含有关键字段的招标文档;所述招标文档中含有表格及表格中的单元格属性信息;所述单元格属性信息包括文本数据和结构化数据;
[0009]S200:构建表格抽取模型,所述表格抽取模型包括数据处理模块和文本分类模块;
[0010]所述数据处理模块对所述单元格属性信息标注标签,将带有关键字段的单元格标注正样本的标签,其余单元格标注负样本的标签;
[0011]所述文本分类模块包括BERT预训练模块和逻辑回归分类器;
[0012]S300:将若干包含有关键字段的招标文档作为数据处理模块的输入,输出得到带有标签的正样本集和负样本集;
[0013]分别从正样本集和负样本集中随机选取部分数据作为训练集,训练集中共有N个训练样本,所述训练集中的每个训练样本包括单元格的标签、文本数据和结构化数据;正样
本集和负样本集中的剩余部分数据作为测试集,所述测试集中的测试样本包括文本数据和结构化数据;
[0014]S400:利用训练集对文本分类模块进行训练:
[0015]S410:令i=1;
[0016]S420:将第i个训练样本中的单元格标签和文本数据嵌入到BERT预训练模块的多维向量空间中,得到第i个训练样本对应的文本向量;
[0017]S430:将第i个训练样本对应的文本向量和第i个训练样本中的结构化数据作为逻辑回归分类器的输入;
[0018]S440:令i=i+1,当i>N,得到训练后的文本分类模块,并执行下一步;否则,返回S410;S450:将测试集作为训练后的文本分类模块的输入,输出为所有测试样本的预测标签;
[0019]S460:根据所有测试样本的预测标签计算训练后的文本分类模块的预测准确率和样本召回率,当预测准确率和样本召回率都超过70%时,则得到最终训练好的表格抽取模型;否则,更新文本分类模块的参数,并返回S410。
[0020]作为优选,所述S200中数据处理模块还包括对非常规格式数据的处理,包括对于非常规格式数据进行格式标准化,所述格式标准化包括有标题字段,表头,首行和首列。
[0021]非常规格式数据有时会出现图片、表情符号或者以标点符号组成的其他字节符号等,出现类似的字符时,需要对其进行格式标准化操作,这样可以正确的处理表格的内容,不至于因判断失误,导致失去单元格或者整部表格的关键信息。
[0022]作为优选,所述S200中对所述单元格属性信息标注标签的规则如下:
[0023]对招标文档进行表格类型判断,并根据表格类型执行单元格属性信息标注标签操作,具体如下:
[0024]若判断表格类型为单表格时,抽取该单表格中包含有关键字段的单元格属性信息作为正样本并进行标签,其余单元格属性信息作为负样本并进行标签;
[0025]若判断表格属性为多表格时,抽取该多表格中包含有关键字段的单表格,然后执行单表格标注标签规则。
[0026]对文档中的表格先进行划分,有助于提高运算效率和标注准确率。
[0027]作为优选,所述S460中计算样本预测准确率和正样本召回率具体内容如下:
[0028]S461:计算样本预测准确率Accuracy,具体表达式如下:
[0029][0030]其中,TP代表样本标签的真实值与预测值都为正,TN代表样本标签的真实值与预测值都为负,FN代表样本标签的真实值为正而样本标签的预测值为负,FP代表样本标签的真实值为负而样本标签的预测值为正;
[0031]S462:计算样本召回率Recall,具体表达式如下:
[0032][0033]相对于现有技术,本专利技术至少具有如下优点:
[0034]1.本技术方案通过使用数据处理,将关键字段进行标签处理得到正负样本,利用BERT预测模型和逻辑回归分类器对含有相关字段的正负样本进行学习,以保证模型尽可能
的获得和学习到相关字段的关键信息;然后通过逻辑回归分类器的分类结果可以得到正负样本抽取分类结果,而其中的正样本对应的表格就是本模型最终的表格抽取结果。
[0035]2.本技术方案可以对根据关键字段提前得到需要抽取的表格信息,无需在抽取过程中遍历所有文档,可以更加快速的完成表格抽取任务。
[0036]4.提高抽取任务的准确性,从划定范围内抽取效果远优于从全文范围抽取结果。
[0037]5.本专利技术模型可以根据不同的实际情况选择合适的算法模型进行替换,抽取效果不完全依赖单一的序列模型,通过优化分类模型来提升抽取效果优化,可调配操作的方向更丰富。
附图说明
[0038]图1为本专利技术方法技术流程图。
具体实施方式
[0039]下面对本专利技术作进一步详细说明。
[0040]参见图1,一种招标文件解析表格抽取方法,包括如下步骤:
[0041]S100:确定关键字段,选择若干包含有关键字段的招标文档,所述关键字段为包含在招标文档中需要被抽取的目标信息,该关键字段由人为确定,比如设备型号、关键字节利润表等;所述招标文档中含有表格及表格中的单元格属性信息;所述单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种招标文件解析表格抽取方法,其特征在于:包括如下步骤:S100:确定关键字段,选择若干包含有关键字段的招标文档;所述招标文档中含有表格及表格中的单元格属性信息;所述单元格属性信息包括文本数据和结构化数据;S200:构建表格抽取模型,所述表格抽取模型包括数据处理模块和文本分类模块;所述数据处理模块对所述单元格属性信息标注标签,将带有关键字段的单元格标注正样本的标签,其余单元格标注负样本的标签;所述文本分类模块包括BERT预训练模块和逻辑回归分类器;S300:将若干包含有关键字段的招标文档作为数据处理模块的输入,输出得到带有标签的正样本集和负样本集;分别从正样本集和负样本集中随机选取部分数据作为训练集,训练集中共有N个训练样本,所述训练集中的每个训练样本包括单元格的标签、文本数据和结构化数据;正样本集和负样本集中的剩余部分数据作为测试集,所述测试集中的测试样本包括文本数据和结构化数据;S400:利用训练集对文本分类模块进行训练:S410:令i=1;S420:将第i个训练样本中的单元格标签和文本数据嵌入到BERT预训练模块的多维向量空间中,得到第i个训练样本对应的文本向量;S430:将第i个训练样本对应的文本向量和第i个训练样本中的结构化数据作为逻辑回归分类器的输入;S440:令i=i+1,当i>N,得到训练后的文本分类模块,并执行下一步;否则,返回S410;S450:将测试集作为训练后的文本分类模块的输入,输出为所有测试样本的预测标签;S460:...

【专利技术属性】
技术研发人员:陈丽娟徐世阳杨德胜张丽娟向洪伟巫俊洁敖翔史春胜邬默昝云飞纪传俊邹安杰张亚林
申请(专利权)人:国网重庆市电力公司国网重庆招标有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1