一种算量表格识别方法、系统、电子设备及存储介质技术方案

技术编号:33735238 阅读:12 留言:0更新日期:2022-06-08 21:31
本发明专利技术提出一种算量表格识别方法、系统、电子设备及存储介质。其中,方法包括:根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;根据所述第一列信息和列头词向量,得到第二列信息;基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息;基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测,并输出预测结果的结构化数据。本发明专利技术的方案,自动识别各种类型算量表格,快速准确的输出结构化数据及将输出的结构化数据应实现由EXCEL表自动录入算量表操作。录入算量表操作。录入算量表操作。

【技术实现步骤摘要】
一种算量表格识别方法、系统、电子设备及存储介质


[0001]本专利技术属于工程表格识别领域,尤其涉及一种算量表格识别方法、系统、电子设备及存储介质。

技术介绍

[0002]NLP:自然语言处理,跨越从人工智能到计算语言学多个领域,实现与计算机之间用自然语言进行通信。计算机通过准确并快速地分析处理大量的自然语言语料库,从而理解和从文本里提取信息等,主要应用于信息分析、语音识别、机器翻译等方面。
[0003]词向量:NLP中通常把每个词表示为一个很长的向量把语言数学化,也就是使用向量表示文本。如本产品采用的是三百维度的词向量,每个词汇为300*1的向量,每个位置表示词汇在这个维度所占的权重。可以通过表达词的含义,词汇之间的内在联系,实现对词语更精确的描述。
[0004]当前产品主要解决以OCR识别图纸中的算量表格生成的EXCEL为输入,通过NLP和EXCEL相关算法来识别单元格的业务含义,抽取表格中的算量内容;输出的结构化数据用于后续的算量表录入。
[0005]结构化数据内容包括:
[0006]1、EXCEL中SHEET工作表信息;
[0007]2、识别区域类型及区域在EXCEL中行、列的起止范围。
[0008]现有技术:
[0009]目前基建行业算量主要依赖于EXCEL表格算量,若希望使用算量工具自动算量,必须手动将EXCEL算量表进行录入。录入的方式需要手动复制EXCEL内容,或者手动框选出EXCEL内容区域并需要指定区域类型生成结构化数据。
[0010]现有技术的缺点:
[0011]算量图纸中存在大量表格,若通过手动录入结构化信息或手动复制粘贴,耗时耗力且容易出现误差。特别是多种类型的表格会同时出现,若不采用自动识别时,会造成不可预估的风险,无法保证准确率,定位错误难上加难。而本产品通过NLP和EXCEL相关算法实现自动识别各种类型算量表格,既能保证正确率又能降低各种成本。

技术实现思路

[0012]为解决上述技术问题,本专利技术提出一种算量表格识别方法、系统、电子设备及存储介质的技术方案,以解决上述技术问题。
[0013]本专利技术第一方面公开了一种算量表格识别方法,所述方法包括:
[0014]步骤S1、获取算量表格的训练数据,应用所述训练数据训练识别模型,得到训练后的识别模型;
[0015]步骤S2、确定输入EXCEL数据的输入形式;
[0016]步骤S3、对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位
置;
[0017]步骤S4、根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;根据所述第一列信息和列头词向量,得到第二列信息;
[0018]步骤S5、基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息;
[0019]步骤S6、基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测;
[0020]步骤S7、根据预测结果,输出包含不同分类区域及其起止位置的结构化数据。
[0021]根据本专利技术第一方面的方法,在所述步骤S3中,所述对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置的具体方法包括:
[0022]步骤S3.1、获取列头的起始位置:基于纵向单元格合并位置及当前行为空单元格占比是否超过当前行单元格总数的百分之二十,确定列头的起始位置;
[0023]步骤S3.2、获取列头的结束位置:基于对每列的每个单元格处理,确定列头的结束位置。
[0024]根据本专利技术第一方面的方法,在所述步骤S3中,所述基于对每列的每个单元格处理,确定列头的结束位置的具体方法包括:
[0025]步骤S3.2.1、对SHEET中的所有列进行遍历,再遍历列中的每个单元格,确定每个单元格属性值类型;找到当前列非空单元格最后一次类型变化获取当前列列头的初始结束位置;
[0026]步骤S3.2.2、当前行单元格属性值为递增的整数或整型浮点数,且当前行为空单元格占比不超过当前行单元格总数的百分之二十,更新初始结束位置,得到更新后的结束位置;
[0027]步骤S3.2.3、当存在单元格合并函数,即merge_cells时,取出纵向合并行数量,与所述更新后的结束位置比较,若大于所述更新后的结束位置则再次更新结束位置。
[0028]根据本专利技术第一方面的方法,在所述步骤S4中,所述根据所述第一列信息和列头词向量,得到第二列信息的具体方法包括:
[0029]将所述列头词向量作为一个属性添加到所述第一列信息中,得到第二列信息。
[0030]根据本专利技术第一方面的方法,在所述步骤S5中,所述根据所述第二列信息和列表示向量,得到第三列信息的具体方法包括:
[0031]将所述第二列信息中的所述列头词向量替换为列表示向量,得到第三列信息。
[0032]根据本专利技术第一方面的方法,在所述步骤S6中,所述基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测的具体方法包括:
[0033]步骤S6.1、基于所述训练后的识别模型预测出每一列的第一预测分类及准确率;
[0034]步骤S6.2、根据所述第三列信息及业务规则划分表格分类和所述第一预测分类及准确率,对不同类型的表格及其业务规则重新预测分类,并去除准确率较低或无需标记的列预测,得到第二列预测分类;
[0035]步骤S6.3、将列头、所述第二列预测分类和行列号进行合并,再次结合业务规则,
对所述第二列预测分类为单位、算量内容和规格型号的列重新预测分类,得到列头的预测分类结果。
[0036]根据本专利技术第一方面的方法,在所述步骤S7中,根据业务规则及单元格内容,列头按照单元格、内容按照列划分为19种类型,分别为分部分项、部位、部位数量、起讫桩号、部位位置、属性名称、属性值、属性单位、算量内容、算量内容单位、编号/位置、规格型号、工程量、图号、说明、钢筋直径、单根长、根数和米重。
[0037]本专利技术第二方面公开了一种算量表格识别系统,所述系统包括:
[0038]第一处理模块,被配置为,获取算量表格的训练数据,应用所述训练数据训练识别模型,得到训练后的识别模型;
[0039]第二处理模块,确定输入EXCEL数据的输入形式;
[0040]第三处理模块,被配置为,对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置;
[0041]第四处理模块,被配置为,根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;所述第一列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种算量表格识别方法,其特征在于,所述方法包括:步骤S1、获取算量表格的训练数据,应用所述训练数据训练识别模型,得到训练后的识别模型;步骤S2、确定输入EXCEL数据的输入形式;步骤S3、对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置;步骤S4、根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;根据所述第一列信息和列头词向量,得到第二列信息;步骤S5、基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息;步骤S6、基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测;步骤S7、根据预测结果,输出包含不同分类区域及其起止位置的结构化数据。2.根据权利要求1所述的一种算量表格识别方法,其特征在于,在所述步骤S3中,所述对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置的具体方法包括:步骤S3.1、获取列头的起始位置:基于纵向单元格合并位置及当前行为空单元格占比是否超过当前行单元格总数的百分之二十,确定列头的起始位置;步骤S3.2、获取列头的结束位置:基于对每列的每个单元格处理,确定列头的结束位置。3.根据权利要求2所述的一种算量表格识别方法,其特征在于,在所述步骤S3中,所述基于对每列的每个单元格处理,确定列头的结束位置的具体方法包括:步骤S3.2.1、对SHEET中的所有列进行遍历,再遍历列中的每个单元格,确定每个单元格属性值类型;找到当前列非空单元格最后一次类型变化获取当前列列头的初始结束位置;步骤S3.2.2、当前行单元格属性值为递增的整数或整型浮点数,且当前行为空单元格占比不超过当前行单元格总数的百分之二十,更新初始结束位置,得到更新后的结束位置;步骤S3.2.3、当存在单元格合并函数,即merge_cells时,取出纵向合并行数量,与所述更新后的结束位置比较,若大于所述更新后的结束位置则再次更新结束位置。4.根据权利要求1所述的一种算量表格识别方法,其特征在于,在所述步骤S4中,所述根据所述第一列信息和列头词向量,得到第二列信息的具体方法包括:将所述列头词向量作为一个属性添加到所述第一列信息中,得到第二列信息。5.根据权利要求1所述的一种算量表格识别方法,其特征在于,在所述步骤S5中,所述根据所述第二列信息和列表示向量,得到第三列信息的具体方法包括:将所述第二列信息中的所述列头...

【专利技术属性】
技术研发人员:杨万勇杨耀庭华健王钰栾巨张树勇杨名渡
申请(专利权)人:北京梦诚科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1