基于NLP对造价清单结构化识别的系统及方法技术方案

技术编号:39291642 阅读:10 留言:0更新日期:2023-11-07 10:59
本发明专利技术基于NLP对造价清单结构化识别的系统及方法,涉及造价清单识别技术领域,利用文本采集模块将造价清单转换成计算机能处理的文本,利用预处理模块进行去噪处理,拆分成句,进一步拆分成词的序列,并对词的序列进行冗余字词和符号过滤,获得词组,利用区域定位模块在用于在造价清单上生成不同长度的锚点矩形框,利用文本识别模块抽取区域定位模块定位的区域中的词组,并进行词的属性分类,建立造价清单专业词库,利用结构化分词模块根据词的属性分类建立结构化的知识图谱,并根据所述结构化的知识图谱,对造价清单进行识别,获得结构化的词的属性描述,解决了现有技术中不能对造价清单进行结构化识别的问题,本发明专利技术适用于造价清单结构化识别。价清单结构化识别。价清单结构化识别。

【技术实现步骤摘要】
基于NLP对造价清单结构化识别的系统及方法


[0001]本专利技术涉及造价清单识别
,特别涉及基于NLP对造价清单结构化识别的系统及方法。

技术介绍

[0002]工程造价清单是表现建设工程的分部分项工程项目、措施项目、其他项目、规费项目和税金项目名称和相应数量的明细清单。在实际的操作使用过程中,需要对造价清单进行结构化识别。

技术实现思路

[0003]本专利技术所解决的技术问题:提供一种基于NLP对造价清单结构化识别的系统及方法,解决现有技术中不能对造价清单进行结构化识别的问题。
[0004]本专利技术解决上述技术问题采用的技术方案:基于NLP对造价清单结构化识别的系统,包括文本采集模块、预处理模块、区域定位模块、文本识别模块和结构化分词模块;
[0005]所述文本采集模块,用于将造价清单切割成图片进行BASE64编码后,再使用光学字符识别,获得计算机能处理的文本;
[0006]所述预处理模块,用于对文本进行去噪处理,并将去噪后的文本拆分成句,再将句拆分成词的序列,并对词的序列进行冗余字词和符号过滤,获得词组;
[0007]区域定位模块,用于在造价清单上生成不同长度的锚点矩形框,所述锚点矩形框中至少包含词组的中任意一个词;
[0008]所述文本识别模块,用于抽取区域定位模块定位的区域中的词组,并进行词的属性分类,建立造价清单专业词库;
[0009]所述结构化分词模块,根据词的属性分类,建立结构化的知识图谱,并根据所述结构化的知识图谱,对造价清单进行识别,获得结构化的词的属性描述。
[0010]进一步的,所述切割成图片包括错切变换、缩放变换、翻转变换和平移变换;所述文本采集模块还用于对切割成的图片进行运用卷积神经提取卷积特征。
[0011]进一步的,所述将句拆分成词的序列所采用的原则为:词出现的频次优先,最大词次之。
[0012]进一步的,所述区域定位模块还利用交并比修正矩形框的定位精度,利用神经网络的每个神经获得矩形框数据并通过前向传播,将输入的矩形框的数据进行一层层计算得到预测值,再通过反向传播,调整参数,缩小预测值与真实值的差异,实现误差的梯度下降。
[0013]进一步的,所述文本识别模块采用NLP对词的属性分类,NLP先将文本转成词序列,再根据上下文内容的词频及词的最大化词原则进行分词,然后再根据词的特征模板对词属性分类。
[0014]进一步的,所述词的属性包括应用领域、作用对象、施工工艺、工序、工法、目的地、关联机具和关联地质环境。
[0015]进一步的,所述去噪处理包括去除角标和HEML标签。
[0016]基于NLP对造价清单结构化识别的方法,包括以下步骤:
[0017]S01、获取造价清单,将造价清单进行BASE64编码,利用光学字符识别,将造价清单转换为计算机能够处理的文本;
[0018]S02、对文本进行去噪处理,然后拆分成句,再将句拆分成词的序列,过滤掉冗余字词和符号,获得词组;
[0019]S03、在造价清单上生成不同长度的锚点矩形框,所述锚点矩形框中至少包含词组的中任意一个词;
[0020]S04、抽取锚点矩形框中的词组,并进行词的属性分类,建立造价清单专业词库;
[0021]S05、根据词的属性分类,建立结构化的知识图谱,并根据所述结构化的知识图谱,对造价清单进行识别,获得结构化的词的属性描述。
[0022]本专利技术的有益效果:本专利技术基于NLP对造价清单结构化识别的系统及方法,利用文本采集模块将造价清单转换成计算机能处理的文本,利用预处理模块进行去噪处理,拆分成句,进一步拆分成词的序列,并对词的序列进行冗余字词和符号过滤,获得词组,利用区域定位模块在用于在造价清单上生成不同长度的锚点矩形框,利用文本识别模块抽取区域定位模块定位的区域中的词组,并进行词的属性分类,建立造价清单专业词库,利用结构化分词模块根据词的属性分类建立结构化的知识图谱,并根据所述结构化的知识图谱,对造价清单进行识别,获得结构化的词的属性描述,解决了现有技术中不能对造价清单进行结构化识别的问题。
附图说明
[0023]附图1是本专利技术基于NLP对造价清单结构化识别的系统的框图。
[0024]附图2是本专利技术基于NLP对造价清单结构化识别的方法流程图。
具体实施方式
[0025]本专利技术基于NLP对造价清单结构化识别的系统,如附图1所示,包括文本采集模块、预处理模块、区域定位模块、文本识别模块和结构化分词模块;
[0026]所述文本采集模块,用于将造价清单切割成图片进行BASE64编码后,再使用光学字符识别,获得计算机能处理的文本;
[0027]具体的,切割成图片包括错切变换、缩放变换、翻转变换和平移变换;所述文本采集模块还用于对切割成的图片进行运用卷积神经提取卷积特征。
[0028]所述预处理模块,用于对文本进行去噪处理,并将去噪后的文本拆分成句,再将句拆分成词的序列,并对词的序列进行冗余字词和符号过滤,获得词组;
[0029]具体的,将句拆分成词的序列所采用的原则为:词出现的频次优先,最大词次之;所述去噪处理包括去除角标和HEML标签,比如,将开挖土方并运输到坝顶,根据词出现的频次优先,最大词次之的原则,拆分为“开挖土方”、“并”、“运输”、“到”和“坝顶”,并将“并”和“到”过滤掉,获得词组“开挖土方”、“运输”和“坝顶”。
[0030]区域定位模块,用于在造价清单上生成不同长度的锚点矩形框,所述锚点矩形框中至少包含词组的中任意一个词;
[0031]具体的,所述区域定位模块还利用交并比修正矩形框的定位精度,利用神经网络的每个神经获得矩形框数据并通过前向传播,将输入的矩形框的数据进行一层层计算得到预测值,再通过反向传播,调整参数,缩小预测值与真实值的差异,实现误差的梯度下降。比如锚点矩形框中有“开挖”二字,则认定包含词组的中任意一个词,对锚点矩形框的区域定位进行分类损失与回归损失分析,以修正区域定位的精度;
[0032]所述文本识别模块,用于抽取区域定位模块定位的区域中的词组,并进行词的属性分类,建立造价清单专业词库;
[0033]具体的,所述文本识别模块采用NLP对词的属性分类,NLP先将文本转成词序列,再根据上下文内容的词频及词的最大化词原则进行分词,然后再根据词的特征模板对词属性分类;所述词的属性包括应用领域、作用对象、施工工艺、工序、工法、目的地、关联机具和关联地质环境。按词的属性分类如描述工作内容的“土方开挖”和“运输”,描述目的地的“坝顶”,描述运输距离的“运距”,描述应用领域的“隧道”和“建筑”等,描述作用对象的“浅基坑”和“深基坑”等,描述施工工艺的“开挖”和“浇筑”等,描述工序的“开槽支撑”和“先撑后挖”等,描述关联机具的“货车”和“挖机”等,描述地址环境的“泥土”和“碎石”等。
[0034]所述结构化分词模块,根据词的属性分类,建立结构化的知识图谱,并根据所述结构化的知识图谱本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于NLP对造价清单结构化识别的系统,其特征在于,包括文本采集模块、预处理模块、区域定位模块、文本识别模块和结构化分词模块;所述文本采集模块,用于将造价清单切割成图片进行BASE64编码后,再使用光学字符识别,获得计算机能处理的文本;所述预处理模块,用于对文本进行去噪处理,并将去噪后的文本拆分成句,再将句拆分成词的序列,并对词的序列进行冗余字词和符号过滤,获得词组;区域定位模块,用于在造价清单上生成不同长度的锚点矩形框,所述锚点矩形框中至少包含词组的中任意一个词;所述文本识别模块,用于抽取区域定位模块定位的区域中的词组,并进行词的属性分类,建立造价清单专业词库;所述结构化分词模块,根据词的属性分类,建立结构化的知识图谱,并根据所述结构化的知识图谱,对造价清单进行识别,获得结构化的词的属性描述。2.根据权利要求1所述的基于NLP对造价清单结构化识别的系统,其特征在于,所述切割成图片包括错切变换、缩放变换、翻转变换和平移变换;所述文本采集模块还用于对切割成的图片进行运用卷积神经提取卷积特征。3.根据权利要求1所述的基于NLP对造价清单结构化识别的系统,其特征在于,将句拆分成词的序列所采用的原则为:词出现的频次优先,最大词次之。4.根据权利要求1所述的基于NLP对造价清单结构化识别的系统,其特征在于,所述区域定位模块还利用交并比修正矩形框的定位精度,利用神经网络的每个神经获得矩形框数据并通过...

【专利技术属性】
技术研发人员:张然李斌邓子谦陈文海田志超朱明润
申请(专利权)人:中国电建集团成都勘测设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1