一种建筑工程变更指令的分类方法技术

技术编号:28321009 阅读:77 留言:0更新日期:2021-05-04 13:01
本发明专利技术公开了一种建筑工程变更指令的分类方法。所述方法包括:针对建筑工程文档的特点,进行文档转换处理,提取每份文档的正文内容,并标注每份文档所属类别,建立建筑工程语料库;构建建筑领域词典,通过分词工具结合建筑领域词典对建筑工程语料库中的文本进行分词预处理,得到文本词序列;建立词向量训练语料,采用词向量模型训练分布式词向量;基于分布式方法表示文本的全局词特征和局部句法特征,构建文本融合语义表示;基于文本融合语义表示,采用监督机器学习算法构建分类模型;对待分类文档进行预测,快速获取其中涉及工程变更的指令。本发明专利技术利用自然语言处理技术,解决建筑领域人工分类工程文档效率低的问题,有利于建筑工程的施工管理。

【技术实现步骤摘要】
一种建筑工程变更指令的分类方法
本专利技术属于自然语言处理和建筑工程领域,尤其涉及一种建筑工程变更指令的分类方法。
技术介绍
我国城市化进程已经入高速阶段,市政设施、房屋住宅、交通道路的年新增工程量显著增加,并且新建工程的单体规模持续增大、建筑结构形式也趋于多样。建筑工程复杂,涉及管理、技术、财务等多个因素,需多方合作。工作联系单作为各单位、各部门间的沟通文件和施工依据,记录了建筑施工过程中发生的方案确认、进度协调、施工反馈、政府公文等信息。其中,对于一类涉及工程变更的通知联系单,由于其内容关系到施工对象变化、施工材料和人员投入增减,施工方需及时响应变更指令,避免浪费。因此,快速准确地从大量工作联系单中筛查出工程变更指令,对于建筑工程的顺利完成具有重大意义。然而,目前建筑行业依然采用人工查阅的方式获取工程工作联系单中的工程变更指令。不仅耗时耗力,而且易产生疏漏甚至错误,造成了大量的人力和物力浪费。自然语言处理是计算机科学和语言科学的结合,用于研究计算机语言和人类自然语言之间的相互作用。建筑项目工程变更指令的识别涉及自然语言处理中的文本分类技术,通过分类过程可以对建筑项目中的工作联系单进行自动类别标记,快速准确地获取工程变更信息,有助于提升建筑工程信息管理水平。当前,自然语言处理技术在建筑领域中的应用还处于起步阶段。钟波涛等(2018)专利技术了一种建筑质量投诉文本分类的方法和系统(申请公布号CN108563791A),基于卷积神经网络建立分类模型。但考虑实际工程的文档数量,该方法不适用于本专利技术所解决问题。目前,建筑领域的文本分类研究仍采用浅层机器学习为主。在机器学习中文本表示是关键,经典的词袋模型未考虑词本身的语义及句法上的关联性,文本的语义表示出现高维稀疏问题。
技术实现思路
本专利技术的目的在于利用自然语言处理技术解决人工分类建筑工程文档效率低的问题。本专利技术提出一种建筑工程变更指令的分类方法,使用分布式词向量表示文本的全局词特征,得到文本全局语义表示;并基于依存句法分析提取文本句法特征,通过注意力机制增强与变更触发词关联度高的特征,得到文本局部语义表示;拼接两部分得到文本融合语义,同时,针对实际工程文档数量级别,采用监督机器学习算法构建分类模型,实现对于建筑工程变更指令的分类。本专利技术的目的至少通过如下技术方案之一实现。一种建筑工程变更指令的分类方法,包括以下步骤:S1、针对建筑工程文档的特点,进行文档转换处理,提取每份文档的正文内容,并标注每份文档所属类别,建立建筑工程语料库;S2、构建建筑领域词典,通过分词工具结合建筑领域词典对建筑工程语料库中的文本进行分词预处理,得到文本词序列;S3、建立词向量训练语料,采用词向量模型训练分布式词向量;S4、基于分布式方法表示文本的全局词特征和局部句法特征,构建文本融合语义表示;S5、基于步骤S4中得到的文本融合语义表示,采用监督机器学习算法构建分类模型;对待分类文档进行预测,快速获取其中涉及工程变更的指令。进一步地,步骤S1包括以下步骤:S1.1、建筑工程文档通常是通过扫描方式生成的图像PDF,利用光学字符识别(OCR)技术识别建筑工程文档中的文字并存储为文本格式(.txt);S1.2、将每份文档识别到的文本进行整理和完善,剔除其中表头、表尾的固定内容,校正表体正文内容;S1.3、根据文本内容是否涉及工程变更指令,人工对每份文本进行类别标注;S1.4、以‘类别正文内容’为样本形式建立建筑工程语料库。进一步地,步骤S2包括以下步骤:S2.1、基于分词工具的通用词典对建筑工程语料库中的文本进行分词,得到每份文本被切分后的词序列;S2.2、利用正向最大匹配算法思想对步骤S2.1中得到的词序列进行计算,设定最大长度为4,若组合后的词在建筑工程语料库的多个文本中出现,则将其加入领域候选词集合;S2.3、对领域候选词集合进行人工检验,剔除其中不符合语言逻辑的词和形成指代特定人、物的词,生成建筑领域词典;S2.4、检索网络建筑词库,将其中的词加入步骤S2.3中基于语料库生成的建筑领域词典中;S2.5、结合通用词典和步骤S2.4中构建的建筑领域词典,利用分词工具,再次对建筑工程语料库中的文本进行分词,得到预处理阶段最终的每份文本的文本词序列。进一步地,步骤S3包括以下步骤:S3.1、建立词向量训练语料,其中包括步骤S1建立的建筑工程语料库中的语料、wiki百科中文语料,和建筑行业相关现行国家标准,再基于步骤S2建立的建筑领域词典进行分词预处理;S3.2、采用词向量模型对上述语料进行训练,得到分布式词向量。进一步地,步骤S4包括以下步骤:S4.1、使用分布式词向量表示文本全局词特征,得到文本全局语义表示Cg;S4.2、使用分布式词向量表示文本局部句法特征,得到文本局部语义表示Cl;S4.3、以拼接方式合并步骤S4.1中的文本全局语义表示和步骤S4.2中的文本局部语义表示,得到文本融合语义表示:进一步地,步骤S4.1的具体步骤如下:S4.1.1、使用步骤S3.2中分布式词向量表示文本词序列,得到文本词向量矩阵,即X={x1,x2,…,xm},其中m为文本词序列中词的个数,xi表示第i个词的词向量,i的范围为1~m;S4.1.2、计算词序列维度平均值得到文本全局语义表示:进一步地,步骤S4.2的具体步骤如下:S4.2.1、利用依存分析工具识别每份文本的文本词序列中各个词之间的依存关系,形成一个以谓语动词为根结点,其他词作为子结点直接或间接地依存于根结点的依存关系结构;S4.2.2、利用句子的依存关系结构,首先抽取出根结点及其主谓关系(SBV)、动宾关系(VOB)依存弧上的受支配词,然后将与根结点具有并列关系(COO)的动词分别作为父结点,抽取出该父结点及其主谓关系、动宾关系依存弧上的受支配词,最后将所有抽取的词以原顺序排列作为文本局部句法特征;S4.2.3、使用步骤S3.2中分布式词向量表示步骤S4.3.2中抽取的句法特征,得到每份文本句法特征词向量矩阵,即其中n为抽取的句法特征词数量,表示第j个句法特征词的词向量,j的范围为1~n;S4.2.4、动词在句子中处于支配地位,建立其他词之间的连接关系,从语义上看,存在一类描述对动宾关系依存弧上受支配词进行状态改变的动作,即涉及建筑工程变更指令,称之为变更触发词;构建基于变更触发词词典的注意力,计算文本句法特征词与变更触发词的关联度αj,j的范围为1~n,进而得到文本局部语义表示:进一步地,步骤S4.2.4中,计算句法特征词与变更触发词关联度权重的具体步骤如下:S4.2.4.1、收集建筑工程语料库文本中描述工程变更的动词,建立变更触发词词典;S4.2.4.2、基于中文同义词库,查找与步骤S4.2.4中变更触发词词典中的每个动词相似度最大的5个词,扩充变本文档来自技高网
...

【技术保护点】
1.一种建筑工程变更指令的分类方法,其特征在于,包括以下步骤:/nS1、针对建筑工程文档的特点,进行文档转换处理,提取每份文档的正文内容,并标注每份文档所属类别,建立建筑工程语料库;/nS2、构建建筑领域词典,通过分词工具结合建筑领域词典对建筑工程语料库中的文本进行分词预处理,得到文本词序列;/nS3、建立词向量训练语料,采用词向量模型训练分布式词向量;/nS4、基于分布式方法表示文本的全局词特征和局部句法特征,构建文本融合语义表示;/nS5、基于步骤S4中得到的文本融合语义表示,采用监督机器学习算法构建分类模型;对待分类文档进行预测,快速获取其中涉及工程变更的指令。/n

【技术特征摘要】
1.一种建筑工程变更指令的分类方法,其特征在于,包括以下步骤:
S1、针对建筑工程文档的特点,进行文档转换处理,提取每份文档的正文内容,并标注每份文档所属类别,建立建筑工程语料库;
S2、构建建筑领域词典,通过分词工具结合建筑领域词典对建筑工程语料库中的文本进行分词预处理,得到文本词序列;
S3、建立词向量训练语料,采用词向量模型训练分布式词向量;
S4、基于分布式方法表示文本的全局词特征和局部句法特征,构建文本融合语义表示;
S5、基于步骤S4中得到的文本融合语义表示,采用监督机器学习算法构建分类模型;对待分类文档进行预测,快速获取其中涉及工程变更的指令。


2.根据权利要求1所述的一种建筑工程变更指令的分类方法,其特征在于,步骤S1包括以下步骤:
S1.1、利用光学字符识别技术识别建筑工程文档中的文字并存储为文本格式;
S1.2、将每份文档识别到的文本进行整理和完善,剔除其中表头、表尾的固定内容,校正表体正文内容;
S1.3、根据文本内容是否涉及工程变更指令,人工对每份文本进行类别标注;
S1.4、以‘类别正文内容’为样本形式建立建筑工程语料库。


3.根据权利要求2所述的一种建筑工程变更指令的分类方法,其特征在于,步骤S2包括以下步骤:
S2.1、基于分词工具的通用词典对建筑工程语料库中的文本进行分词,得到每份文本被切分后的词序列;
S2.2、利用正向最大匹配算法思想对步骤S2.1中得到的词序列进行计算,设定最大长度为4,若组合后的词在建筑工程语料库的多个文本中出现,则将其加入领域候选词集合;
S2.3、对领域候选词集合进行人工检验,剔除其中不符合语言逻辑的词和形成指代特定人、物的词,生成建筑领域词典;
S2.4、检索网络建筑词库,将其中的词加入步骤S2.3中基于语料库生成的建筑领域词典中;
S2.5、结合通用词典和步骤S2.4中构建的建筑领域词典,利用分词工具,再次对建筑工程语料库中的文本进行分词,得到预处理阶段最终的每份文本的文本词序列。


4.根据权利要求3所述的一种建筑工程变更指令的分类方法,其特征在于,步骤S3包括以下步骤:
S3.1、建立词向量训练语料,其中包括步骤S1建立的建筑工程语料库中的语料、wiki百科中文语料,和建筑行业相关现行国家标准,再基于步骤S2建立的建筑领域词典进行分词预处理;
S3.2、采用词向量模型对上述语料进行训练,得到分布式词向量。


5.根据权利要求4所述的一种建筑工程变更指令的分类方法,其特征在于,步骤S4包括以下步骤:
S4.1、使用分布式词向量表示文本全局词特征,得到文本全局语义表示Cg;
S4.2、使用分布式词向量表示文本局部句法特征,得到文本局部语义表示Cl;
S4.3、以拼接方式合并步骤S4.1中的文本全局语义表示和步骤S4.2中的文本局部语义表示,得到文本融合语义表示:





6.根据权利要求5所述的一种建筑工程变更指令的分类方法,其特征在于,步骤S4.1的具体步骤如下:
S4.1.1、使用步骤S3.2中分布式词向量表示文本词序列,得到文本词向量矩阵,即X={x1,x2,…,xm},其中m为文本词序列中词的个数,xi表示第i个词的词向量,i的范围为1~m;
S4.1.2、计算词序列维度平均得到文本全局语义表...

【专利技术属性】
技术研发人员:刘发贵吴怡
申请(专利权)人:华南理工大学广东筑物智联科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1