【技术实现步骤摘要】
一种建筑工程变更指令的分类方法
本专利技术属于自然语言处理和建筑工程领域,尤其涉及一种建筑工程变更指令的分类方法。
技术介绍
我国城市化进程已经入高速阶段,市政设施、房屋住宅、交通道路的年新增工程量显著增加,并且新建工程的单体规模持续增大、建筑结构形式也趋于多样。建筑工程复杂,涉及管理、技术、财务等多个因素,需多方合作。工作联系单作为各单位、各部门间的沟通文件和施工依据,记录了建筑施工过程中发生的方案确认、进度协调、施工反馈、政府公文等信息。其中,对于一类涉及工程变更的通知联系单,由于其内容关系到施工对象变化、施工材料和人员投入增减,施工方需及时响应变更指令,避免浪费。因此,快速准确地从大量工作联系单中筛查出工程变更指令,对于建筑工程的顺利完成具有重大意义。然而,目前建筑行业依然采用人工查阅的方式获取工程工作联系单中的工程变更指令。不仅耗时耗力,而且易产生疏漏甚至错误,造成了大量的人力和物力浪费。自然语言处理是计算机科学和语言科学的结合,用于研究计算机语言和人类自然语言之间的相互作用。建筑项目工程变更指令的识别涉及自然语言处理中的文本分类技术,通过分类过程可以对建筑项目中的工作联系单进行自动类别标记,快速准确地获取工程变更信息,有助于提升建筑工程信息管理水平。当前,自然语言处理技术在建筑领域中的应用还处于起步阶段。钟波涛等(2018)专利技术了一种建筑质量投诉文本分类的方法和系统(申请公布号CN108563791A),基于卷积神经网络建立分类模型。但考虑实际工程的文档数量,该方法不适用于本专利技术所解 ...
【技术保护点】
1.一种建筑工程变更指令的分类方法,其特征在于,包括以下步骤:/nS1、针对建筑工程文档的特点,进行文档转换处理,提取每份文档的正文内容,并标注每份文档所属类别,建立建筑工程语料库;/nS2、构建建筑领域词典,通过分词工具结合建筑领域词典对建筑工程语料库中的文本进行分词预处理,得到文本词序列;/nS3、建立词向量训练语料,采用词向量模型训练分布式词向量;/nS4、基于分布式方法表示文本的全局词特征和局部句法特征,构建文本融合语义表示;/nS5、基于步骤S4中得到的文本融合语义表示,采用监督机器学习算法构建分类模型;对待分类文档进行预测,快速获取其中涉及工程变更的指令。/n
【技术特征摘要】
1.一种建筑工程变更指令的分类方法,其特征在于,包括以下步骤:
S1、针对建筑工程文档的特点,进行文档转换处理,提取每份文档的正文内容,并标注每份文档所属类别,建立建筑工程语料库;
S2、构建建筑领域词典,通过分词工具结合建筑领域词典对建筑工程语料库中的文本进行分词预处理,得到文本词序列;
S3、建立词向量训练语料,采用词向量模型训练分布式词向量;
S4、基于分布式方法表示文本的全局词特征和局部句法特征,构建文本融合语义表示;
S5、基于步骤S4中得到的文本融合语义表示,采用监督机器学习算法构建分类模型;对待分类文档进行预测,快速获取其中涉及工程变更的指令。
2.根据权利要求1所述的一种建筑工程变更指令的分类方法,其特征在于,步骤S1包括以下步骤:
S1.1、利用光学字符识别技术识别建筑工程文档中的文字并存储为文本格式;
S1.2、将每份文档识别到的文本进行整理和完善,剔除其中表头、表尾的固定内容,校正表体正文内容;
S1.3、根据文本内容是否涉及工程变更指令,人工对每份文本进行类别标注;
S1.4、以‘类别正文内容’为样本形式建立建筑工程语料库。
3.根据权利要求2所述的一种建筑工程变更指令的分类方法,其特征在于,步骤S2包括以下步骤:
S2.1、基于分词工具的通用词典对建筑工程语料库中的文本进行分词,得到每份文本被切分后的词序列;
S2.2、利用正向最大匹配算法思想对步骤S2.1中得到的词序列进行计算,设定最大长度为4,若组合后的词在建筑工程语料库的多个文本中出现,则将其加入领域候选词集合;
S2.3、对领域候选词集合进行人工检验,剔除其中不符合语言逻辑的词和形成指代特定人、物的词,生成建筑领域词典;
S2.4、检索网络建筑词库,将其中的词加入步骤S2.3中基于语料库生成的建筑领域词典中;
S2.5、结合通用词典和步骤S2.4中构建的建筑领域词典,利用分词工具,再次对建筑工程语料库中的文本进行分词,得到预处理阶段最终的每份文本的文本词序列。
4.根据权利要求3所述的一种建筑工程变更指令的分类方法,其特征在于,步骤S3包括以下步骤:
S3.1、建立词向量训练语料,其中包括步骤S1建立的建筑工程语料库中的语料、wiki百科中文语料,和建筑行业相关现行国家标准,再基于步骤S2建立的建筑领域词典进行分词预处理;
S3.2、采用词向量模型对上述语料进行训练,得到分布式词向量。
5.根据权利要求4所述的一种建筑工程变更指令的分类方法,其特征在于,步骤S4包括以下步骤:
S4.1、使用分布式词向量表示文本全局词特征,得到文本全局语义表示Cg;
S4.2、使用分布式词向量表示文本局部句法特征,得到文本局部语义表示Cl;
S4.3、以拼接方式合并步骤S4.1中的文本全局语义表示和步骤S4.2中的文本局部语义表示,得到文本融合语义表示:
6.根据权利要求5所述的一种建筑工程变更指令的分类方法,其特征在于,步骤S4.1的具体步骤如下:
S4.1.1、使用步骤S3.2中分布式词向量表示文本词序列,得到文本词向量矩阵,即X={x1,x2,…,xm},其中m为文本词序列中词的个数,xi表示第i个词的词向量,i的范围为1~m;
S4.1.2、计算词序列维度平均得到文本全局语义表...
【专利技术属性】
技术研发人员:刘发贵,吴怡,
申请(专利权)人:华南理工大学,广东筑物智联科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。