【技术实现步骤摘要】
基于混合深度语义挖掘的施工专业术语库智能构建方法
[0001]本专利技术属于文本数据处理
,具体涉及一种基于混合深度语义挖掘的施工专业术语库智能构建方法。
技术介绍
[0002]工程施工过程中产生了大量的文本资料,包含了代表所记录施工过程特征的专业术语。专业术语能够简单清晰的描述工程施工内容,避免复杂冗长的文本描述,有利于提高文本记录与施工管理的规范性。在现有专业术语库建立过程中,专业术语的提取多是依靠专家经验,通过长期施工过程中总结的经验知识,形成专业术语库。在实际应用过程中,受经验知识的影响,施工人员很难发现文本中的专业术语,导致专业术语库的构建只能依靠少数经验丰富的专家,使得专业术语库构建的成本较大。同时,施工文本多是由现场施工人员编制,随着施工工艺与施工材料的更新,专业术语也会随之更新,但现有专业术语库很难满足专业术语更新的要求,导致在施工文本记录中存在专业术语表达错误的现象。
[0003]每个专业领域都有属于该领域特征的专业术语,对于涉及多个领域的大型建设工程(如,水利工程、市政工程、隧道工程等),单 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.基于混合深度语义挖掘的施工专业术语库智能构建方法,其特征在于,它包括以下步骤:步骤1:采集工程建设过程中的施工文本数据,剔除文本中的特殊符号、停用词;根据施工管理任务,定义施工文本类型,利用定义类型标记文本,从标记完成的样本数据中选取训练集与测试集;步骤2:深度挖掘施工文本特征,建立施工文本智能分类模型;训练优化网络结构参数,学习文本内容特征,按照文本类型分类施工文本;步骤3:针对已分类的文本,将文本切分为单个基础词;量化文本,深度提取词语的语义特征,获得词语向量;结合词语向量,计算词语间的余弦相似度,表征词语间的语义关联性;步骤4:统计基础词在施工文本中的词频,计算基础词语间的共现频率,结合互信息理论与左右信息熵,衡量词语中信息量的大小,量化词语间的位置信息关系,计算词语间信息相关性;步骤5:结合词语语义关联性与信息相关性,统计施工专业术语最大组成词数,定义施工文本分析窗口大小,建立专业术语智能提取模型,实现基础词语组合,形成初始施工专业术语集合;步骤6:以初始施工专业术语集合为基础,收集工程施工专业文本,建立规范文本集合,统计初始专业术语集合中元素在规范文本中的出现频率,验证验证专业术语的独立性与专业性,实现专业术语的智能识别,形成施工专业术语集合;步骤7:针对已分类的不同类型的施工文本,分别执行步骤3—步骤6,获得不同施工管理任务中的专业术语,突出管理任务的特点;融合各管理任务专业术语集合,剔除重复专业术语,形成施工专业术语集;建立施工专业术语数据库与各管理任务类型数据库,分别存储专业术语,实现施工领域内未登录词语的智能识别,完成未登录词与已登录词的自动存储。2.根据权利要求1所述的方法,其特征在于,在步骤1中,具体包括以下步骤:步骤1
‑
1,所采集的数据包括施工现场管理文本,剔除文本中存在的特殊符号,并根据句号将文本划分多个独立段落;步骤1
‑
2,结合工程施工管理任务,对文本类型进行定义,并根据文本类型完成文本内容标记;步骤1
‑
3,对标记完成的文本数据进行处理,按照指定比例划分文本训练集与测试集。3.根据权利要求1所述的方法,其特征在于,在步骤2中,具体包括以下步骤:步骤2
‑
1,对步骤1中得到数据进行量化,以文本中字符为单位,获得文本字符向量作为施工文本智能分类模型的输入层;步骤2
‑
2,结合CNN网络结构,设置卷积层、池化层、全连接层,实现施工文本特征的深度提取,再利用Softmax函数输出文本类型;步骤2
‑
3,利用步骤1中划分的训练集训练CNN网络结构,优化网络参数,利用测试集评估模型的可靠性,最终实现施工文本的智能分类。4.根据权利要求1所述的方法,其特征在于,在步骤3中,具体包括以下步骤:步骤3
‑
1,针对已分类的文本,以Jieba词库为依据,将工程施工文本切分为多个基础词;步骤3
‑
2,将施工文本导入Bert结构中,利用Bert中已有的参数与网络结构,考虑文本
中词语间的语义关系,预训练文本内容,获得基础词语向量,从语义层面实现文本量化;步骤3
‑
3,以词向量为基础,利用余弦相似度计算词语间相似度,实现词语间语义关系量化,如下式:式中:S(k,i)为文本中词i与词k之间的相似度;V
i
表示为词i的词向量;V
k
表示词k的词向量。5.根据权利要求1所述的方法,其特征在于,在步骤4中,具体包括以下步骤:步骤4
‑
技术研发人员:沈扬,李明超,李文伟,陆超,田丹,张栋梁,吕沅庚,
申请(专利权)人:天津大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。