【技术实现步骤摘要】
基于语义完备性的铁路施工质量要素实体识别方法
[0001]本专利技术属于自然语言处理
,涉及一种基于语义完备性的铁路施工质量要素实体识别方法。
技术介绍
[0002]铁路作为我国的重要支柱产业,其建设质量直接关系到行业发展、产业升级和国计民生等问题。随着自然语言处理技术的不断发展,也促进了我国铁路智能建造领域的数字化智能化步伐,特别提升了铁路领域中质量监检测技术。但是由于铁路工程项目具有建设规模大、投资大、工期长、技术复杂、参与单位多、风险高、组织实施困难等特点,其质量控制检测呈现出信息量庞杂,数据处理速度慢,检测周期漫长等问题,现在还处于开始发展阶段。
[0003]在铁路智能建造中,数字化智能化的过程中面向的对象较多,大体分为桥梁、路基、隧道、轨道四个主要对象,在对这些对象进行质量检测的时候又细分为对多个子对象进行检测,例如,桥梁施工,应该对基桩施工进行检测。由于质量检测过程复杂繁琐导致检测信息量庞杂,我们需要从规范文件和已有项目的施工日志中挖掘出重要的检测对象,作为我们的施工质量要素,以便后续对其进行实体对齐,属性的对比,提高施工质量的检监测任务的精确率以及效率,降低人工成本。
技术实现思路
[0004]本专利技术的目的是提供一种基于语义完备性的铁路施工质量要素实体识别方法,使用该方法对铁路施工质量要素实体进行识别,可以提高质量要素实体识别的准确性以及实效性,提高施工质量检监测的效率以及降低人工成本。
[0005]本专利技术所采用的技术方案是,基于语义完备性的铁路施工质量要素 ...
【技术保护点】
【技术特征摘要】
1.基于语义完备性的铁路施工质量要素实体识别方法,其特征在于:具体包括如下步骤:步骤1,从铁路规范中随机抽样选取质量检测相关规范构造语料库;步骤2,构建RSC
‑
NER命名实体模型;步骤3,采用RSim
‑
WWM对Transformer编码器进行预训练;步骤4,对RSC
‑
NER命名实体模型进行训练;步骤5,使用步骤4训练好的RSC
‑
NER模型对铁路施工质量要素实体进行识别,生成分类结果。2.根据权利要求1所述的基于语义完备性的铁路施工质量要素实体识别方法,其特征在于:所述步骤2中,RSC
‑
NER模型包括:文本输入、Transformer编码器、词嵌入、引入语义完备性特征,向量连接以及softmax分类。3.根据权利要求2所述的基于语义完备性的铁路施工质量要素实体识别方法,其特征在于:所述RSC
‑
NER模型对文本序列的处理过程为:1)import文本序列;2)经过Transformer编码器得到词嵌入序列向量;3)通过片段排列的方法生成子序列向量;4)对子序列依次进行实体判断,并进行最大池化;5)对词嵌入序列进行跨度嵌入;6)复制词嵌入序列并进行遮盖,引入语义完备性特征;7)向量连接;8)softmax分类;9)Return实体识别与分类结果。4.根据权利要求3所述的基于语义完备性的铁路施工质量要素实体识别方法,其特征在于:所述步骤3的具体过程为:步骤3.1,输入文本序列并将文本序列进行编码,将编码后的文本序列表示为向量A=(a1,a2,
…
,a
n
);步骤3.2,轮流遮盖步骤3.1得到的向量表示,将遮盖的向量替换为MASK,遮盖句的整体向量表示为B,采用如下公式(1)计算每一个遮盖句与原句之间的语义相似度similarity:步骤3.3,对步骤3.2轮流遮盖后得到的遮盖句的语义相似度由小到大进行排序,将前15%所对应的词编码选为训练所用的遮盖词;步骤3.4,遮盖步骤,3.3挑选的遮盖词,将遮盖后的向量输入嵌入到bert
‑
base
‑
cased模型中的Transformer编码器进行后续训练与预测遮盖词;步骤3.5,重复上述步骤3.1
‑
步骤3.4直到训练结果正确率达到50%以上,即得到训练好的Transformer编码器。5.根据权利要求4所述的基于语义完备性的铁路施工质量要素实体识别方法,其特征在于:所述步骤4的具体过程为:步骤4.1,将步骤3训练好的Transformer编码器置入命名实体识别模型RSC
‑
NER中,然
后向RSC
‑
NER模型中输入文本序列(s1,s2,
…
,s...
【专利技术属性】
技术研发人员:朱磊,王佳龙菲,黑新宏,赵钦,何敏,杨明松,陶栎琦,王菁,王一川,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。