基于语义完备性的铁路施工质量要素实体识别方法技术

技术编号:39144115 阅读:14 留言:0更新日期:2023-10-23 14:56
本发明专利技术公开了一种基于语义完备性的铁路施工质量要素实体识别方法,具体包括如下步骤:步骤1,从铁路规范中随机抽样选取质量检测相关规范构造语料库;步骤2,构建RSC

【技术实现步骤摘要】
基于语义完备性的铁路施工质量要素实体识别方法


[0001]本专利技术属于自然语言处理
,涉及一种基于语义完备性的铁路施工质量要素实体识别方法。

技术介绍

[0002]铁路作为我国的重要支柱产业,其建设质量直接关系到行业发展、产业升级和国计民生等问题。随着自然语言处理技术的不断发展,也促进了我国铁路智能建造领域的数字化智能化步伐,特别提升了铁路领域中质量监检测技术。但是由于铁路工程项目具有建设规模大、投资大、工期长、技术复杂、参与单位多、风险高、组织实施困难等特点,其质量控制检测呈现出信息量庞杂,数据处理速度慢,检测周期漫长等问题,现在还处于开始发展阶段。
[0003]在铁路智能建造中,数字化智能化的过程中面向的对象较多,大体分为桥梁、路基、隧道、轨道四个主要对象,在对这些对象进行质量检测的时候又细分为对多个子对象进行检测,例如,桥梁施工,应该对基桩施工进行检测。由于质量检测过程复杂繁琐导致检测信息量庞杂,我们需要从规范文件和已有项目的施工日志中挖掘出重要的检测对象,作为我们的施工质量要素,以便后续对其进行实体对齐,属性的对比,提高施工质量的检监测任务的精确率以及效率,降低人工成本。

技术实现思路

[0004]本专利技术的目的是提供一种基于语义完备性的铁路施工质量要素实体识别方法,使用该方法对铁路施工质量要素实体进行识别,可以提高质量要素实体识别的准确性以及实效性,提高施工质量检监测的效率以及降低人工成本。
[0005]本专利技术所采用的技术方案是,基于语义完备性的铁路施工质量要素实体识别方法,具体包括如下步骤:
[0006]步骤1,从铁路规范中随机抽样选取质量检测相关规范构造语料库;
[0007]步骤2,构建RSC

NER命名实体模型;
[0008]步骤3,采用RSim

WWM对Transformer编码器进行预训练;
[0009]步骤4,对RSC

NER命名实体模型进行训练;
[0010]步骤5,使用步骤4训练好的RSC

NER模型对铁路施工质量要素实体进行识别,生成分类结果。
[0011]本专利技术的特点还在于:
[0012]步骤2中,RSC

NER模型包括:文本输入、Transformer编码器、词嵌入、引入语义完备性特征,向量连接以及softmax分类。
[0013]RSC

NER模型对文本序列的处理过程为:
[0014]1)import文本序列;
[0015]2)经过Transformer编码器得到词嵌入序列向量;
[0016]3)通过片段排列的方法生成子序列向量;
[0017]4)对子序列依次进行实体判断,并进行最大池化;
[0018]5)对词嵌入序列进行跨度嵌入;
[0019]6)复制词嵌入序列并进行遮盖,引入语义完备性特征;
[0020]7)向量连接;
[0021]8)softmax分类;
[0022]9)Return实体识别与分类结果。
[0023]步骤3的具体过程为:
[0024]步骤3.1,输入文本序列并将文本序列进行编码,将编码后的文本序列表示为向量A=(a1,a2,

,a
n
);
[0025]步骤3.2,轮流遮盖步骤3.1得到的向量表示,将遮盖的向量替换为MASK,遮盖句的整体向量表示为B,采用如下公式(1)计算每一个遮盖句与原句之间的语义相似度similarity:
[0026][0027]步骤3.3,对步骤3.2轮流遮盖后得到的遮盖句的语义相似度由小到大进行排序,将前15%所对应的词编码选为训练所用的遮盖词;
[0028]步骤3.4,遮盖步骤,3.3挑选的遮盖词,将遮盖后的向量输入嵌入到bert

base

cased模型中的Transformer编码器进行后续训练与预测遮盖词;
[0029]步骤3.5,重复上述步骤3.1

步骤3.4直到训练结果正确率达到50%以上,即得到训练好的Transformer编码器。
[0030]步骤4的具体过程为:
[0031]步骤4.1,将步骤3训练好的Transformer编码器置入命名实体识别模型RSC

NER中,然后向RSC

NER模型中输入文本序列(s1,s2,

,s
n
),文本序列(s1,s2,

,s
n
)经过步骤3Transformer编码器得到词嵌入序列(e1,e2,

,e
n
);
[0032]步骤4.2,利用片段构造法构造步骤4.1生成的词嵌入序列的子序列,并对构造出的子序列依次进行实体判断;
[0033]步骤4.3,将步骤4.2正在进行实体判断的词嵌入子序列进行最大池化,最大池化后的表示向量为E,将向量E与文本序列整体的表示向量T进行连接得到一个新的向量e(c),向量e(c)的计算公式为:
[0034]e(c)=E
·
T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2);
[0035]步骤4.4,利用向量x来表示子序列的跨度,将跨度嵌入x与表示向量e(c)进行连接,即得到用于实体分类的向量w
t
,计算公式如下:
[0036]w
t
=e(c)
·
x
ꢀꢀꢀꢀꢀꢀ
(3);
[0037]步骤4.5,复制步骤4.1得到的词嵌入序列(e1,e2,

,e
n
),依次遮盖目前进行实体判断的子序列,将遮盖后的子序列替换为MASK;
[0038]步骤4.6,分别对步骤4.1的原序列与步骤4.5遮盖后的序列进行平均池化,得到原序列文本表示向量o和遮盖序列文本表示向量p,对两个向量按位求差得到向量|o

p|,并且对两个向量求交|o∩p|以及求并|o∪p|,将上述向量进行连接得到新的向量u,u的计算公
式如下:
[0039]u=o
·
p
·
|o

p|
·
|o∩p|
·
|o∪p|
ꢀꢀ
(4);
[0040]步骤4.7,将步骤4.6得到的向量通过前馈神经网络FNN非线性映射至一个较短的向量C
i
,f
L
表示一个层数为L的前馈神经网络,L大于0,并与步骤4.4得到的向量进行连接得到向量V,C
i
的计算公式如下:
[0041]C
i
=Linear(f
L
(u))
ꢀꢀꢀꢀꢀꢀ
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于语义完备性的铁路施工质量要素实体识别方法,其特征在于:具体包括如下步骤:步骤1,从铁路规范中随机抽样选取质量检测相关规范构造语料库;步骤2,构建RSC

NER命名实体模型;步骤3,采用RSim

WWM对Transformer编码器进行预训练;步骤4,对RSC

NER命名实体模型进行训练;步骤5,使用步骤4训练好的RSC

NER模型对铁路施工质量要素实体进行识别,生成分类结果。2.根据权利要求1所述的基于语义完备性的铁路施工质量要素实体识别方法,其特征在于:所述步骤2中,RSC

NER模型包括:文本输入、Transformer编码器、词嵌入、引入语义完备性特征,向量连接以及softmax分类。3.根据权利要求2所述的基于语义完备性的铁路施工质量要素实体识别方法,其特征在于:所述RSC

NER模型对文本序列的处理过程为:1)import文本序列;2)经过Transformer编码器得到词嵌入序列向量;3)通过片段排列的方法生成子序列向量;4)对子序列依次进行实体判断,并进行最大池化;5)对词嵌入序列进行跨度嵌入;6)复制词嵌入序列并进行遮盖,引入语义完备性特征;7)向量连接;8)softmax分类;9)Return实体识别与分类结果。4.根据权利要求3所述的基于语义完备性的铁路施工质量要素实体识别方法,其特征在于:所述步骤3的具体过程为:步骤3.1,输入文本序列并将文本序列进行编码,将编码后的文本序列表示为向量A=(a1,a2,

,a
n
);步骤3.2,轮流遮盖步骤3.1得到的向量表示,将遮盖的向量替换为MASK,遮盖句的整体向量表示为B,采用如下公式(1)计算每一个遮盖句与原句之间的语义相似度similarity:步骤3.3,对步骤3.2轮流遮盖后得到的遮盖句的语义相似度由小到大进行排序,将前15%所对应的词编码选为训练所用的遮盖词;步骤3.4,遮盖步骤,3.3挑选的遮盖词,将遮盖后的向量输入嵌入到bert

base

cased模型中的Transformer编码器进行后续训练与预测遮盖词;步骤3.5,重复上述步骤3.1

步骤3.4直到训练结果正确率达到50%以上,即得到训练好的Transformer编码器。5.根据权利要求4所述的基于语义完备性的铁路施工质量要素实体识别方法,其特征在于:所述步骤4的具体过程为:步骤4.1,将步骤3训练好的Transformer编码器置入命名实体识别模型RSC

NER中,然
后向RSC

NER模型中输入文本序列(s1,s2,

,s...

【专利技术属性】
技术研发人员:朱磊王佳龙菲黑新宏赵钦何敏杨明松陶栎琦王菁王一川
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1