一种基于语义挖掘的接触网文本数据缺陷识别方法及设备技术

技术编号:37348205 阅读:14 留言:0更新日期:2023-04-22 21:44
本发明专利技术公开了一种基于语义挖掘的接触网文本数据缺陷识别方法及设备,包括:获取原始接触网文本数据,对原始接触网文本数据进行预处理;将预处理后的接触网文本数据输入至预先建立的文本挖掘

【技术实现步骤摘要】
一种基于语义挖掘的接触网文本数据缺陷识别方法及设备


[0001]本专利技术涉及铁路接触网缺陷识别
,涉及一种基于语义挖掘的接触网文本数据缺陷识别方法及设备。

技术介绍

[0002]高速铁路接触网是高速列车能量传输的关键,其运行状况与铁路运输的安全性和可靠性密切相关。由于复杂的故障机制和多变的运行工况,接触网运行风险极高。为了及时发现潜在的缺陷并进行消缺,各种监测技术和维护活动被广泛应用于接触网运行和维护;例如:申请号为2020102694120公开的基于人工智能技术对铁路的接触网图像进行缺陷识别监测的方法。
[0003]进一步,基于相应的监测结果,接触网运维部门积累了大量接触网缺陷记录,这些缺陷记录蕴含了丰富的接触网缺陷问题、消缺方法、原因等缺陷关键特征。但是现有的缺陷记录通常由人工进行统计整合,通过统计整合确定缺陷文本描述,并依据规范文件进行人工分类,相应的文本统计整合工作存在准确度不高、文本信息利用率低、效率低下、成本较高等缺陷,因此,如何能够高效挖掘缺陷记录中包含的信息并进行准确分类、以提高缺陷记录的分析价值成为急需解决的问题。

技术实现思路

[0004]本专利技术的目的在于克服现有接触网缺陷记录由人工进行记录、统计、整合分类,存在准确度不高、文本信息利用率低、效率低下的问题,提供一种基于语义挖掘的接触网文本数据缺陷识别方法及设备,本方法针对接触网文本数据,设计相应的语义挖掘模型与缺陷分类模型,基于语义挖掘模型高效、准确地挖掘缺陷记录中包含的缺陷知识,同时配合缺陷分类模型自动识别缺陷的严重程度,从而为发现有价值的缺陷知识和缺陷严重程度识别提供强大可靠的信息基础,促进铁路接触网相关缺陷处理和维护监测技术的调整。
[0005]为了实现上述专利技术目的,本专利技术提供了以下技术方案:
[0006]一种基于语义挖掘的接触网文本数据缺陷识别方法,包括:
[0007]获取原始接触网文本数据,对所述原始接触网文本数据进行预处理;
[0008]将预处理后的接触网文本数据输入至预先建立的文本挖掘

缺陷分类模型,利用所述预先建立的文本挖掘

缺陷分类模型生成接触网文本数据的缺陷类别;
[0009]其中,所述预先建立的文本挖掘

缺陷分类模型为:BERT

DTCN联合模型;其中。BERT子模型用于对预处理后的接触网文本数据进行语义挖掘,DTCN子模型用于对BERT子模型输出的语义挖掘文本进行缺陷分类。
[0010]根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述BERT子模型具有12层双向Transformer。
[0011]根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述DTCN子模型包括:嵌入层、等长卷积层、卷积堆叠层和全连接层。
[0012]根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述等长卷积层,包括:4层二维卷积核以及最大池化层;
[0013]所述二维卷积核之间采用Pre

activation残差连接。
[0014]根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述二维卷积核的核参数为3
×
1,stride为1,channel数为140。
[0015]根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述最大池化层的stride为2。
[0016]根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述卷积堆叠层,包括:1/2池化层,所述1/2池化层用于减少卷积计算量。
[0017]根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,通过以下方法预先建立所述文本挖掘

缺陷分类模型,包括:
[0018]建立初始BERT

DTCN联合模型;
[0019]从高速铁路供电段获取大量原始接触网缺陷文本数据,对所述原始接触网缺陷文本数据进行预处理,并基于规范文件对原始接触网缺陷文本数据进行缺陷文本标注与缺陷类别标注,得到训练样本数据集;
[0020]利用所述训练样本数据集对所述初始BERT

DTCN联合模型进行训练,以使所述初始BERT

DTCN联合模型满足条件收敛,得到所述文本挖掘

缺陷分类模型。
[0021]根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述对所述原始接触网文本数据进行预处理,包括:
[0022]删除所述原始接触网文本数据中的重复、错误及不完整数据,并将所述原始接触网文本数据进行词组向量表示。
[0023]本专利技术的另一方面,提供一种电子设备,包括处理器、网络接口和存储器,所述处理器、所述网络接口和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述基于语义挖掘的接触网文本数据缺陷识别方法。
[0024]与现有技术相比,本专利技术的有益效果:
[0025]本专利技术实施例所提供的方法,通过获取原始接触网文本数据,对所述原始接触网文本数据进行预处理;利用预先建立的文本挖掘

缺陷分类模型对预处理后的接触网文本数据进行语义挖掘与缺陷分类,其中,所述预先建立的文本挖掘

缺陷分类模型为:BERT

DTCN联合模型;本方法针对接触网文本数据的文本特点,设计相应的语义挖掘

缺陷分类联合模型,基于BERT语义挖掘子模型高效、准确地挖掘缺陷记录中包含的缺陷知识,同时配合DTCN缺陷分类子模型确定缺陷严重程度识别,从而为发现有价值的缺陷知识和缺陷严重程度识别提供强大可靠的信息基础,促进缺陷处理和相关维护活动的调整。
附图说明
[0026]图1为本专利技术在一种实施例中的基于语义挖掘的接触网文本数据缺陷识别方法流程图;
[0027]图2为本专利技术在一种实施例中的BERT模型示意图;
[0028]图3为本专利技术在一种实施例中的BERT模型输入表示示意图;
[0029]图4为本专利技术在一种实施例中的Transformer编码器基本结构示意图;
[0030]图5为本专利技术在一种实施例中的注意力机制原理框图;
[0031]图6为本专利技术在一种实施例中的DTCN网络结构示意图;
[0032]图7为本专利技术在一种实施例中的原始缺陷文本示意图;
[0033]图8a为本专利技术在一种实施例中的BERT文本编码示意图;
[0034]图8b为本专利技术在一种实施例中的BERT Mask编码示意图;
[0035]图9为本专利技术在一种实施例中的经过Bert模型预训练学习后输出的词嵌入向量示意图;...

【技术保护点】

【技术特征摘要】
1.一种基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,包括:获取原始接触网文本数据,对所述原始接触网文本数据进行预处理;将预处理后的接触网文本数据输入至预先建立的文本挖掘

缺陷分类模型,利用所述预先建立的文本挖掘

缺陷分类模型生成接触网文本数据的缺陷类别;其中,所述预先建立的文本挖掘

缺陷分类模型为:BERT

DTCN联合模型;其中,BERT子模型用于对预处理后的接触网文本数据进行语义挖掘,DTCN子模型用于对BERT子模型输出的语义挖掘文本进行缺陷分类。2.根据权利要求1所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述BERT子模型具有12层双向Transformer。3.根据权利要求1所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述DTCN子模型包括:嵌入层、等长卷积层、卷积堆叠层和全连接层。4.根据权利要求3所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述等长卷积层,包括:4层二维卷积核以及最大池化层;所述二维卷积核之间采用Pre

activation残差连接。5.根据权利要求4所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述二维卷积核的核参数为3
×
1,stride为1,channel数为140。6.根据权利要求4所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述最大池化层的st...

【专利技术属性】
技术研发人员:蔡俊宇陈可王健谢晨琳杨佳邓云川林宗良陈科于龙钟源丁润刘涛鲁小兵李默然杨洋邵岩谭磊刘习文王彦哲梁婧文陈子文朱晟颉代玉林
申请(专利权)人:中铁二院工程集团有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1