一种铁路安监数据处理方法、系统、装置和存储介质制造方法及图纸

技术编号:26223183 阅读:29 留言:0更新日期:2020-11-04 10:55
本发明专利技术公开了一种铁路安监数据处理方法、系统、装置和存储介质,铁路安监数据处理方法包括获取TextCNN模型,将铁路安监数据分别进行多种词嵌入处理;各词嵌入处理的种类数与TextCNN模型的通道数量相匹配,各词嵌入处理分别产生一个第一词向量,将各第一词向量输入到TextCNN模型,以及获取TextCNN模型的输出结果等步骤。使用经过训练的TextCNN模型对自然语言文本形式的铁路安监数据进行分类和整理,具有较高的效率和较低的出错率,可以应对海量铁路安监数据,能够挖掘出日常安全管理工作中积累的原始记录信息,对后续总结安监工作、汲取历史经验具有重要价值。本发明专利技术广泛应用于自然语言处理技术领域。

【技术实现步骤摘要】
一种铁路安监数据处理方法、系统、装置和存储介质
本专利技术涉及自然语言处理
,尤其是一种铁路安监数据处理方法、系统、装置和存储介质。
技术介绍
铁路路网规模的不断扩张和新技术新设备大量投入使用,给铁路运输安全带来新的挑战,确保铁路生产和旅客安全已经上升到国家安全发展的战略高度。在铁路安监领域,安监工作会产生铁路安监风险问题字典库和铁路发牌问题描述记录等铁路安监数据,这些铁路安监数据中包含了日常安全管理工作中积累的原始记录信息,对后续总结安监工作、汲取历史经验具有重要价值。铁路安监数据是以自然语言文本的方式展现的,现有技术中是由人工对铁路安监数据进行分类和整理,但是人工操作的低效率和高出错率难以应对实际生产中的海量铁路安监数据。
技术实现思路
针对上述至少一个技术问题,本专利技术的目的在于提供一种铁路安监数据处理方法、系统、装置和存储介质。一方面,本专利技术实施例包括一种铁路安监数据处理方法,包括以下步骤:获取TextCNN模型;所述TextCNN模型有多个通道;将所述铁路安监数据分别进行多种词嵌入处理;各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配,各所述词嵌入处理分别产生一个第一词向量;将各所述第一词向量输入到所述TextCNN模型;获取所述TextCNN模型的输出结果。进一步地,所述铁路安监数据包括铁路安监风险问题字典库和/或铁路发牌问题描述记录。进一步地,铁路安监数据处理方法还包括以下步骤:使用Jieba分词算法对所述铁路安监数据进行分词处理;对所述铁路安监数据进行去停用词处理;确定所述铁路安监数据的标签;所述标签用于对所述铁路安监数据进行车务二级分类、车务三级分类或车务四级分类。进一步地,所述TextCNN模型经过以下训练:将所述铁路安监数据分别进行多种词嵌入处理;各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配,各所述词嵌入处理分别产生一个第二词向量;获取部分或全部所述第二词向量以组成训练数据集和测试数据集;设置所述TextCNN模型训练参数;将所述训练数据集和测试数据集作为所述TextCNN模型的输入数据,将所述训练数据集和测试数据集中的所述第二词向量对应的所述标签作为所述TextCNN模型的期望输出,执行对所述TextCNN模型的训练。进一步地,所述训练参数包括批量大小、迭代次数、测试间隔、保存模型间隔、最长输入长度、词向量维度、卷积核大小、卷积核深度、学习率和dropout率中的至少一个。进一步地,所述多种词嵌入处理包括Word2vec、Glove、TF-IDF、BOW和One-Hot中的至少两种。进一步地,铁路安监数据处理方法还包括以下步骤:当所述铁路安监数据的数据量大于第一数据量阈值,对所述TextCNN模型中的嵌入层进行随机初始化,在对所述TextCNN模型进行训练时,对所述嵌入层进行更新;当所述铁路安监数据的数据量小于第二数据量阈值,对所述第一词向量进行预训练,用经过预训练的所述第一词向量初始化所述嵌入层;所述第一数据量阈值不小于所述第二数据量阈值。另一方面,本专利技术实施例还包括一种铁路安监数据处理系统,包括:TextCNN模型模块,用于获取TextCNN模型;所述TextCNN模型有多个通道;词嵌入处理模块,用于将所述铁路安监数据分别进行多种词嵌入处理;各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配,各所述词嵌入处理分别产生一个第一词向量;输入模块,用于将各所述第一词向量输入到所述TextCNN模型;输出模块,用于获取所述TextCNN模型的输出结果。另一方面,本专利技术实施例还包括一种计算机装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行实施例所述方法。另一方面,本专利技术实施例还包括一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行实施例所述方法。本专利技术的有益效果是:本专利技术的实施例使用经过训练的TextCNN模型代替人工对自然语言文本形式的铁路安监数据进行分类和整理,具有较高的效率和较低的出错率,可以应对海量铁路安监数据;通过对铁路安监数据进行分类,能够挖掘出日常安全管理工作中积累的原始记录信息,对后续总结安监工作、汲取历史经验具有重要价值。附图说明图1为实施例中所使用的TextCNN模型的结构图;图2为实施例中的铁路安监数据处理方法流程图。具体实施方式本专利技术的实施例中,所要处理的铁路安监数据包括铁路安监风险问题字典库和/或铁路发牌问题描述记录。在执行铁路安监数据处理方法对铁路安监数据进行处理之前,可以先训练TextCNN模型。训练TextCNN模型所使用的铁路安监数据,可以先经过如下预处理步骤处理:P1.使用Jieba分词算法对所述铁路安监数据进行分词处理;P2.对所述铁路安监数据进行去停用词处理;P3.确定所述铁路安监数据的标签;所述标签用于对所述铁路安监数据进行车务二级分类、车务三级分类或车务四级分类。步骤P1中使用Python+Jieba分词工具进行分词处理,步骤P1涉及的过程包括:(1)基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);(2)采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;(3)对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。结巴分词支持繁体分词和自定义字典方法。结巴中文分词支持的三种分词模式包括:(1)精确模式:试图将句子最精确地切开,适合文本分析;(2)全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义问题;(3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。步骤P2用于去除铁路安监数据中的日期、时间、地点、人名以及噪音符号如["\"","=","\\","/",":","-","(",")",",",".","\n"]等的冗余信息。具体地,可以使用基于Numpy工具中的pandas数据分析函数来执行步骤P2。步骤P3中,根据铁路安监数据的车务二级分类、车务三级分类或车务四级分类结果,使用标签对铁路安监数据进行标记,即铁路安监数据的分类结果体现在其标签中。例如,车务二级分类的分类结果包括调车作业和接发列车,车务三级分类的分类结果包括表簿台账、监视信号、交接班接发列车用语和立岗接发车。如果对铁路安监数据进行车务二级分类,铁路安监数据所标记的标签用于表示铁路安监数据属于调车作业或接发列车。本专利技术的实施例中,执行以下步骤以对TextCNN模型进行训练:T1.将所述铁路安监数据分别进行多种词嵌入处本文档来自技高网...

【技术保护点】
1.一种铁路安监数据处理方法,其特征在于,包括以下步骤:/n获取TextCNN模型;所述TextCNN模型有多个通道;/n将所述铁路安监数据分别进行多种词嵌入处理;各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配,各所述词嵌入处理分别产生一个第一词向量;/n将各所述第一词向量输入到所述TextCNN模型;/n获取所述TextCNN模型的输出结果。/n

【技术特征摘要】
1.一种铁路安监数据处理方法,其特征在于,包括以下步骤:
获取TextCNN模型;所述TextCNN模型有多个通道;
将所述铁路安监数据分别进行多种词嵌入处理;各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配,各所述词嵌入处理分别产生一个第一词向量;
将各所述第一词向量输入到所述TextCNN模型;
获取所述TextCNN模型的输出结果。


2.根据权利要求1所述的铁路安监数据处理方法,其特征在于,所述铁路安监数据包括铁路安监风险问题字典库和/或铁路发牌问题描述记录。


3.根据权利要求1所述的铁路安监数据处理方法,其特征在于,还包括以下步骤:
使用Jieba分词算法对所述铁路安监数据进行分词处理;
对所述铁路安监数据进行去停用词处理;
确定所述铁路安监数据的标签;所述标签用于对所述铁路安监数据进行车务二级分类、车务三级分类或车务四级分类。


4.根据权利要求1所述的铁路安监数据处理方法,其特征在于,所述TextCNN模型经过以下训练:
将所述铁路安监数据分别进行多种词嵌入处理;各所述词嵌入处理的种类数与所述TextCNN模型的通道数量相匹配,各所述词嵌入处理分别产生一个第二词向量;
获取部分或全部所述第二词向量以组成训练数据集和测试数据集;
设置所述TextCNN模型训练参数;
将所述训练数据集和测试数据集作为所述TextCNN模型的输入数据,将所述训练数据集和测试数据集中的所述第二词向量对应的所述标签作为所述TextCNN模型的期望输出,执行对所述TextCNN模型的训练。


5.根据权利要求4所述的铁路安监数据处理方法,其特征在于,所述训练参数包括批量大小、迭代次...

【专利技术属性】
技术研发人员:凌政董选明
申请(专利权)人:广州忘平信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1