一种基于BiLSTM的陆空通话复诵语义自动校验方法技术

技术编号:20681258 阅读:40 留言:0更新日期:2019-03-27 18:59
一种基于BiLSTM的陆空通话复诵语义自动校验方法。其包括制作陆空通话复诵语料库;对语料库预处理;将每一复诵语句对中两个语句的词向量序列分别输入到两个并列的BiLSTM中,得到两个语句各个时刻的输出;将两个BiLSTM每个时刻的输出向量进行匹配,生成一个复诵语句对间的语义匹配矩阵;对语义匹配矩阵进行k‑Max池化处理,得到前k个匹配特征,由这些匹配特征构成显著匹配特征向量;判定复诵语句对中两个语句复诵是否一致等步骤。本发明专利技术利用了BiLSTM网络能够自动学习语句序列的语义特征优势,能够免去人工设计特征的开销,并且BiLSTM网络可以提取出更加丰富的上下文语义特征。

【技术实现步骤摘要】
一种基于BiLSTM的陆空通话复诵语义自动校验方法
本专利技术属于民航运输中陆空通话复诵语义自动校验
,特别是涉及一种基于BiLSTM的陆空通话复诵语义自动校验方法。
技术介绍
随着现代社会科技水平的提高和社会发展步伐的加快,空中交通流量的急剧增加,民航运输事业在人们的生产生活中所占的比例不断增加,因此航空运输安全问题也越来越受到人们的重视。在民航运输中,导致事故发生的因素可以归纳为三类:自然因素、机械故障和人为因素。随着科学技术的发展,由自然因素和机械故障导致的飞行事故发生率得到了大幅度下降,但是由于人为因素导致的事故发生率并没有能够得到明显的降低。常见的人为因素有操作失误、维修故障和陆空通话错误。无线电陆空通话是当前空中交通服务单元与航空器之间进行话音通信的重要方式之一。针对陆空通话用语的特点,国际民航组织及各国民航管理机构不断完善空中交通的通话标准。但是,由于陆空对话成员之间存在着语种、口音、语义表达和理解方式等差异,同时受工作强度、精神压力、情绪等因素的影响,无线电陆空通话失误也时有发生。在实际的飞行过程中,一个很小的通话失误就可能会造成致命的飞行事故。陆空通话失误类型主要有内容不正确、用语不规范、信息纰漏、复诵错误或无复诵。深度学习中的递归神经网络(RNN)在处理序列数据上有着很好的应用,RNN的变形长短期记忆网络(LSTM)及双向的长短时记忆循环网络(BiLSTM)解决了RNN训练过程中梯度消失问题,被广泛地应用在自然语言处理问题中,比如语句匹配、文本分类、信息检索、机器翻译等任务中。但是目前并未发现结合BiLSTM的用于陆空通话复诵语义自动校验任务的相关方法。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供一种基于BiLSTM的陆空通话复诵语义自动校验方法。为了达到上述目的,本专利技术提供的基于BiLSTM的陆空通话复诵语义自动校验方法包括按顺序进行的下列步骤:步骤1)制作陆空通话复诵语料库;步骤2)对上述陆空通话复诵语料库进行预处理,得到每一复诵语句对中两个语句的词向量序列;步骤3)将上述每一复诵语句对中两个语句的词向量序列分别输入到两个并列的BiLSTM中,利用BiLSTM对语句进行语义特征提取,得到两个语句各个时刻的输出;步骤4)将上述两个BiLSTM每个时刻的输出向量进行匹配,生成一个复诵语句对间的语义匹配矩阵;步骤5)对上述语义匹配矩阵进行k-Max池化处理,得到前k个匹配特征,由这些匹配特征构成显著匹配特征向量p,以便更好地实现复诵语句对的匹配;步骤6)最后,将步骤5)中得到显著匹配特征向量p输入到多层感知器中得到复诵语句对两个语句间最终的匹配分数s,匹配分数s是一个0到1间的值,并通过阈值0.5来进行二分类,即将匹配分数s与阈值进行比较,如果匹配分数s大于0.5,判定复诵语句对中两个语句复诵一致,否则复诵不一致。在步骤1)中,所述的制作陆空通话复诵语料库的方法包括下列步骤:步骤1.1)将真实的陆空通话录音转换为文本形式,并从中挑选出复诵类型的语句对作为陆空通话的复诵语句对,每个复诵语句对分别由管制员发送的指令和飞行员的复诵指令这两个语句组成,然后将其存储为文本txt格式;步骤1.2)依据《空中交通管制员无线电陆空通话》中的陆空通话规则及相关要求,将上述复诵语句对作为样本并进行正负样本标注,将其中复诵正确的复诵语句对标注为正样本并设置标签为1,而将复诵错误的复诵语句对标注为负样本并设置标签为0;步骤1.3)以每个词语为单位将上述所有复诵语句对中的语句进行分词,由分词后的所有复诵语句对构成陆空通话复诵语料库。在步骤2)中,所述的对陆空通话复诵语料库进行预处理的方法包括下列步骤:步骤2.1)根据民航的陆空通话标准和上述陆空通话复诵语料库制作专用词表;步骤2.2)依据上述得到的专用词表,获得管制员发送的指令和飞行员的复诵指令中每一词语的one-hot词向量和word2vec词向量,由这些词向量构成每一复诵语句对中两个语句的词向量序列。在步骤4)中,所述的将上述两个BiLSTM每个时刻的输出向量进行匹配,生成一个复诵语句对间的语义匹配矩阵的方法是;将两个BiLSTM每个时刻的输出向量分别利用余弦相似度和神经张量网络两种方法进行匹配,具体方法如下:①余弦相似度:设u、v分别是两个BiLSTM某时刻的输出向量,R(u,v)表示两个BiLSTM某时刻的输出向量u、v间的匹配度,其计算公式如式(10)所示:②神经张量网络:利用神经张量网络来计算两个BiLSTM某时刻的输出向量u、v间的匹配度,计算公式如式(11)所示:其中,Mi,i∈[1,2,...,c]为张量参数,Wuv和b是线性部分参数,f是一个非线性函数,表达式为:f(z)=max(0,z)。在步骤6)中,所述的最终的匹配分数s的具体计算公式如式(12)、(13)所示:q=h(Wqp+bq)(12)s=Wsq+bs(13)其中Wq和Ws是多层感知器中的参数矩阵,bq和bs是相应的偏置项,h(·)=tanh(·)为激活函数,q为计算出的隐层输出,s为多层感知器的输出结果,即复诵语句对两个语句间最终的匹配分数。本专利技术提供的基于BiLSTM的陆空通话复诵语义自动校验方法具有如下优点:本专利技术提供的基于BiLSTM的陆空通话复诵语义自动校验方法利用了BiLSTM网络能够自动学习语句序列的语义特征优势,能够免去人工设计特征的开销,并且BiLSTM网络可以提取出更加丰富的上下文语义特征。本专利技术不仅能在语句级别对语义特征进行匹配,而且能在词级别对复诵语句对进行匹配,可得到更细粒度的匹配特征,从而更好地完成复诵语义校验任务。附图说明图1为本专利技术提供的基于BiLSTM的陆空通话复诵语义自动校验方法流程图。图2为传统RNN按时间序列的展开图。图3为LSTM结构图。图4为BiLSTM网络结构图。图5为基于BiLSTM的陆空通话复诵语义自动校验方法结构图。图6为传统Siamese-LSTM模型进行陆空通话复诵语义校验的流程图。图7为Word2vec作为输入词向量的陆空通话复诵语义校验实验结果。图8为one-hot作为输入词向量的陆空通话复诵语义校验实验结果。具体实施方式下面结合附图和具体实施例对本专利技术提供的基于BiLSTM的陆空通话复诵语义自动校验方法进行详细说明。如图1所示,本专利技术提供的基于BiLSTM的陆空通话复诵语义自动校验方法包括按顺序进行的下列步骤:步骤1)制作陆空通话复诵语料库;步骤1.1)将真实的陆空通话录音转换为文本形式,并从中挑选出复诵类型的语句对作为陆空通话的复诵语句对,每个复诵语句对分别由管制员发送的指令和飞行员的复诵指令这两个语句组成,然后将其存储为文本txt格式;步骤1.2)依据《空中交通管制员无线电陆空通话》中的陆空通话规则及相关要求,将上述复诵语句对作为样本并进行正负样本标注,将其中复诵正确的复诵语句对标注为正样本并设置标签为1,而将复诵错误的复诵语句对标注为负样本并设置标签为0;步骤1.3)为了方便计算机对样本进行处理,以每个词语为单位将上述所有复诵语句对中的语句进行分词,由分词后的所有复诵语句对构成陆空通话复诵语料库;步骤2)对上述陆空通话复诵语料库进行预处理,得到每一复诵语句对中两个语句的词向量序列;步骤2.1本文档来自技高网
...

【技术保护点】
1.一种基于BiLSTM的陆空通话复诵语义自动校验方法,其特征在于:所述的基于BiLSTM的陆空通话复诵语义自动校验方法包括按顺序进行的下列步骤:步骤1)制作陆空通话复诵语料库;步骤2)对上述陆空通话复诵语料库进行预处理,得到每一复诵语句对中两个语句的词向量序列;步骤3)将上述每一复诵语句对中两个语句的词向量序列分别输入到两个并列的BiLSTM中,利用BiLSTM对语句进行语义特征提取,得到两个语句各个时刻的输出;步骤4)将上述两个BiLSTM每个时刻的输出向量进行匹配,生成一个复诵语句对间的语义匹配矩阵;步骤5)对上述语义匹配矩阵进行k‑Max池化处理,得到前k个匹配特征,由这些匹配特征构成显著匹配特征向量p,以便更好地实现复诵语句对的匹配;步骤6)最后,将步骤5)中得到显著匹配特征向量p输入到多层感知器中得到复诵语句对两个语句间最终的匹配分数s,匹配分数s是一个0到1间的值,并通过阈值0.5来进行二分类,即将匹配分数s与阈值进行比较,如果匹配分数s大于0.5,判定复诵语句对中两个语句复诵一致,否则复诵不一致。

【技术特征摘要】
1.一种基于BiLSTM的陆空通话复诵语义自动校验方法,其特征在于:所述的基于BiLSTM的陆空通话复诵语义自动校验方法包括按顺序进行的下列步骤:步骤1)制作陆空通话复诵语料库;步骤2)对上述陆空通话复诵语料库进行预处理,得到每一复诵语句对中两个语句的词向量序列;步骤3)将上述每一复诵语句对中两个语句的词向量序列分别输入到两个并列的BiLSTM中,利用BiLSTM对语句进行语义特征提取,得到两个语句各个时刻的输出;步骤4)将上述两个BiLSTM每个时刻的输出向量进行匹配,生成一个复诵语句对间的语义匹配矩阵;步骤5)对上述语义匹配矩阵进行k-Max池化处理,得到前k个匹配特征,由这些匹配特征构成显著匹配特征向量p,以便更好地实现复诵语句对的匹配;步骤6)最后,将步骤5)中得到显著匹配特征向量p输入到多层感知器中得到复诵语句对两个语句间最终的匹配分数s,匹配分数s是一个0到1间的值,并通过阈值0.5来进行二分类,即将匹配分数s与阈值进行比较,如果匹配分数s大于0.5,判定复诵语句对中两个语句复诵一致,否则复诵不一致。2.根据权利要求1所述的基于BiLSTM的陆空通话复诵语义自动校验方法,其特征在于:在步骤1)中,所述的制作陆空通话复诵语料库的方法包括下列步骤:步骤1.1)将真实的陆空通话录音转换为文本形式,并从中挑选出复诵类型的语句对作为陆空通话的复诵语句对,每个复诵语句对分别由管制员发送的指令和飞行员的复诵指令这两个语句组成,然后将其存储为文本txt格式;步骤1.2)依据《空中交通管制员无线电陆空通话》中的陆空通话规则及相关要求,将上述复诵语句对作为样本并进行正负样本标注,将其中复诵正确的复诵语句对标注为正样本并设置标签为1,而将复诵错误的复诵语句对标注为负样本并设置标签为0;步骤1.3)以每个词语为单位将上述所有复诵语句对中的语句进行分词,由分词后的所有复诵语...

【专利技术属性】
技术研发人员:贾桂敏李丹杨金锋
申请(专利权)人:中国民航大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1