一种基于CNN的陆空通话复诵差错分类方法技术

技术编号:19634984 阅读:32 留言:0更新日期:2018-12-01 15:43
一种基于CNN的陆空通话复诵差错分类方法。其包括制作语料库;得到增强one‑hot词向量;产生每一复诵对中两个语句的句子矩阵;将句子矩阵输入传统CNN或one‑layer CNN中而产生语义向量;对由传统CNN或者one‑layer CNN输出的语义向量进行匹配而得到匹配向量;利用全连接softmax层对匹配向量进行分类,由此完成陆空通话复诵差错分类等步骤。本发明专利技术优点:利用了CNN自动学习文本语义特征优势,能免去人工设计特征的开销,可自动实现陆空通话复诵差错分类,不需对大量数据进行统计分析。利用了CNN参数共享的优势,减少了模型参数以及模型复杂度,从而缩小运行时间,有利于实现实时检测目的。

A Classification Method of Recitation Errors of Land-Air Telephone Based on CNN

An error classification method based on CNN for land-air call repetition. It includes making corpus, obtaining enhanced one hot word vectors, generating sentence matrices for two sentences in each recitation pair, generating semantic vectors by inputting sentence matrices into traditional CNN or one layer CNN, matching the semantic vectors output by traditional CNN or one layer CNN, and obtaining matching vectors by using full connection. Softmax layer classifies the matching vectors, thus completing the steps of error classification of land-air call repetition. The advantages of the invention are that the advantages of CNN automatic learning text semantic features can be utilized, the overhead of manual design features can be avoided, and the error classification of land-air call repetition can be realized automatically without statistical analysis of large amounts of data. By using the advantage of CNN parameter sharing, the model parameters and complexity are reduced, thus the running time is reduced, and the real-time detection purpose is realized.

【技术实现步骤摘要】
一种基于CNN的陆空通话复诵差错分类方法
本专利技术属于民航运输中陆空通话复诵差错分类
,特别是涉及一种基于CNN的陆空通话复诵差错分类方法。
技术介绍
众所周知,航空飞行安全在民航事业中始终位于首位。在民航运输中,导致事故发生的因素可以归纳为三类:自然因素、机械故障和人为因素。随着科技的发展,由自然因素和机械故障导致的事故发生率呈现大幅下降趋势,但是由人为因素导致的事故发生率并没有明显的下降。据美国联邦航空局(NASA)的调查报告显示,陆空通话错误是人为因素中的主要原因。其中,陆空通话复诵错误所占比例接近一半。为了降低由陆空通话错误造成的航空不安全事件发生率,我们必须掌握复诵差错类型及复诵差错类型的趋势,这对于改善管制员与飞行员之间的通信质量,提高民航飞行安全具有重要的现实意义。以往的研究均是通过对大量的陆空通话数据进行统计分析以完成复诵差错分析工作,这不仅需要耗费大量的人力和物力,而且在数据量过大时容易出现错误分析的状况。因此,建立一个自动的陆空通话复诵差错分类模型尤为重要。深度学习中的卷积神经网络(CNN)在计算机视觉领域有着很好的应用,近些年来也不断被用于自然语言处理领本文档来自技高网...

【技术保护点】
1.一种基于CNN的陆空通话复诵差错分类方法,其特征在于:所述的基于CNN的陆空通话复诵差错分类方法包括按顺序进行的下列步骤:步骤1)制作语料库;步骤2)根据民航的通话标准和上述语料库制作专用词表并获得词语的one‑hot词向量,并且对one‑hot向量进行简单的改进得到增强one‑hot词向量;步骤3)利用增强one‑hot词向量产生每一复诵对中两个语句的句子矩阵;步骤4)将上述每一复诵对中两个句子矩阵输入传统CNN或者one‑layer CNN中而产生每一复诵对中两个语句的语义向量;步骤5)对由传统CNN或者one‑layer CNN输出的每一复诵对中两个语句的语义向量进行匹配而得到复诵对...

【技术特征摘要】
1.一种基于CNN的陆空通话复诵差错分类方法,其特征在于:所述的基于CNN的陆空通话复诵差错分类方法包括按顺序进行的下列步骤:步骤1)制作语料库;步骤2)根据民航的通话标准和上述语料库制作专用词表并获得词语的one-hot词向量,并且对one-hot向量进行简单的改进得到增强one-hot词向量;步骤3)利用增强one-hot词向量产生每一复诵对中两个语句的句子矩阵;步骤4)将上述每一复诵对中两个句子矩阵输入传统CNN或者one-layerCNN中而产生每一复诵对中两个语句的语义向量;步骤5)对由传统CNN或者one-layerCNN输出的每一复诵对中两个语句的语义向量进行匹配而得到复诵对的匹配向量;步骤6)最后,利用一个全连接softmax层对上述匹配向量进行分类,由此完成陆空通话复诵差错分类。2.根据权利要求1所述的基于CNN的陆空通话复诵差错分类方法,其特征在于:在步骤1)中,所述的制作语料库的方法包括下列步骤:步骤1.1)从真实的陆空通话录音中挑选出多个复诵类型的语音对作为复诵对,每个复诵对由管制员发送的指令和飞行员复诵两个语句组成,然后存储为文本txt格式;步骤1.2)将上述多个复诵对中复诵正确的复诵对作为正样本,复诵错误的复诵对作为负样本,负样本中包括常见的复诵差错类型:航向信息复诵错误、跑道信息复诵错误、飞机呼号信息复诵错误、高度信息复诵错误、部分信息缺失错误;步骤1.3)对上述所有复诵对进行分词:为了方便描述语句的语义,需要对复诵对进行分词,以每个词语为单位将语句进行分词,由分词之后的所有复诵对构成语料库。3.根据权利要求1所述的基于CNN的陆空通话复诵差错分类方法,其特征在于:在步骤2)中,所述的根据民航的通话标准和上述语料库制作专用词表并获得词语的one-hot词向量,并且对one-hot向量进行简单的改进得到增强one-hot词向量的方法包括下列步骤:步骤2.1)根据民航的通话标准和上述语料库制作一个专用词表;步骤2.2)利用上述专用词表获得语料库中词语的one-hot词向量以及增强one-hot词向量;其中,one-hot词向量中只有一个位置为“1”,其它位置全为“0”,词向量的维度为专用词表的长度;同时,在one-hot词向量之后加入标志位“1”得到增强one-hot词向量。4.根据权利要求1所述的基于CNN的陆空通话复诵差错分类方法,其特征在于:在步骤3)中,所述的利用增强one-hot词向量产生每一复诵对中两个语句的句子矩阵的方法是:将每一语句中所有词语的增强one-hot词向量按行进行排列得到句子矩阵。5.根据权利要求1所述的基于CNN的陆空通话复诵差错分类方法,其特征在于:在步骤4)中,所述的将每一复诵对中两个句子矩阵输入传统CNN或者one-layerCNN中而产生每一复诵对中两个语句的语义向量的方法是:将每个复诵对中的两个句子矩阵分别输入到两个相同参数的传统CNN或者one-layerCNN中,这两个参数相同的CNN...

【专利技术属性】
技术研发人员:贾桂敏程方圆杨金锋
申请(专利权)人:中国民航大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1