基于自然语言的适航指令问题特征的提取制造技术

技术编号:26792120 阅读:14 留言:0更新日期:2020-12-22 17:07
本发明专利技术涉及适航审定技术领域,具体的讲是基于自然语言的适航指令问题特征的提取,按如下步骤进行提取:提取适航指令背后的问题描述章节,进行文本数据预处理;检测重叠句簇;选择给定数量的句簇;提取特征描述符。本发明专利技术通过检测重叠句簇来提取特征和直接从文本描述中选择短语来提取特征的方法具有更高的准确性,同时,在时间消耗方面也比现有技术选择的对比方法有更好的表现,在实际针对适航指令的特征提取中也能够发现适航指令文本所表达的航空器产品的关键设计特征。

【技术实现步骤摘要】
基于自然语言的适航指令问题特征的提取
本专利技术涉及适航审定
,具体的讲是基于自然语言的适航指令问题特征的提取。
技术介绍
在航空器运行全生命周期过程中提取影响安全的设计特征和安全趋势也是适航审查活动的主要开展方式,即适航审定的“监听模式”。监听模式的典型应用是针对设计、制造和使用过程中记录和上报的各类微小偏离和不安全信息。通常情况下,航空器设计、制造和使用环节中会累积大量关于各种偏离和更改的描述信息。这些信息来源、用途以及描述方式各不相同,其中所包含的航空器不安全设计特征往往也并不明显。在数据规模较大的情况下,审查人员无法人工发现和定位与当前活动真正有价值的适航参考信息,从而造成大量有价值的适航辅助信息无法在审查工作中给予审查人员足够的信息支撑。在这种监听模式下,如果能充分利用现有的自然语言处理技术,将相关信息中的不安全特征进行自动提取和推送将极大的改善信息平台中不同业务单元间信息的共享效率。为此设计一种基于自然语言的适航指令问题特征的提取方法是十分有必要的。
技术实现思路
本专利技术突破了现有技术的难题,设计了一种基于自然语言的适航指令问题特征的提取方法,能有效的发现不同航空器设计特征和风险因素,具有更高的准确性,在时间消耗方面也比现有的对比方法有更好的表现。为了达到上述目的,本专利技术设计了基于自然语言的适航指令问题特征的提取方法,其特征在于:按如下步骤进行提取:S1提取适航指令背后的问题描述章节,进行文本数据预处理;S2检测重叠句簇;S3选择给定数量的句簇S4提取特征描述符。进一步的,S1中所述的文本数据预处理为:过滤文本中的噪声描述与单词,然后使用NLTK(自然语言处理工具包)进行自然语言处理,并获得一个句子列表,该句子列表由TF-IDF(termfrequency–inversedocumentfrequency,是一种用于信息检索与数据挖掘的常用加权技术)向量形式的所有句子组成。进一步的,S2所述的检测重叠句簇的具体步骤为:S21建立句子相似性网络;S22选择种子;S23判断是否找到种子,是,则进入下一步,否,则确定该句子为重叠句簇;S24发现句簇成员;S25识别句簇的关键词;S26更新句子相似性网络,重新进入S21步骤,直到所有的句子都确认为重叠句簇。进一步的,S3所述的选择给定数量的句簇的具体方法为:按簇大小和簇关键字的平均权重将所发现的句簇进行重新拍列。进一步的,使用NLTK进行自然语言处理的具体方法为:(7)句子提取:将产品描述中的各个句子分离;(8)词汇切分:将句子分割为单词;(9)词性标注:识别各个单词的词性;(10)单词选择:只保留动词、名词和形容词;(11)删除停用词:删除常用的一些不具有特定含义的单词;(12)词干化:将单词转化词根形式。进一步的,由TF-IDF向量形式形成的句子列表的方式为:将一个类别内的所有文本表述的句子集合为一个文档,使用TF-IDF方法计算集合中每个单词的权重,将一个类别内文本描述的所有句子转变为向量,将所有句子向量根据公式进行归一化处理;其中xi表示第i个句子的x向量。进一步的,建立句子相似性网络的方法为:利用节点之间边的权重来度量句子之间的相似性,利用相似性计算公式获得句子之间的相似性结果,建立句子相似性网络.进一步的,选择种子的具体方法为:选择当前与权值最大、且权值大于阈值的边相连的节点作为种子。进一步的,发现句簇成员的具体方法为:将选择的种子作为新簇的初始质心,然后重叠句簇的发现算法开始迭代考察新簇的每个邻居节点是否可以作为当前句簇的成员;其中邻居是指相似性网络中的节点,这些节点与当前句簇中的节点有连接。进一步的,识别句簇的关键词的具体方法为:采用skLearn包中的k-均值算法将簇质心向量中权重大于0的单词分为两组,然后选取平均权重大的一组单词作为关键词。进一步的,选择给定数量的句簇的具体方法为:计算每个重叠句簇的权重,对各个句簇进行排序;其中计算公式为:CW(ci)表示重叠句簇ci的权重,|ci|表示簇的大小,av(ci)表示簇关键字的平均权重。进一步的,提取特征描述符的具体方法为:基于WordNet合并同义词,根据同义词的频率对双词短语进行排序,最后将最频繁的双词短语作为表述特征的描述符。本专利技术还设计了基于自然语言的适航指令问题体征提取系统,其特征在于:所述系统包括:数据获取单元,用于获取适航指令的文本信息;数据处理单元,用于对获取的文本信息进行特征提取处理。本专利技术还设计了一种适航指令问题特征提取装置,其特征在于:包括处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:执行如下方法:首先在文本描述的句子中检测(Detect)所有潜在的重叠句簇,然后对发现的句簇进行排序并选择(Select)给定数量的句簇,最后从选定的句簇中提取(Extract)双词短语作为特征描述。第一步是过滤文本中的噪声描述和单词,并获得一个句子列表,该句子列表由TF-IDF向量形式的所有句子组成。由于文本描述中的一个句子可以描述多于一个特征,所以表示各个特征的句簇之间可能彼此重叠。第二个步骤开始寻找簇的种子,然后贪婪地检测簇成员。一旦获得了一个句簇,就从句子列表中删除接近簇质心的语句,因为这些句子确定属于这个句簇,而不是任何其他的句簇。这也意味着簇中的其他句子在进一步的检测过程中可以分配给其他的句簇。同时,识别当前句簇的关键词,并从句子列表中的所有剩余句子中删除这些关键字,所识别的簇关键词将被进一步用于选择句簇和提取双词短语。第三步在选择句簇过程中,按簇大小和簇关键字的平均权重将所发现的句簇进行排序。簇的大小反映了所表示特征的频率,簇关键字的平均权重反映了特征的重要性。在特征描述符提取过程中,将包含簇关键字的最频繁的双词短语选作为特征描述符。本专利技术还设计了一种计算机存储介质,其上存储有计算机程序指令,其特征在于:所述计算机程序指令被处理器执行时实现如下方法:首先在文本描述的句子中检测(Detect)所有潜在的重叠句簇,然后对发现的句簇进行排序并选择(Select)给定数量的句簇,最后从选定的句簇中提取(Extract)双词短语作为特征描述。第一步是过滤文本中的噪声描述和单词,并获得一个句子列表,该句子列表由TF-IDF向量形式的所有句子组成。由于文本描述中的一个句子可以描述多于一个特征,所以表示各个特征的句簇之间可能彼此重叠。第二个步骤开始寻找簇的种子,然后贪婪地检测簇成员。一旦获得了一个句簇,就从句子列表中删除接近簇质心的语句,因为这些句子确定属于这个句簇,而不是任何其他的句簇。这也意味着簇中的其他句子在进一步的检测过程中可以分配给其他的句簇。同时,识别当前句簇的关键词,并从句子列表中的所有剩余句子中删除这些关键字,所识别的簇关键词将被进一步用于选择句簇和提取双词短语本文档来自技高网...

【技术保护点】
1.基于自然语言的适航指令问题特征的提取方法,其特征在于:按如下步骤进行提取:/nS1提取适航指令背后的问题描述章节,进行文本数据预处理;/nS2检测重叠句簇;/nS3选择给定数量的句簇;/nS4提取特征描述符。/n

【技术特征摘要】
1.基于自然语言的适航指令问题特征的提取方法,其特征在于:按如下步骤进行提取:
S1提取适航指令背后的问题描述章节,进行文本数据预处理;
S2检测重叠句簇;
S3选择给定数量的句簇;
S4提取特征描述符。


2.根据权利要求1所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:S1中所述的文本数据预处理为:过滤文本中的噪声描述与单词,然后使用NLTK进行自然语言处理,并获得一个句子列表,该句子列表由TF-IDF向量形式的所有句子组成。


3.根据权利要求1所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:S2所述的检测重叠句簇的具体步骤为:
S21建立句子相似性网络;
S22选择种子;
S23判断是否找到种子,是,则进入下一步,否,则确定该句子为重叠句簇;
S24发现句簇成员;
S25识别句簇的关键词;
S26更新句子相似性网络,重新进入S21步骤,直到所有的句子都确认为重叠句簇。


4.根据权利要求1所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:S3所述的选择给定数量的句簇的具体方法为:按簇大小和簇关键字的平均权重将所发现的句簇进行重新拍列。


5.根据权利要求2所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:所述使用NLTK进行自然语言处理的具体方法为:
(1)句子提取:将产品描述中的各个句子分离;
(2)词汇切分:将句子分割为单词;
(3)词性标注:识别各个单词的词性;
(4)单词选择:只保留动词、名词和形容词;
(5)删除停用词:删除常用的一些不具有特定含义的单词;
(6)词干化:将单词转化词根形式。


6.根据权利要求2所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:所述由TF-IDF向量形式形成的句子列表的方式为:将一个类别内的所有文本表述的句子集合为一个文档,使用TF-IDF方法计算集合中每个单词的权重,将一个类别内文本描述的所有句子转变为向量,将所有句子向量根据公式进行归一化处理;其中xi表示第i个句子的x向量,n表示数量。


7.根据权利要求3所述的基于自然语言的适航指令问题特征的提取方法,其特征在于:所述建立句子相似性网络的方法为:利用...

【专利技术属性】
技术研发人员:朱玉屏蔡喁申岳刘春
申请(专利权)人:中国民用航空上海航空器适航审定中心
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1