一种基于语义自聚类的空管信息标准体系构建方法技术

技术编号:38355258 阅读:12 留言:0更新日期:2023-08-05 17:27
本发明专利技术提供了一种基于语义自聚类的空管信息标准体系构建方法,包括:收集现行有效空管信息标准以及确定未来空管信息标准文本信息,作为空管信息标准体系构建的信息输入;基于人工树形图方法,从七个方面构建空管信息标准体系第一层内容;对空管信息标准文本进行特征抽取,特征维度确定、特征空间构建,基于相似度计算准则确定空管信息标准体系第三层内容;对第三层内容重新进行特征提取,特征维度确定,基于相似度计算准则确定空管信息标准体系第二层;最终形成空管信息标准体系。本发明专利技术为下一代数字化的空管信息标准体系构建提供了技术支撑。技术支撑。技术支撑。

【技术实现步骤摘要】
一种基于语义自聚类的空管信息标准体系构建方法


[0001]本专利技术涉及一种空管信息标准体系构建方法,特别是一种基于语义自聚类的空管信息标准体系构建方法。

技术介绍

[0002]传统的基于人工树形图构建的标准体系一旦编制完成后,一般是以文档的形式保存起来,有很大一部分标准体系都没有充分被利用,且不方便使用。同时对于标准体系随时间推移逐渐出现的无法及时更新、无法进行及时响应等问题,因此需要建立一种能及时更新、及时响应以及动态调整的标准体系。传统的空管信息标准体系管理平台,依赖于相关参与者的事后输入,不仅存在技术信息及时性和准确性的问题,而且因参与者众多容易导致信息安全等事件;于此同时,空管的大部分标准信息一般都保存于不同参与单位中,导致标准的管理无法及时全面记录相关信息标准内容,从而对标准的审查和使用造成一定的困难;传统人工树形图等建模方法构建的空管信息标准体系动态性、可扩展性弱。

技术实现思路

[0003]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于语义自聚类的空管信息标准体系构建方法。
[0004]为了解决上述技术问题,本专利技术公开了一种基于语义自聚类的空管信息标准体系构建方法,包括如下步骤:
[0005]步骤1:收集现行有效空管信息标准数据形成文本信息,作为基于语义自聚类空管信息标准体系构建的信息输入;所述的现行有效空管信息标准数据,包括:空管信息标准的名称、空管信息标准的编号、空管信息标准的类别、空管信息标准的状态、空管信息标准的内容和空管信息标准的属性。
[0006]步骤2:确定未来空管信息标准,包括标准的名称、使用范围、标准的具体内容以及所属业务领域,作为基于语义自聚类空管信息标准体系构建的信息输入;
[0007]步骤3:基于人工树形图的方法,从七个方面构建空管信息标准体系的第一层内容,所述七个方面包括:基础通用信息、空域信息、空中交通流量管理信息、空中交通服务、通导监、航空气象以及航空情报;
[0008]所述的基于人工树形图的方法,包括以下步骤:
[0009]步骤3

1基于结构分解法,分解出空管信息标准体系第一层的内容,第一层内容完全包含现行有效空管信息标准以及未来空管信息标准;所述空管信息标准体系中的用户,包括:军航、民航、通航和无人机用户;所述空管信息标准体系中的维度,包括:通信、导航、监视、气象、管制、流量和空域维度;所述空管信息标准体系中的属性,包括:公用基础、共性支撑和业务应用;
[0010]步骤3

2:以数字和字母相结合的方式对空管信息标准体系的第一层内容进行编号。
[0011]步骤4:针对步骤1中的文本信息和步骤2中的空管信息标准,进行特征抽取,确定特征维度,形成空管信息标准特征空间,包括以下步骤:
[0012]4‑
1:读取步骤1中所述的文本信息以及步骤2中所述的未来空管信息标准中的标准名称、标准引言以及标准范围对应的内容;
[0013]4‑
2:使用jieba技术中的cut方法实现对4

1读取的文本信息进行分词,得到词项;
[0014]4‑
3:使用正则表达式对无用的标签、特殊的符号以及停用词进行清洗;
[0015]4‑
4:统计步骤4

2分词后词项的词频,并根据统计结果,按词频由大到小的顺序,对原始特征即词项进行排序;
[0016]4‑
5:根据步骤4

4的统计结果,基于TF

IDF方法对每个标准包含的文本信息进行特征抽取,具体方法如下:
[0017][0018]其中,|D
i
|代表第i个标准中文本信息包含的词项总数,i∈(1,2,3,

N),|D
l
|代表第i个标准文本含有l词项的总数,N表示现行有效空管信息标准数据以及未来空管信息标准的总数量,l∈(1,2,3,

20)表示第i个标准对应的文档中含有特征值的总数,由专家确定;idf
i
表示词项占比,根据词项占比由小到大选择用于表示每个标准主题的词语作为特征,将选择的词语排序后存为特征列表记为key
i
;对每个标准重复进行上述步骤,完成所述特征抽取。
[0019]所述的确定特征维度是指确定步骤4

5中所述的特征值的总数l;根据专家建议确定特征维度。
[0020]所述的形成空管信息标准特征空间,是指将现行有效空管信息标准数据以及未来空管信息标准的特征列表key
i
;看成空间中的一个点,所有的点形成空管信息标准特征空间。
[0021]步骤5:在空管信息标准特征空间下,基于相似度计算准则,将不同标准组合在k个簇中,并确定簇的名称;确定的k个簇的名称作为所述空管信息标准体系的第三层内容;
[0022]所述的基于相似度计算准则,是指基于杰卡德相似度的计算方法,包括以下步骤:
[0023]步骤5

1:计算所有keyi的相似度,计算方法如下:
[0024][0025]其中,i≠i;key
i
表示第i个标准的特征列表;key
j
表示第j个标准的特征列表;
[0026]步骤5

2:基于这个距离计算得到杰卡德距离dis,计算方法如下:
[0027][0028]步骤5

3:设置杰卡德距离dis阈值为如果即杰卡德距离小于等于阈值,则判定key
i
和key
j
相似。
[0029]所述的确定的k个簇的名称作为所述空管信息标准体系的第三层内容,是指将步骤5中确定的k个簇的名称以及各个簇的名称对应的标准的范围和业务属性的信息内容。
[0030]所述的k的值是超参数,由专家指定;所述的k个簇的名称由专家根据空管信息标
准属性确定。
[0031]步骤6:对所述的第三层内容重新进行特征提取,确定特征维度,形成新的特征空间,基于相似度计算准则,将所述的第三层内容重新分类,形成m个新簇,并确定新簇的名称,作为所述空管信息标准体系的第二层;
[0032]所述的m的值是超参数,由专家指定,m个新簇的名称由专家确定。
[0033]步骤7:重复上述步骤,通过自下而上和自上而下相结合的方式,最终形成基于语义自聚类的空管信息标准体系,完成基于语义自聚类的空管信息标准体系构建。
[0034]有益效果:
[0035]本专利技术为数字化标准体系构建提供了一种基于语义自聚类的空管信息标准体系构建方法,从方便空管从业人员及时使用更新空管信息标准的角度出发,辅助空管行业人员能够跟灵活的使用和构建更新空管信息标准体系,以解决传统人工树形图等建模方法构建的空管信息标准体系动态性、可扩展性弱等问题,为下一代基于数字化的空管信息标准体系构建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义自聚类的空管信息标准体系构建方法,其特征在于,包括如下步骤:步骤1:收集现行有效空管信息标准数据形成文本信息,作为基于语义自聚类空管信息标准体系构建的信息输入;步骤2:确定未来空管信息标准,包括标准的名称、使用范围、标准的具体内容以及所属业务领域,作为基于语义自聚类空管信息标准体系构建的信息输入;步骤3:基于人工树形图的方法,从七个方面构建空管信息标准体系的第一层内容,所述七个方面包括:基础通用信息、空域信息、空中交通流量管理信息、空中交通服务、通导监、航空气象以及航空情报;步骤4:针对步骤1中的文本信息和步骤2中的空管信息标准,进行特征抽取,确定特征维度,形成空管信息标准特征空间;步骤5:在空管信息标准特征空间下,基于相似度计算准则,将不同标准组合在k个簇中,并确定簇的名称;确定的k个簇的名称作为所述空管信息标准体系的第三层内容;步骤6:对所述的第三层内容重新进行特征提取,确定特征维度,形成新的特征空间,基于相似度计算准则,将所述的第三层内容重新分类,形成m个新簇,并确定新簇的名称,作为所述空管信息标准体系的第二层;步骤7:重复上述步骤,通过自下而上和自上而下相结合的方式,最终形成基于语义自聚类的空管信息标准体系,完成基于语义自聚类的空管信息标准体系构建。2.根据权利要求1所述的一种基于语义自聚类的空管信息标准体系构建方法,其特征在于,步骤1中所述的现行有效空管信息标准数据,包括:空管信息标准的名称、空管信息标准的编号、空管信息标准的类别、空管信息标准的状态、空管信息标准的内容和空管信息标准的属性。3.根据权利要求2所述的一种基于语义自聚类的空管信息标准体系构建方法,其特征在于,步骤3中所述的基于人工树形图的方法,包括以下步骤:步骤3

1基于结构分解法,分解出空管信息标准体系第一层的内容,第一层内容完全包含现行有效空管信息标准以及未来空管信息标准;所述空管信息标准体系中的用户,包括:军航、民航、通航和无人机用户;所述空管信息标准体系中的维度,包括:通信、导航、监视、气象、管制、流量和空域维度;所述空管信息标准体系中的属性,包括:公用基础、共性支撑和业务应用;步骤3

2:以数字和字母相结合的方式对空管信息标准体系的第一层内容进行编号。4.根据权利要求3所述的一种基于语义自聚类的空管信息标准体系构建方法,其特征在于,步骤4中所述的进行特征抽取,包括以下步骤:4

1:读取步骤1中所述的文本信息以及步骤2中所述的未来空管信息标准中的标准名称、标准引言以及标准范围对应的内容;4

2:使用jieba技术中的cut方法实现对4

1读取的文本信息进行分词,得到词项;4

3:使用正则表达式对无用的标签、特殊的符号以及停用词进行清洗;4

4:统计步骤4

2分词后词项的词频,并根据统计结果,按词频由...

【专利技术属性】
技术研发人员:马龙彪严勇杰陈平丁辉付胜豪徐善娥梁永胜张明伟童明
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1