当前位置: 首页 > 专利查询>军事科学院系统工程研究院网络信息研究所专利>正文

基于增强样本模型的卫星频轨数据信息抽取方法技术

技术编号：32833580 阅读：14 留言：0更新日期：2022-03-26 20:50

本发明专利技术公开了一种基于增强样本模型的卫星频轨数据信息抽取方法，包括以下步骤：定义实体类型与关系集合；结构化频轨数据关系抽取阶段，从数据库中选取所需数据信息，匹配出相关实体；将实体对及其关系以三元组表示；非结构化频轨数据关系抽取阶段，将分词后的文本数据进行标注，训练实体识别模型，完成实体识别；增强样本模型，用结构化数据生成文本补充训练语句库，解决长尾问题，利用强化学习分类句袋中正确标签句子和噪声句子；训练分段卷积神经网络模型完成实体关系的分类抽取。本发明专利技术充分利用结构化数据和噪声句子，可以高效完成卫星频轨数据的知识抽取，丰富卫星频轨知识库；本发明专利技术具有方案灵活性高和关系抽取正确率高的优点。优点。优点。

全部详细技术资料下载

【技术实现步骤摘要】
基于增强样本模型的卫星频轨数据信息抽取方法

[0001]本专利技术涉及卫星数据处理
，尤其涉及一种基于增强样本模型的卫星频轨数据信息抽取方法。

技术介绍

[0002]目前，随着航天技术的飞速发展，世界上不同国家往太空中发射了很多卫星，产生了大量的频轨资源数据记录，这些数据中蕴含着很多有用的信息。传统的数据库存储的方法虽然记录着大量的结构化数据，但是其数据信息不够完整，不足以构建一个完整的频轨数据图谱。建立一种频轨图谱知识模型可以直观的展现这些数据之间的关系，可为这些数据的挖掘与利用打下技术基础。网络上有很多有用的非结构化卫星频轨数据，其数据量往往更加庞大，可以作为结构化数据的补充。
[0003]如何从非结构化的频轨数据中识别出需要的实体以及其关系，是构建一个完整的频轨数据图谱需要解决的基本问题。对于一个完整的频轨数据图谱的构建，主要包括了命名实体识别和关系抽取两个关键环节。根据对这两个环节任务是否进行统一建模，进行命名实体识别和关系抽取的方法可以分为联合抽取和Pipeline方法。
[0004]联合抽取是将两个任务统一建模为一个模型，该种抽取方案可以进一步利用两个任务之间存在的潜在的关联信息，减少错误累计的传播。但是由于两个任务的统一建模，用同样的特征表示进行两项任务，可能会对模型的学习造成误解。如何加强实体模型与关系模型的交互也是一个难题。Pipeline方法先进行命名实体识别，再进行关系抽取，该方案灵活性高，实体模型和关系模型可以分别使用独立的数据集。
[0005]对于命名实体识别而...

【技术保护点】

【技术特征摘要】
1.一种基于增强样本模型的卫星频轨数据信息抽取方法，其特征在于，其具体步骤包括：S1，根据卫星频轨数据信息抽取的任务需求，定义卫星频轨数据的实体类型，所定义的六类实体类型包括：卫星名称、卫星网络ID、主管部门、轨位、轨道类型、频段；实体是卫星频轨数据中的卫星通信主体；S2，定义实体间关系集合，在步骤S1定义的实体类型的基础上，定义实体间关系，实体与实体间关系用三元组表示；S3，获取结构化卫星频轨数据，对结构化卫星频轨数据进行知识抽取，包括数据预处理、实体识别、实体关系抽取；S4，对非结构化卫星频轨数据进行知识抽取，从互联网上通过数据爬取方法获得非结构化卫星频轨数据的文本数据，再对该文本数据进行分词，得到分词序列，用BIO标注方法对分词序列进行标注，将标注后的文本作为训练语句库；对基于BERT的预训练模型进行微调，形成基于BERT的命名实体识别模型；利用训练语句库训练基于BERT的命名实体识别模型；使用训练完成的基于BERT的命名实体识别模型对分词序列中的每个字进行正确的分类；S5，根据步骤S4的分类结果，筛选出含有步骤S1中定义的实体类型的句子；在筛选出的句子中，对于包含相同实体类型的实体的句子，把这些句子打包作为一个句袋，并把这些句子中实体之间的实体关系标记为句袋标签；S6，利用步骤S3中抽取的实体类型及其关系，对步骤S5中句袋数据进行补充，增加句袋数量，对不同实体关系下的句袋数量进行均衡；S7，构建实体关系抽取模型，首先利用强化学习算法对句袋中噪声句子和正确标签句子进行筛选，然后利用正确标签句子和噪声句子训练实体关系抽取模型；S8，将步骤S4得到的命名实体信息及其对应的句子输入到步骤S7训练得到的实体关系抽取模型，得到句子中实体的正确关系分类结果，完成卫星频轨数据命名实体的关系抽取；S9，非结构化数据中抽取的实体及其关系用三元组表示，比较该三元组与三元组集合T中数据，若三元组集合T中已存在该三元组的数据，则不添加该三元组的数据；若三元组集合T中不存在该三元组的数据，则将该抽取出的实体及其关系三元组数据加入到集合T中，实现以三元组形式表示的结构化卫星频轨数据集的扩充。2.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法，其特征在于，所述的实体与实体间关系具体包括：(卫星名称，属于，卫星网络ID)、(卫星名称，受管控，主管部门)、(卫星名称，轨位为，轨位)、(轨道类型，轨道下有，卫星名称)、(卫星名称，使用，频段)和(主管部门，拥有网络，卫星网络ID)，所有的实体间关系构成实体间关系集合。3.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法，其特征在于，所述的实体关系抽取模型通过分段卷积神经网络来实现。4.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法，其特征在于，所述的步骤S3，其具体包括：S31，数据预处理是按照定义的实体类型，从国际电联的SRS数据库中获取结构化卫星频轨数据，再在该结构化卫星频轨数据中选出实体类型的对应数据，存入实体
‑
关系表格中；
S32，对结构化卫星频轨数据进行实体识别，首先针对定义的实体类型及其关系，从该实体
‑
关系表格中匹配得到对应的数据，选出相关实体；S33，实体关系抽取，是将步骤S32选出的实体所属的S1中定义的实体类型对应的S2中定义的实体间关系，设置为实体之间的关系；S34，对每两个实体之间，利用其对应关系，建立三元组集合T。5.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法，其特征在于，所述的步骤S4，其具体包括：S41，对非结构化卫星频轨数据进行爬取和分词；将定义的实体类别卫星名称、卫星网络ID、主管部门、轨位、卫星类型、频段分别标记为六类标签A1、A2、A3、A4、A5、A6；使用BIO标注方法为分词后语句标注上述标签，得到训练语句库；S42，对基于BERT的预训练模型的序列标注层进行微调，即使用全连接层替换BERT的隐含层表示，形成基于BERT的命名实体识别模型；使用训练语句库训练基于BERT的命名实体识别模型；输入层的输入向量v经过多层编码层后，得到非结构化卫星频轨数据中的句子的语义关联表示为h；S43，序列标注层的输出在BIO标注模式下，分词序列的每个时刻的概率分布P
t
的表达式为：P
t
＝softmax(h
t
W0+b0),t＝1,2,...,N其中h
t
表示h在t时刻的分量，W0表示全连接层的权重矩阵，b0表示全连接层的偏置，softmax表示激活函数；S44，得到分词序列的每个时刻的概率分布后，基于BERT的命名实体识别模型采用交叉熵损失函数，对基于BERT的命名实体识别模型的参数进行训练，以提高该模型的分类预测能...

【专利技术属性】
技术研发人员：何元智，李志强，
申请(专利权)人：军事科学院系统工程研究院网络信息研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人