基于增强样本模型的卫星频轨数据信息抽取方法技术

技术编号:32833580 阅读:14 留言:0更新日期:2022-03-26 20:50
本发明专利技术公开了一种基于增强样本模型的卫星频轨数据信息抽取方法,包括以下步骤:定义实体类型与关系集合;结构化频轨数据关系抽取阶段,从数据库中选取所需数据信息,匹配出相关实体;将实体对及其关系以三元组表示;非结构化频轨数据关系抽取阶段,将分词后的文本数据进行标注,训练实体识别模型,完成实体识别;增强样本模型,用结构化数据生成文本补充训练语句库,解决长尾问题,利用强化学习分类句袋中正确标签句子和噪声句子;训练分段卷积神经网络模型完成实体关系的分类抽取。本发明专利技术充分利用结构化数据和噪声句子,可以高效完成卫星频轨数据的知识抽取,丰富卫星频轨知识库;本发明专利技术具有方案灵活性高和关系抽取正确率高的优点。优点。优点。

【技术实现步骤摘要】
基于增强样本模型的卫星频轨数据信息抽取方法


[0001]本专利技术涉及卫星数据处理
,尤其涉及一种基于增强样本模型的卫星频轨数据信息抽取方法。

技术介绍

[0002]目前,随着航天技术的飞速发展,世界上不同国家往太空中发射了很多卫星,产生了大量的频轨资源数据记录,这些数据中蕴含着很多有用的信息。传统的数据库存储的方法虽然记录着大量的结构化数据,但是其数据信息不够完整,不足以构建一个完整的频轨数据图谱。建立一种频轨图谱知识模型可以直观的展现这些数据之间的关系,可为这些数据的挖掘与利用打下技术基础。网络上有很多有用的非结构化卫星频轨数据,其数据量往往更加庞大,可以作为结构化数据的补充。
[0003]如何从非结构化的频轨数据中识别出需要的实体以及其关系,是构建一个完整的频轨数据图谱需要解决的基本问题。对于一个完整的频轨数据图谱的构建,主要包括了命名实体识别和关系抽取两个关键环节。根据对这两个环节任务是否进行统一建模,进行命名实体识别和关系抽取的方法可以分为联合抽取和Pipeline方法。
[0004]联合抽取是将两个任务统一建模为一个模型,该种抽取方案可以进一步利用两个任务之间存在的潜在的关联信息,减少错误累计的传播。但是由于两个任务的统一建模,用同样的特征表示进行两项任务,可能会对模型的学习造成误解。如何加强实体模型与关系模型的交互也是一个难题。Pipeline方法先进行命名实体识别,再进行关系抽取,该方案灵活性高,实体模型和关系模型可以分别使用独立的数据集。
[0005]对于命名实体识别而言,现有方法分为基于规则的方法、基于统计模型的方法和基于神经网络的方法。基于规则的方法要构建大量的是实体识别规则,与输入字符串进行匹配识别命名实体。这种方法需要专家构建规则,应用时具有一定的限制。基于统计模型的方法将命名实体识别视为序列标注问题,但仍需要人工进行特征的定义。定义的特征对最终的识别结果具有较大的影响。基于神经网络的方法不用人工定义特征,解决了上述问题。并且由于神经网络具有更强的特征表达能力,能充分的学习到实体上下文的特征。
[0006]对于卫星频轨实体关系抽取而言,现有方法分为基于模板的关系抽取、基于监督学习的关系抽取和基于远程监督的方法。当数据规模较大时,手工构建模板工作量大。基于监督学习的关系抽取方法,需要大量人工标注的数据,成为其制约因素。基于远程监督的方法避免了人工大量标注数据,但是会引入噪声。现有研究主要考虑选择出一个包含正确标签的句子或者识别并去除噪声,没有考虑到噪声对于模型训练具有的重要意义。同时,基于远程监督的方法存在长尾问题。以上两点导致现有方法训练的关系抽取模型是有偏的,准确度有限。
[0007]中国专利CN108304911中提出了一种基于记忆神经网络的知识抽取方法以及系统和设备,可用于预定义关系类型的知识抽取任务,能够自动地从互联网中的非结构化文本中抽取得到满足预定义关系类型的结构化信息;中国专利CN109359297提出了一种关系抽
取方法及系统,该方法引入关系的层次结构信息构建一套层级结构的注意力机制,提高了关系抽取模型的稳定性。上述专利能够完成知识的抽取,但是以上专利的技术方案所使用的数据均为非结构化数据,未能充分利用已有结构化数据所含有的信息。第一个专利方案需要大量的人工标签,第二个专利方案采用了远程监督的思想,但是均未充分考虑噪声数据的作用,导致知识抽取准确率受限。

技术实现思路

[0008]针对传统卫星数据库数据记录不够完整,数据量不足以建立频轨图谱知识模型的问题,本专利技术公开了一种基于增强样本模型的卫星频轨数据信息抽取方法,以从非结构化数据中提取出有用的知识信息,作为结构化数据的补充。
[0009]本专利技术公开了一种基于增强样本模型的卫星频轨数据信息抽取方法,其具体步骤包括:
[0010]S1,根据卫星频轨数据知识抽取的任务需求,定义卫星频轨数据的实体类型,所定义的六类实体类型包括:卫星名称、卫星网络ID、主管部门、轨位、轨道类型、频段;实体是卫星频轨数据中的卫星通信主体;
[0011]S2,定义实体间关系集合,在步骤S1定义的实体类型的基础上,定义实体间关系,实体与实体间关系用三元组表示,其具体包括:(卫星名称,属于,卫星网络ID)、(卫星名称,受管控,主管部门)、(卫星名称,轨位为,轨位)、(轨道类型,轨道下有,卫星名称)、(卫星名称,使用,频段)和(主管部门,拥有网络,卫星网络ID),所有的实体间关系构成实体间关系集合;
[0012]S3,获取结构化卫星频轨数据,对结构化卫星频轨数据进行知识抽取,包括数据预处理、实体识别、实体关系抽取;
[0013]S31,数据预处理是按照定义的实体类型,从国际电联的SRS数据库中获取结构化卫星频轨数据,再在该结构化卫星频轨数据中选出实体类型的对应数据,存入实体

关系表格中;
[0014]S32,对结构化卫星频轨数据进行实体识别,首先针对定义的实体类型及其关系,从该实体

关系表格中匹配得到对应的数据,选出相关实体;
[0015]S33,实体关系抽取,是将步骤S32选出的实体所属的S1中定义的实体类型对应的S2中定义的实体间关系,设置为实体之间的关系;
[0016]S34,对每两个实体之间,利用其对应关系,建立三元组集合T;
[0017]S4,对非结构化卫星频轨数据进行知识抽取,从互联网上通过数据爬取方法获得非结构化卫星频轨数据的文本数据,再对该文本数据进行分词,得到分词序列,用BIO标注方法对分词序列进行标注,将标注后的文本作为训练语句库;对基于BERT的预训练模型进行微调,形成基于BERT的命名实体识别模型;利用训练语句库训练基于BERT的命名实体识别模型;使用训练完成的基于BERT的命名实体识别模型对分词序列中的每个字进行正确的分类;
[0018]S41,对非结构化卫星频轨数据进行爬取和分词;将定义的实体类别卫星名称、卫星网络ID、主管部门、轨位、卫星类型、频段分别标记为六类标签A1、A2、A3、A4、A5、A6;使用BIO标注方法为分词后语句标注上述标签,得到训练语句库;
[0019]S42,对基于BERT的预训练模型的序列标注层进行微调,即使用全连接层替换BERT的隐含层表示,形成基于BERT的命名实体识别模型;使用训练语句库训练基于BERT的命名实体识别模型;输入层的输入向量v经过多层编码层后,得到非结构化卫星频轨数据中的句子的语义关联表示为h;
[0020]S43,序列标注层的输出在BIO标注模式下,分词序列的每个时刻的概率分布P
t
的表达式为:
[0021]P
t
=softmax(h
t
W0+b0),t=1,2,...,N
[0022]其中h
t
表示h在t时刻的分量,W0表示全连接层的权重矩阵,b0表示全连接层的偏置,softmax表示激活函数;
[0023]S44,得到分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,其具体步骤包括:S1,根据卫星频轨数据信息抽取的任务需求,定义卫星频轨数据的实体类型,所定义的六类实体类型包括:卫星名称、卫星网络ID、主管部门、轨位、轨道类型、频段;实体是卫星频轨数据中的卫星通信主体;S2,定义实体间关系集合,在步骤S1定义的实体类型的基础上,定义实体间关系,实体与实体间关系用三元组表示;S3,获取结构化卫星频轨数据,对结构化卫星频轨数据进行知识抽取,包括数据预处理、实体识别、实体关系抽取;S4,对非结构化卫星频轨数据进行知识抽取,从互联网上通过数据爬取方法获得非结构化卫星频轨数据的文本数据,再对该文本数据进行分词,得到分词序列,用BIO标注方法对分词序列进行标注,将标注后的文本作为训练语句库;对基于BERT的预训练模型进行微调,形成基于BERT的命名实体识别模型;利用训练语句库训练基于BERT的命名实体识别模型;使用训练完成的基于BERT的命名实体识别模型对分词序列中的每个字进行正确的分类;S5,根据步骤S4的分类结果,筛选出含有步骤S1中定义的实体类型的句子;在筛选出的句子中,对于包含相同实体类型的实体的句子,把这些句子打包作为一个句袋,并把这些句子中实体之间的实体关系标记为句袋标签;S6,利用步骤S3中抽取的实体类型及其关系,对步骤S5中句袋数据进行补充,增加句袋数量,对不同实体关系下的句袋数量进行均衡;S7,构建实体关系抽取模型,首先利用强化学习算法对句袋中噪声句子和正确标签句子进行筛选,然后利用正确标签句子和噪声句子训练实体关系抽取模型;S8,将步骤S4得到的命名实体信息及其对应的句子输入到步骤S7训练得到的实体关系抽取模型,得到句子中实体的正确关系分类结果,完成卫星频轨数据命名实体的关系抽取;S9,非结构化数据中抽取的实体及其关系用三元组表示,比较该三元组与三元组集合T中数据,若三元组集合T中已存在该三元组的数据,则不添加该三元组的数据;若三元组集合T中不存在该三元组的数据,则将该抽取出的实体及其关系三元组数据加入到集合T中,实现以三元组形式表示的结构化卫星频轨数据集的扩充。2.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,所述的实体与实体间关系具体包括:(卫星名称,属于,卫星网络ID)、(卫星名称,受管控,主管部门)、(卫星名称,轨位为,轨位)、(轨道类型,轨道下有,卫星名称)、(卫星名称,使用,频段)和(主管部门,拥有网络,卫星网络ID),所有的实体间关系构成实体间关系集合。3.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,所述的实体关系抽取模型通过分段卷积神经网络来实现。4.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,所述的步骤S3,其具体包括:S31,数据预处理是按照定义的实体类型,从国际电联的SRS数据库中获取结构化卫星频轨数据,再在该结构化卫星频轨数据中选出实体类型的对应数据,存入实体

关系表格中;
S32,对结构化卫星频轨数据进行实体识别,首先针对定义的实体类型及其关系,从该实体

关系表格中匹配得到对应的数据,选出相关实体;S33,实体关系抽取,是将步骤S32选出的实体所属的S1中定义的实体类型对应的S2中定义的实体间关系,设置为实体之间的关系;S34,对每两个实体之间,利用其对应关系,建立三元组集合T。5.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,所述的步骤S4,其具体包括:S41,对非结构化卫星频轨数据进行爬取和分词;将定义的实体类别卫星名称、卫星网络ID、主管部门、轨位、卫星类型、频段分别标记为六类标签A1、A2、A3、A4、A5、A6;使用BIO标注方法为分词后语句标注上述标签,得到训练语句库;S42,对基于BERT的预训练模型的序列标注层进行微调,即使用全连接层替换BERT的隐含层表示,形成基于BERT的命名实体识别模型;使用训练语句库训练基于BERT的命名实体识别模型;输入层的输入向量v经过多层编码层后,得到非结构化卫星频轨数据中的句子的语义关联表示为h;S43,序列标注层的输出在BIO标注模式下,分词序列的每个时刻的概率分布P
t
的表达式为:P
t
=softmax(h
t
W0+b0),t=1,2,...,N其中h
t
表示h在t时刻的分量,W0表示全连接层的权重矩阵,b0表示全连接层的偏置,softmax表示激活函数;S44,得到分词序列的每个时刻的概率分布后,基于BERT的命名实体识别模型采用交叉熵损失函数,对基于BERT的命名实体识别模型的参数进行训练,以提高该模型的分类预测能...

【专利技术属性】
技术研发人员:何元智李志强
申请(专利权)人:军事科学院系统工程研究院网络信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1