用于电磁大数据的自动化标注与目标关联方法技术

技术编号:34323065 阅读:19 留言:0更新日期:2022-07-31 00:35
本发明专利技术公开了一种用于电磁大数据的自动化标注与目标关联方法,包括,对目标的特征矩阵进行补全标注,得到补全标注后的矩阵;采用补全方法进行目标特征数据关联。将总特征矩阵A分解为两个矩阵之和,即A=M+E,M为最优结果矩阵,E为补充矩阵,构建并求解标注补全优化模型,得到最优结果矩阵M。对补全标注后的矩阵的所有行向量,计算其相互之间的相似度;对补全标注后的矩阵的所有行向量按照相似度的数值大小进行聚类,得到与m个监测目标对应的m类数据,从而实现对目标特征数据的关联。本发明专利技术采用对元素缺失矩阵的补全的算法,有效解决了对不同的观测平台记录的特征缺失部分进行特征补全标注,方便后续不同平台的对目标的数据挖掘与分析。掘与分析。掘与分析。

Automatic annotation and target association method for electromagnetic big data

【技术实现步骤摘要】
用于电磁大数据的自动化标注与目标关联方法


[0001]本专利技术所属的
为数据自动化标注与关联领域,尤其涉及一种用于电磁大数据的自动化标注与目标关联方法。

技术介绍

[0002]随着大数据技术的流行,针对通过各种探测手段获得的对目标的观测记录,在一定时间范围内,在同一个观测区域,会有多个观测目标经过观测区域,而每个目标自身具有多个可观测的特征指标。不同观测平台会对该区域进行目标特征记录,观测平台会根据自身所设置的采样间隔对观测目标的电磁数据进行稀疏采样。而由于观测平台功能的限制性和不同观测平台之间的差异性,对于观测目标的电磁特征,每个平台只能观测记录目标的部分特征。
[0003]只有关联多个观测平台的多源特征数据,建立各系统中移动目标的对应关系,才能形成统一的区域目标特征数据,从而为移动目标跟踪、轨迹数据挖掘等提供支持。为了对目标进行有效的数据挖掘与关联分析,将这些通过不同观测平台所记录下的多源异构的数据的准确标注,成为了基础且重要的一步。由于数据量的庞大,通过人工标注的传统方法工作量大、任务繁琐、效率低下。
[0004]目前的自动化标注应用的对象大都为图像与文本。图像标注的方法为提取由图像特征所对应的特征向量,匹配标签数据库中的相似数据实现标注。文本的标注则是分析其文本的语义信息来进行匹配标注。目前对于纯数字型的电磁数据自动化标注的研究较少。由于纯数字型电磁数据是某些数据库中的主要存储形式,其自动化标注对于此类数据库的电磁数据挖掘起到了基础且关键的作用。目前有关于数字型数据的自动化标注技术的文献资料较少,大都是以图像和文本为主的标注技术,该类标注技术是将图像或文本信息转为可处理的数字信息,后续的处理则是针对数字型数据的处理。
[0005]对于图像自动化标注技术,现有图像自动标注技术算法可以大致划分为基于语义的标注算法、基于矩阵分解的标注算法、基于概率的标注算法以及基于图学习的标注算法等四大类。基于语义的图像自动标注,可以利用WordNet的结构化语义信息衡量词汇之间的关系,选择适合图像内容的语义词汇。基于矩阵分解的图像自动标注的本质是利用低秩性恢复图像与标签之间的对应关系。基于概率的图像自动标注是通过概率统计分析图像特征和图像标签之间的共生概率关系,并以此进行图像的语义标注。基于图学习的图像自动标注将已知标注的训练数据和未知标注的测试数据一起参加图学习。
[0006]对于语义自动化标注技术,在自动化语义标注中,自动化本体标注会针对输入的XML、HTML、PDF、TXT、音频、视频等文档数据,输出标注的概念、属性、语义关系的OWL文档数据。调用概念的层次聚类算法、概念关联算法等来识别概念、属性。这些算法及其改进的相关研究很多,如N元模型分析、分类标签匹配、隐马尔科夫模型等。语义的自动化标注技术根据标注方法可以分为基于机器学习类、基于模式类和综合类三种主要类型。基于机器学习的标注方法通过建立语义概念模型,并利用模型将标注结果推广到整个语料库,通过一些
机器学习的方法来发现文档模式或规则。基于模式类的语义标注工具主要采用模式发现和规则定义方法。综合类语义标注工具结合了基于机器学习类以及基于模式类两种方法,可以充分利用它们的优势。
[0007]现有的数据自动化标注技术大都用于图像与文本的标注,并且大都是利用匹配分析等方法对单个目标进行标注,需要前期通过构建数据库进行匹配,效率较低。且没有考虑到以下情况:
[0008]数据信息残缺情况。不同观测平台对于观测目标的侧重点不同,所观测记录到的特征不总是齐全的,不同观测平台只观测到目标的部分特征。由于待标注目标的特征信息的不完备,通过提取特征进行匹配标注的方法则不会有较好的效果。
[0009]首次获得的数据量过大的情况。若是数据分析方首次收集到大量的未经标注的电磁数据,这种情况下并不存在数据库,基于数据库进行特征匹配的标注技术则无法标注首次出现的大量的未经处理的原始数据。

技术实现思路

[0010]针对目前自动化标注技术主要用于解决图像及文本标注,而无法完成对于纯数字型电磁数据的自动化标注,以及无法解决目标数据特征不全与短时间标注海量数据的问题,结合大数据的数据挖掘的需求,本专利技术公开了用于电磁大数据的自动化标注与目标关联方法,本方法根据观测平台所记录的目标特征的特点,即使不同观测平台只能记录的部分目标特征,但同一目标自身特征具有高相似性,对目标进行特征信息的补全标注,并且能够快速将属于同一目标的特征信息进行聚合,实现多源数据的类别标注,解决了目前已有的自动化标注方法的处理方法所存在的局限性、标注时间长的问题。
[0011]本专利技术公开了一种用于电磁大数据的自动化标注与目标关联方法,包括,对目标的特征矩阵进行补全标注,得到补全标注后的矩阵;采用补全方法进行目标特征数据关联。
[0012]所述的对目标的特征矩阵进行补全标注,得到补全标注后的矩阵,包括:
[0013]数据特征的补全标注是本专利技术的重要部分,主要解决获得数据的特征信息缺失的情况。只有在进行数据特征补全标注之后,才会对类别标注提供聚类的依据。对数据的基本特征的描述如下所述。
[0014]在一定时间范围内,有m个目标经过观测区域,目标自身共具有n个可观测的特征指标。在观测区域内,有l个观测平台对目标进行特征观测和航迹追踪并获得目标特征数据。第i个观测平台的采样点个数为λ
i
,i=1,2,...,l,对第k个目标进行特征观测而获取的目标特征数据所构成的特征矩阵为A
k
,其维度为对所有m个目标进行特征观测而获取的目标特征数据所构成的总特征矩阵为A,其维度为特征矩阵具有缺失元素。
[0015]因为单个平台在观测时无法对目标进行分类,因此,矩阵A可等价为单个目标矩阵A
k
列向块拼接后任意做行交换。
[0016]A为元素缺失的原始矩阵,为了恢复矩阵A,将总特征矩阵A分解为两个矩阵之和,
即A=M+E,M为最优结果矩阵,E为补充矩阵,将最优结果矩阵M作为补全标注后的矩阵A
est
,构建并求解标注补全优化模型,得到最优结果矩阵M。
[0017]所述的构建标注补全优化模型,标注补全优化模型的表达式为:
[0018][0019]其中,参数μ为惩罚因子,其取值为比较小的正数,为μ的参照值,P表示集合[m]×
[r],[m]表示集合{1,2,...,m},[r]表示集合{1,2,

,r},<,>为求内积的符号,η表示乘法因子,0<η<1,|| ||
*
表示核范数,P
p
为由R
m
×
r
到R
m
×
r
的线性投影算子,R
m
×
r
表示取值为实数的m行r列的矩阵,P
p
的投影过程表示为:
[0020][0021]其中,A
ij
表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于电磁大数据的自动化标注与目标关联方法,其特征在于,包括,对目标的特征矩阵进行补全标注,得到补全标注后的矩阵;采用补全方法进行目标特征数据关联。2.如权利要求1所述的用于电磁大数据的自动化标注与目标关联方法,其特征在于,所述的对目标的特征矩阵进行补全标注,得到补全标注后的矩阵,包括:在一定时间范围内,有m个目标经过观测区域,目标自身共具有n个可观测的特征指标;在观测区域内,有l个观测平台对目标进行特征观测和航迹追踪并获得目标特征数据;第i个观测平台的采样点个数为λ
i
,i=1,2,...,l,对第k个目标进行特征观测而获取的目标特征数据所构成的特征矩阵为A
k
,其维度为对所有m个目标进行特征观测而获取的目标特征数据所构成的总特征矩阵为A,其维度为将总特征矩阵A分解为两个矩阵之和,即A=M+E,M为最优结果矩阵,E为补充矩阵,将最优结果矩阵M作为补全标注后的矩阵A
est
,构建并求解标注补全优化模型,得到最优结果矩阵M。3.如权利要求2所述的用于电磁大数据的自动化标注与目标关联方法,其特征在于,所述的构建标注补全优化模型,标注补全优化模型的表达式为:其中,参数μ为惩罚因子,为μ的参照值,P表示集合[m]
×
[r],[m]表示集合{1,2,...,m},[r]表示集合{1,2,

,r},<,>为求内积的符号,η表示乘法因子,0<η<1,|| ||
*
表示核范数,P
p
为由R
m
×
r
到R
m
×
r
的线性投影算子,R
m
×
r
表示取值为实数的m行r列的矩阵,P
p
的投影过程表示为:其中,A
ij
表示总特征矩阵A的第i行、第j列的元素。4.如权利要求3所述的用于电磁大数据的自动化标注与目标关联方法,其特征在于,所述的求解标注补全优化模型,采用逐次迭代方法求解标注补全优化模型。5.如权利要求4所述的用于电磁大数据的自动化标注与目标关联方法,其特征在于,所述的采用逐次迭代方法求解标注补全优化模型,包括:S11,通过引入拉格朗日乘子矩阵Z来消除标注补全优化模型的等式约束,构造部分增广拉格朗日函数,其表达式为:其中,|| ||
F
表示F范数;S12,对标注补全优化模型的参数进行初始化,并逐次迭代计算M,k为迭代的次数,第k+
1次迭代后M的取值M...

【专利技术属性】
技术研发人员:杨健许鲁彦刘杰马钰鲍雁飞房珊瑶
申请(专利权)人:中国人民解放军三二八零二部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1