基于AIS数据特征优选的随机森林船舶目标分类方法技术

技术编号:34488924 阅读:14 留言:0更新日期:2022-08-10 09:07
本发明专利技术属于船舶轨迹分类方法领域,具体涉及一种基于AIS数据特征优选的随机森林船舶目标分类方法。该方法以AIS数据作为数据源,首先对AIS数据进行预处理,并根据船舶运动特点从预处理后的轨迹段中提取与速度、加速度、航向以及距离相关的18维特征;然后在随机森林模型的框架下,采用平均不纯度减少的方法评估特征的重要性,根据船舶的总体分类精度对特征进行组合;最后,采用优选的特征组合及随机森林算法对船舶目标进行分类识别。该方法可以高效利用AIS数据蕴含的丰富信息、降低模型的复杂度并且能够较好地区分不同类型的船舶,分类效率优于基于原始特征的随机森林,能够满足船舶目标准确高效的分类识别需求。标准确高效的分类识别需求。标准确高效的分类识别需求。

【技术实现步骤摘要】
基于AIS数据特征优选的随机森林船舶目标分类方法


[0001]本专利技术属于船舶轨迹分类方法领域,具体涉及一种基于AIS数据特征优选的随机森林船舶目标分类方法。

技术介绍

[0002]随着移动互联网、卫星定位等技术的快速更新的广泛普及,全球的海运事业蓬勃发展,船舶轨迹数据也与日俱增。AIS作为一种应用于船和船、船和岸之间的新型开放式船舶数据传输系统,是船舶轨迹数据的重要来源。在海量AIS数据的基础上,对船舶目标进行分类识别不仅能够研究各类型船舶的运动特征及规律,为识别异常船舶奠定基础,保证海上交通安全,还可以挖掘船舶间的内在联系,为航运分析、船舶调度提供决策支持,有效促进海上智能交通发展,具有重要的应用价值。但是,海上水域宽阔,船舶轨迹复杂多变,加大了船舶目标分类识别的难度,因此选取合适的特征并构建有效的分类模型是该领域的主要挑战之一。
[0003]在众多基于轨迹数据的模式识别研究中,人工智能领域的机器学习算法受到越来越多的学者青睐,这为船舶目标的分类识别提供了新思路。传统方法主要通过构造复杂且高维的船舶运动特征,借助随机森林、逻辑回归模型、BP神经网络和XGBoost模型等机器学习算法对船舶目标进行分类识别。分类精度由数据来源、特征选取、分类模型以及分类对象等多方面因素共同决定。立足于数据驱动的船舶目标分类任务,当从AIS数据提取丰富的船舶运动特征时,可选择丰富多样的多个特征,但是,不同特征之间存在相关性,如若选择特征个数极易造成特征冗余,必定造成分类精度降低,而且,通常情况下,过多的特征容易导致分类精度不增反降。

技术实现思路

[0004]本专利技术的目的在于提供一种基于AIS数据特征优选的随机森林船舶目标分类方法,用以解决现有技术中直接利用丰富的多维度空间特征进行分类造成分类精度和效率均不高的问题。
[0005]为解决上述技术问题,本专利技术提供了一种基于AIS数据特征优选的随机森林船舶目标分类方法,包括如下步骤:
[0006]1)获取AIS数据集,并从中提取AIS数据集的多个船舶运动特征;
[0007]2)利用多个特征构建CART树随机森林模型,训练多个特征构建CART树随机森林模型过程中,利用平均不纯度减少法评估多个特征中每个特征的重要性,从中优选得到最佳特征;其中,特征的重要性为:
[0008][0009][0010][0011]式中,VIM
B
表示特征B的重要性;Gini
i
(D)表示第i棵决策树划分前数据集D的基尼指数;Gini
i
(D,B)表示第i棵决策树在特征B下划分后数据集D的基尼指数;K表示构建的CART随机森林模型中决策树的数量;M表示样本类别数量;p
m
表示数据集D中随机选取的样本属于类别m的比例;1

p
m
表示样本被错分的比例;数据集D根据特征B是否取某一可能值b被分割成D1和D2两部分,|D|、|D1|和|D2|分别代表数据集D、D1和D2的样本数;
[0012]3)利用最佳特征构建CART树随机森林模型,并利用所述最佳特征构建的CART树随机森林模型进行船舶目标分类。
[0013]其有益效果为:本专利技术首先提取AIS数据集中丰富的船舶运动特征,在随机森林模型的框架下,采用平均不纯度减少的方法评估特征的重要性,根据船舶的总体分类精度对特征进行组合并优选出最佳特征,从而降低了特征的个数,进而利用优选的最佳特征构建CART树随机森林模型,以对船舶目标进行分类。优选的最佳特征避免了特征信息冗余的情况出现,利用其构建的CART树随机森林模型可以降低最终分类模型的复杂度,减少了模型训练以及分类时间,且在去除冗余信息的情况下高效利用AIS数据蕴含的丰富信息,能够较好地区分不同类型的船舶,试验证明总体分类准确率达86.2%,分类效率优于基于原始特征的随机森林,满足船舶目标准确高效的分类识别需求。
[0014]进一步地,所述多个船舶运动特征包括航速特征、加速度特征、航向特征和距离特征中的至少两类特征;所述航速特征包括速度最大值、速度均值、速度方差、50%分位点速度、75%分位点速度、95%分位点速度、以及根据各类型船舶的速度分布,分别构建3个速度位于指定阈值内的轨迹点占比率K1V、K2V和K3V中的至少两个特征;所述加速度特征包括加速度最大值、加速度均值、50%分位点加速度和75%分位点加速度中的至少两个特征;所述航向特征包括航向变化最大值、航向变化均值、航向变化率最大值和航向变化率均值中的至少两个特征;所述距离特征包括航行总路程。
[0015]其有益效果为:提取4类中的至少2类特征涵盖了船舶的运动特征,可以高效利用AIS数据中蕴含的丰富信息,以保证船舶目标分类的准确性。
[0016]进一步地,所述多个船舶运动特征包括18个特征,18个特征包括航速特征、加速度特征、航向特征和距离特征,航速特征包括速度最大值、速度均值、速度方差、50%分位点速度、75%分位点速度、95%分位点速度、以及根据各类型船舶的速度分布分别构建3个速度位于指定阈值内的轨迹点占比率K1V、K2V和K3V,加速度特征包括加速度最大值、加速度均值、50%分位点加速度和75%分位点加速度,航向特征包括航向变化最大值、航向变化均值、航向变化率最大值和航向变化率均值,距离特征包括航行总路程;则步骤2)中,从18个特征中优选得到14个特征作为最佳特征。
[0017]其有益效果为:从18个特征中优选出的14个特征可以在保证分类精度的前提下提高分类效率。
[0018]进一步地,步骤1)中提取AIS数据集的多个船舶运动特征前,还需对获取的AIS数
据集进行数据清洗处理,所述数据清洗处理包括剔除时间重复、关键属性缺失以及超出正常范围的轨迹点数据。
[0019]其有益效果为:对AIS数据集进行数据清洗以去除AIS数据中的噪声,提高船舶目标分类的准确性。
[0020]进一步地,步骤1)中提取AIS数据集的多个船舶运动特征前还需对获取的AIS数据集进行轨迹分段处理,所述轨迹分段处理的过程包括:按照船舶唯一编码分段,获取每艘船对应的轨迹段;提取处于运动状态的且含有L个数据点以上的轨迹段,L为数据点个数阈值。
[0021]其有益效果为:对AIS数据集进行轨迹提取,为后续船舶分类提供连续且可靠的数据。
[0022]进一步地,船舶分类包括船、客船、游艇、拖船和渔船。
[0023]进一步地,步骤3)中,训练利用最佳特征构建的CART树随机森林模型时,利用训练集和10折交叉验证法对CART树随机森林模型中的参数进行调整,参数包括子树的最大迭代次数、CART决策树的最大深度和最大特征个数。
[0024]进一步地,利用多个特征构建的CART树随机森林模型中,采用Bootstrap抽样法从AIS数据集中随机生成K个数据集。
[0025]进一步地,利用多个特征构建的CART树随机森林模型中,在得到K棵CART决策树组成的随机森林后,利用投票本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,包括如下步骤:1)获取AIS数据集,并从中提取AIS数据集的多个船舶运动特征;2)利用多个特征构建CART树随机森林模型,训练多个特征构建CART树随机森林模型过程中,利用平均不纯度减少法评估多个特征中每个特征的重要性,从中优选得到最佳特征;其中,特征的重要性为:其中,特征的重要性为:其中,特征的重要性为:式中,VIM
B
表示特征B的重要性;Gini
i
(D)表示第i棵决策树划分前数据集D的基尼指数;Gini
i
(D,B)表示第i棵决策树在特征B下划分后数据集D的基尼指数;K表示构建的CART随机森林模型中决策树的数量;M表示样本类别数量;p
m
表示数据集D中随机选取的样本属于类别m的比例;1

p
m
表示样本被错分的比例;数据集D根据特征B是否取某一可能值b被分割成D1和D2两部分,|D|、|D1|和|D2|分别代表数据集D、D1和D2的样本数;3)利用最佳特征构建CART树随机森林模型,并利用所述最佳特征构建的CART树随机森林模型进行船舶目标分类。2.根据权利要求1所述的基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,所述多个船舶运动特征包括航速特征、加速度特征、航向特征和距离特征中的至少两类特征;所述航速特征包括速度最大值、速度均值、速度方差、50%分位点速度、75%分位点速度、95%分位点速度、以及根据各类型船舶的速度分布,分别构建3个速度位于指定阈值内的轨迹点占比率K1V、K2V和K3V中的至少两个特征;所述加速度特征包括加速度最大值、加速度均值、50%分位点加速度和75%分位点加速度中的至少两个特征;所述航向特征包括航向变化最大值、航向变化均值、航向变化率最大值和航向变化率均值中的至少两个特征;所述距离特征包括航行总路程。3.根据权利要求2所述的基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,所述多个船舶运动特征包括18个特征,18个特征包括航速特征、加速度特征、航向特征和距离特征...

【专利技术属性】
技术研发人员:王宇君郭健李可欣李宗明缪坤陈辉徐立
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1