一种多源异构油耗数据特征提取及融合方法技术

技术编号:29157216 阅读:32 留言:0更新日期:2021-07-06 22:56
本发明专利技术公开了一种多源异构油耗数据特征提取及融合方法,包括以下步骤:对油耗数据进行预处理;对预处理后的各类油耗数据进行时域的一致性操作;对各帧数据进行统计特征向量和时间序列特征向量提取操作;对统计特征向量与时间序列特征向量进行融合;将融合后的特征作向量为机器学习方法的输入。本发明专利技术对船舶油耗数据应用分帧操作,并进行统计特征和时间序列特征提取;然后对统计特征和时间序列特征进行融合。通过本发明专利技术可以对现存的大量传感器油耗数据进行处理,大幅提高了用于油耗建模的数据量。本发明专利技术通过对多源异构油耗数据进行特征提取及融合,大幅提高了油耗数据的质量,从而提高了油耗建模的精度。

【技术实现步骤摘要】
一种多源异构油耗数据特征提取及融合方法
本专利技术属于多源异构数据融合
,特别涉及一种多源异构油耗数据特征提取及融合方法。
技术介绍
船舶油耗评估主要包含数据处理和评估建模两部分。其中,数据处理是船舶油耗评估中的关键技术,数据处理的效果将直接影响评估精度。在航海实践中,船舶油耗数据可以被划分为机舱日志数据和传感器采集数据。机舱日志数据是船员在规定时间、按照固定格式手动填写的,不可避免地存在着数据错误;并且采样周期较长,对船舶油耗情况刻画不准确。因此,绝大部分船舶油耗评估模型均使用传感器数据进行建模。随着传感器技术的不断发展,现代船舶上安装有大量的传感器设备,例如多普勒计程仪、气压仪、GPS(GlobalPositionSystem)全球定位系统和自动识别系统AIS(AutomaticIdentificationSystem)等,这些传感器可以准确测量并精确记录油耗相关的船舶状态及环境信息。但是,由于传感器的厂家及制造标准各异,导致传感器采样频率也各不相同。因此,基于传感器的船舶油耗数据可以被视为多源异构数据。在使用这些数据对船舶油耗进行建模之前,必须对其进行特征提取及融合。在已有研究中,Dario和Antonio针对基于传感器的油耗数据做了变量重新定义,例如风向、排水量等。然后对不同的特征进行选择以确保使用恰当的特征进行船舶油耗评估。JianqinZheng和HaoranZheng对油耗数据做了正则化,加速模型的收敛速度和精度。Trodden和Murphy使用卡尔曼滤波器剔除脏数据。Lokukaluge和Mo将超出船舶正常操纵区域的数据予以剔除,并对数据归一化,将不同尺度的变量缩放到同一尺度下。牟小辉等使用MATLAB软件剔除数据中的奇异值,并且分析了不同变量的重要性。Brage对油耗数据作统计分析,分析其数据分布情况,并研究不同特征之间的关联特性,然后使用高斯混合模型和主成分分析算法对船舶主机工作区域进行划分。根据现有油耗数据处理办法,现有的大量传感器数据无法被用于油耗建模,且油耗评估精度普遍不高。
技术实现思路
为了解决现有技术存在的上述问题,本专利技术要提出一种多源异构油耗数据特征提取及融合方法,能够将大量现存的传感器油耗数据用于船舶油耗建模,并结合相关机器学习方法,可以大幅提高船舶油耗评估精度为了实现上述目的,本专利技术采用的技术手段如下:一种多源异构油耗数据特征提取及融合方法,包括以下步骤:S1、对油耗数据进行预处理油耗数据即与油耗相关的传感器数据,油耗数据预处理包括补充缺失值和删除异常值两部分。首先,使用插值法对因传感器故障产生的缺失值进行补充,然后将油耗数据中超出船舶正常操作区域的数据作为异常数据予以剔除。油耗数据包括船舶风速数据、纵倾数据、舵角数据、主机燃油数据、螺距数据、航速数据和吃水数据。S2、对预处理后的各类油耗数据进行时域的一致性操作时域的一致性操作包括分帧操作和帧移操作。所述分帧操作,即采用等长度的帧长d对时域进行移动分帧;所述帧移操作,即在移动分帧过程中相邻两帧之间具有一定的重叠区域,重叠区域称为帧移,帧移长度取帧长的20%~60%。通过上述操作,保证不同采样频率的传感器数据实现时域上的一致性。S3、对各帧数据进行特征提取操作根据步骤S2得到的数据,对各帧数据进行特征提取操作,特征提取包括统计特征提取与时间序列特征提取。两种特征的提取过程如下:S31、提取统计特征向量各帧数据的统计特征包括平均值mean、方差variance、众数mode、中位数median、上边缘max、上四分位点Q3、下四分位点Q1和下边缘min。考虑各帧数据存在非标准正态分布,提取平均值、方差、众数和中位数作为统计特征向量A。考虑到各帧数据存在离群数据,提取上边缘、上四分位点、下四分位点和下边缘作为统计特征向量B。将数据按数值大小排序得到上四分位点Q3和下四分位点Q1。并将上四分位点Q3和下四分位点Q1之间的间隔定义为:IQR=Q3-Q1根据排列所得的上四分位点和下四分位点,得到帧内数据的上边缘和下边缘计算公式如下:Max=Q3+IQRMin=Q1-IQRS32、提取时间序列特征向量采用改进的阶层聚类方法提取帧内数据的时间序列特征,采用欧氏距离作为相似性度量,具体过程如下:S321、输入分帧后的一帧数据D设定时间序列特征的个数为k。S322、按下式计算迭代次数epoch:epoch=length(D)-k其中length(D)表示计算一帧数据点个数。S323、分别计算相邻时间数据点的欧式距离dist(Di,Di+1),即计算数据点i和数据点i+1之间的欧式距离,并将其存储于变量dis(i):dis(i)=dist(Di,Di+1)S324、对欧式距离最近的相邻数据点进行合并,取数据点i和数据点i+1的平均值进行合并,并将合并后的数据点覆盖数据点i。Di=(Di+Di+1)/2S325、转步骤S323,直至获得k个时间序列特征:c1,c2,…,ck-1,ckS4、对统计特征向量与时间序列特征向量进行融合将步骤S3得到的统计特征和时间序列特征进行融合,作为相关机器学习方法的输入。所述特征融合,即将得到的各帧数据统计特征向量与时间序列特征向量进行合并,得到融合后特征向量。其中统计特征向量A与时间序列特征的融合特征向量为:(mean,variance,mode,median,c1,c2,…,ck)统计特征向量B与时间序列特征的融合特征向量为:(min,Q1,Q3,max,c1,c2,…,ck)S5、将融合后的特征作向量为机器学习方法的输入利用步骤S4得到的融合后的特征作向量作为机器学习方法的输入,实现对船舶油耗的建模,所述机器学习方法包括线性回归方法、支持向量回归方法、人工神经网络方法。与现有技术相比,本专利技术具有以下有益效果:1、本专利技术对船舶油耗数据应用分帧操作,并进行统计特征和时间序列特征提取;然后对统计特征和时间序列特征进行融合。通过本专利技术可以对现存的大量传感器油耗数据进行处理,大幅提高了用于油耗建模的数据量。2、本专利技术通过对多源异构油耗数据进行特征提取及融合,大幅提高了油耗数据的质量,从而提高了油耗建模的精度。附图说明图1是本专利技术对油耗评估的建模过程概览图。图2是本专利技术的多源数据采集模块的示意图。图3是本专利技术的重叠分帧方法示意图。图4是本专利技术的时间序列特征提取示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例本文档来自技高网
...

【技术保护点】
1.一种多源异构油耗数据特征提取及融合方法,其特征在于:包括以下步骤:/nS1、对油耗数据进行预处理/n油耗数据即与油耗相关的传感器数据,油耗数据预处理包括补充缺失值和删除异常值两部分;首先,使用插值法对因传感器故障产生的缺失值进行补充,然后将油耗数据中超出船舶正常操作区域的数据作为异常数据予以剔除;油耗数据包括船舶风速数据、纵倾数据、舵角数据、主机燃油数据、螺距数据、航速数据和吃水数据;/nS2、对预处理后的各类油耗数据进行时域的一致性操作/n时域的一致性操作包括分帧操作和帧移操作;所述分帧操作,即采用等长度的帧长d对时域进行移动分帧;所述帧移操作,即在移动分帧过程中相邻两帧之间具有一定的重叠区域,重叠区域称为帧移,帧移长度取帧长的20%~60%;通过上述操作,保证不同采样频率的传感器数据实现时域上的一致性;/nS3、对各帧数据进行特征提取操作/n根据步骤S2得到的数据,对各帧数据进行特征提取操作,特征提取包括统计特征提取与时间序列特征提取;两种特征的提取过程如下:/nS31、提取统计特征向量/n各帧数据的统计特征包括平均值mean、方差variance、众数mode、中位数median、上边缘max、上四分位点Q...

【技术特征摘要】
1.一种多源异构油耗数据特征提取及融合方法,其特征在于:包括以下步骤:
S1、对油耗数据进行预处理
油耗数据即与油耗相关的传感器数据,油耗数据预处理包括补充缺失值和删除异常值两部分;首先,使用插值法对因传感器故障产生的缺失值进行补充,然后将油耗数据中超出船舶正常操作区域的数据作为异常数据予以剔除;油耗数据包括船舶风速数据、纵倾数据、舵角数据、主机燃油数据、螺距数据、航速数据和吃水数据;
S2、对预处理后的各类油耗数据进行时域的一致性操作
时域的一致性操作包括分帧操作和帧移操作;所述分帧操作,即采用等长度的帧长d对时域进行移动分帧;所述帧移操作,即在移动分帧过程中相邻两帧之间具有一定的重叠区域,重叠区域称为帧移,帧移长度取帧长的20%~60%;通过上述操作,保证不同采样频率的传感器数据实现时域上的一致性;
S3、对各帧数据进行特征提取操作
根据步骤S2得到的数据,对各帧数据进行特征提取操作,特征提取包括统计特征提取与时间序列特征提取;两种特征的提取过程如下:
S31、提取统计特征向量
各帧数据的统计特征包括平均值mean、方差variance、众数mode、中位数median、上边缘max、上四分位点Q3、下四分位点Q1和下边缘min;
考虑各帧数据存在非标准正态分布,提取平均值、方差、众数和中位数作为统计特征向量A;
考虑到各帧数据存在离群数据,提取上边缘、上四分位点、下四分位点和下边缘作为统计特征向量B;
将数据按数值大小排序得到上四分位点Q3和下四分位点Q1;并将上四分位点Q3和下四分位点Q1之间的间隔定义为:
IQR=Q3-Q1
根据排列所得的上四分位点和下四分位点,得到帧内数据的上边缘和下边缘计算公式如下:
Max=Q3...

【专利技术属性】
技术研发人员:左毅朱永洁李铁山马赫
申请(专利权)人:大连海事大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1