基于智能船舶数据库的缺失数据填充方法和装置制造方法及图纸

技术编号:24497684 阅读:48 留言:0更新日期:2020-06-13 03:41
本申请属于智能船舶数据管理领域,具体涉及一种基于智能船舶数据库的缺失数据填充方法和装置,旨在为了解决现有方法中算法精度依赖于分类精度,使用受限的问题。本申请方法将待处理数据集划分为规则挖掘子集和数据填充子集,基于密度峰值聚类算法对规则挖掘子集进行聚类,通过关联规则挖掘算法对聚类结果进行关联规则挖掘,将数据填充子集中的数据项放入最近的簇中,选取强关联规则对缺失数据进行填充。本发明专利技术可实现更高的数据填充精度以及更高运行效率;基于密度峰值聚类算法对完整数据进行聚类,更加精确地描述数据分布,且算法复杂度更低,通过对聚类后的结果进行关联规则挖掘,满足强关联规则的要求,进一步提高了对缺失数据的填补正确率。

Missing data filling method and device based on intelligent ship database

【技术实现步骤摘要】
基于智能船舶数据库的缺失数据填充方法和装置
本申请属于智能船舶数据管理领域,具体涉及一种基于智能船舶数据库的缺失数据填充方法和装置。
技术介绍
面对智能船舶海量丰富的信息资产,应用大数据及相关技术对智能船舶数据进行管理是效率最高的方法,但是由于船舶设备、数据格式等问题,在对这些海量数据进行采集、分析与提取的过程中经常会面对数据缺失的现象,这不可避免的会造成一些消极影响,如系统丢失大量重要信息、系统不确定因素会更加显著、数据缺失会降低数据分析结果的准确性等。现有的数据缺失处理的思想主要包括删除法以及填充法两种,但前者使用的局限性很大,会对数据分析结果产生未知影响。作为应用较广的填充法也分为基于数据统计以及基于数据挖掘两种思路,然而前者误差较大,填充精度不高,后者一般采用基于K最近邻的缺失值填充算法,但k值难以确定,数据填充的精度低,且在数据集非常庞大的时候,算法的执行效率会非常低下,具有非常大的算法局限性。
技术实现思路
(一)要解决的技术问题为了解决上述问题,本申请提出了一种基于智能船舶数据库的缺失数据填充方法和装置。(二)本文档来自技高网...

【技术保护点】
1.一种基于智能船舶数据库的缺失数据填充方法,其特征在于,该方法包括:/n步骤S10、从智能船舶数据库中获取待处理数据集,所述待处理数据集由包含缺失数据的数据项、不含缺失数据的数据项两种数据项组成;/n步骤S20、将所述待处理数据集划分为规则挖掘子集和数据填充子集,所述规则挖掘子集由不含缺失数据的数据项组成,所述数据填充子集由包含缺失数据的数据项组成;/n步骤S30、通过密度峰值聚类算法对所述规则挖掘子集进行数据聚类,得到一个或多个簇,将每个簇的中心点数据项作为第一数据项;/n步骤S40、对步骤S30得到的簇分别通过关联规则挖掘算法进行关联规则挖掘,得到各簇的强关联规则集;/n步骤S50、将所...

【技术特征摘要】
1.一种基于智能船舶数据库的缺失数据填充方法,其特征在于,该方法包括:
步骤S10、从智能船舶数据库中获取待处理数据集,所述待处理数据集由包含缺失数据的数据项、不含缺失数据的数据项两种数据项组成;
步骤S20、将所述待处理数据集划分为规则挖掘子集和数据填充子集,所述规则挖掘子集由不含缺失数据的数据项组成,所述数据填充子集由包含缺失数据的数据项组成;
步骤S30、通过密度峰值聚类算法对所述规则挖掘子集进行数据聚类,得到一个或多个簇,将每个簇的中心点数据项作为第一数据项;
步骤S40、对步骤S30得到的簇分别通过关联规则挖掘算法进行关联规则挖掘,得到各簇的强关联规则集;
步骤S50、将所述数据填充子集中每个数据项作为第二数据项,基于第二数据项与每个第一数据项的距离,将所述第二数据项放入与其距离最近的第一数据项所属的簇中;
步骤S60、分别针对每个第二数据项从相应簇的强关联规则集中选取强关联规则作为数据填充规则,分别使用选取的数据填充规则对相应第二数据项进行数据填充。


2.根据权利要求1所述的基于智能船舶数据库的缺失数据填充方法,其特征在于,所述密度峰值聚类算法中两个数据项之间的距离的计算方法为:



其中,PDik表示数据项xi和xk的距离,xij表示第i个数据项的第j个属性值,xkj表示第k个数据项的第j个属性值,m表示每个数据项的属性个数,Ik表示数据项的对数,j表示数据项的属性。


3.根据权利要求2所述的基于智能船舶数据库的缺失数据填充方法,其特征在于,所述密度峰值聚类算法中每个数据项的局部密度计算方法为:



其中,ρi表示数据项xi的局部密度,dij表示数据项xi和xk的距离,de表示截断距离,为逻辑判断函数,当x小于0时,等于1,否则等于0。


4.根据权利要求1-3中任一权利要求所述的基于智能船舶数据库的缺失数据填充方法,其特征在于,步骤S60中“分别针对每个第二数据项从相应簇的强关联规则集中选取强关联规则作为数据填充规则”包括:
根据要进行数据填充的第二数据项,确定相应簇的强关联规则集中可用的强关联规则;
如果可用的强关联规...

【专利技术属性】
技术研发人员:王晓原夏媛媛姜雨函柴垒高杰朱慎超
申请(专利权)人:青岛海狮网络科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1