【技术实现步骤摘要】
针对智能船舶近似重复记录的检测方法、消除方法
本申请属于智能船舶数据管理领域,具体涉及一种针对智能船舶近似重复记录的检测方法、消除方法。
技术介绍
面对智能船舶海量、复杂、多源的信息资产,如何高效合理的对数据进行管理是提高船舶数据智能化的关键。由于船舶设备功能叠加性以及采集方式的问题,在船舶数据库中存在着很多重复数据、脏数据,这些数据的比重随着时间的增加而不断增加,不仅占用数据库存储空间,降低存储效率,而且也会给数据处理分析等带来负面影响,无法确保结果的可靠性。现有检测方法采用基于近邻排序的算法对近似重复记录进行检测,该方法对数据集创建关键字,根据关键字对数据集进行排序,使用可变大小的滑动窗口顺序扫描排序后的记录集,通过比较当前记录与窗口中记录的相似性来判断是否为相似重复记录。现有的近似重复记录的检测方法对排序关键字的依赖性大,关键字选取不当会导致漏检相似重复记录;滑动窗口滑动速度固定,导致检测时间长,检测效率低。基于现有检测方法的近似重复记录的消除方法重复数据不能被完全清洗,从而导致数据信息失真。综上所述,现有的方法不能满足船舶智能航行状态下实时性、高可靠性的要求。
技术实现思路
(一)要解决的技术问题为了解决现有技术中的智能船舶近似重复记录的检测方法对排序关键字的依赖性大导致漏检率较高及检测效率低的问题,本申请提出了一种针对智能船舶近似重复记录的检测方法和一种针对智能船舶近似重复记录的消除方法。(二)技术方案为达到上述目的,本申请采用如下技术方案:第一方 ...
【技术保护点】
1.一种针对智能船舶近似重复记录的检测方法,其特征在于,该方法包括:/n步骤S10、获取包含待检测记录的数据集作为待检测数据集;/n步骤S20、根据预设的属性的重要程度,从所述待检测数据集中提取一个或多个属性作为排序关键字;/n步骤S30、基于所述排序关键字,对所述待检测数据集中的各条记录进行排序,将排序后的待检测数据集作为第一数据集;/n步骤S40、通过滑动窗口顺序扫描所述第一数据集,将每次窗口滑动时进入滑动窗口的一个或多个记录分别作为目标记录,将当前滑动窗口中与目标记录对应的其他各条记录作为比对记录组;其中,当前滑动窗口的宽度和滑动速度分别基于上一滑动窗口中近似重复记录的数量进行调整;/n步骤S50、采用编辑距离算法分别计算目标记录与相应比对记录组中每条记录的第一相似度,将所述第一相似度大于第一阈值的记录作为所述目标记录的近似重复记录;/n步骤S60、将每个滑动窗口中得到的近似重复记录作为所述待检测数据集的近似重复记录。/n
【技术特征摘要】
1.一种针对智能船舶近似重复记录的检测方法,其特征在于,该方法包括:
步骤S10、获取包含待检测记录的数据集作为待检测数据集;
步骤S20、根据预设的属性的重要程度,从所述待检测数据集中提取一个或多个属性作为排序关键字;
步骤S30、基于所述排序关键字,对所述待检测数据集中的各条记录进行排序,将排序后的待检测数据集作为第一数据集;
步骤S40、通过滑动窗口顺序扫描所述第一数据集,将每次窗口滑动时进入滑动窗口的一个或多个记录分别作为目标记录,将当前滑动窗口中与目标记录对应的其他各条记录作为比对记录组;其中,当前滑动窗口的宽度和滑动速度分别基于上一滑动窗口中近似重复记录的数量进行调整;
步骤S50、采用编辑距离算法分别计算目标记录与相应比对记录组中每条记录的第一相似度,将所述第一相似度大于第一阈值的记录作为所述目标记录的近似重复记录;
步骤S60、将每个滑动窗口中得到的近似重复记录作为所述待检测数据集的近似重复记录。
2.根据权利要求1所述的针对智能船舶近似重复记录的检测方法,其特征在于,步骤S40中“当前滑动窗口的宽度和滑动速度分别基于上一滑动窗口中近似重复记录的数量进行调整”的方法为:
其中,Wd表示当前滑动窗口的宽度,W1表示滑动窗口宽度的最小值,W2表示滑动窗口宽度的最大值,Wd-1表示上一滑动窗口的宽度,Md-1表示上一滑动窗口中近似重复记录的数量;
其中,vd表示当前滑动窗口的滑动速度。
3.根据权利要求2所述的针对智能船舶近似重复记录的检测方法,其特征在于,所述第一相似度的计算方法为:
其中,simc(str1,str2)表示第一相似度,str1表示每次窗口滑动时进入滑动窗口的记录字符串,str2表示当前滑动窗口中其他各条记录的字符串,dis(str1,str2)表示字符串str1和str2的编辑距离,len(str1)、len(str2)分别表示字符串str1和str2的长度,MAX(len(str1),len(str2))表示两个字符串长度的最大值。
4.根据权利要求2所述的针对智能船舶近似重复记录的检测方法,其特征在于,步骤S20包括:
步骤S21、根据预设的属性的重要程度,从所述待检测数据集中提取多个属性作为特征属性组;
步骤S22、对所述待检测数据集每个属性根据重要程度的大小分配相应的属性等级;
步骤S23、用多个评价方法分别对每个属性的属性等级进行评价,将每个属性得到的...
【专利技术属性】
技术研发人员:王晓原,夏媛媛,姜雨函,柴垒,高杰,孙正濮,朱慎超,
申请(专利权)人:智慧航海青岛科技有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。