针对智能船舶近似重复记录的检测方法、消除方法技术

技术编号:24035553 阅读:43 留言:0更新日期:2020-05-07 01:48
本申请属于智能船舶数据管理领域,具体涉及一种针对智能船舶近似重复记录的检测方法、消除方法,旨在为了解决现有方法对排序关键字的依赖性大导致漏检率较高及检测效率低的问题。针对智能船舶近似重复记录的检测方法根据属性的重要程度提取一个或多个属性作为排序关键字,对待检测数据集中的各条记录进行排序,通过宽度和滑动速度可调的滑动窗口顺序扫描排序后的待检测数据集,采用编辑距离算法计算两条记录的第一相似度,将第一相似度大于第一阈值的记录作为近似重复记录。该方法可降低近似重复记录的漏检率,检测效率高。针对智能船舶近似重复记录的消除方法将通过上述检测方法检测得到的近似重复记录合并,提高了数据的准确度。

Detection method and elimination method for approximate duplicate record of intelligent ship

【技术实现步骤摘要】
针对智能船舶近似重复记录的检测方法、消除方法
本申请属于智能船舶数据管理领域,具体涉及一种针对智能船舶近似重复记录的检测方法、消除方法。
技术介绍
面对智能船舶海量、复杂、多源的信息资产,如何高效合理的对数据进行管理是提高船舶数据智能化的关键。由于船舶设备功能叠加性以及采集方式的问题,在船舶数据库中存在着很多重复数据、脏数据,这些数据的比重随着时间的增加而不断增加,不仅占用数据库存储空间,降低存储效率,而且也会给数据处理分析等带来负面影响,无法确保结果的可靠性。现有检测方法采用基于近邻排序的算法对近似重复记录进行检测,该方法对数据集创建关键字,根据关键字对数据集进行排序,使用可变大小的滑动窗口顺序扫描排序后的记录集,通过比较当前记录与窗口中记录的相似性来判断是否为相似重复记录。现有的近似重复记录的检测方法对排序关键字的依赖性大,关键字选取不当会导致漏检相似重复记录;滑动窗口滑动速度固定,导致检测时间长,检测效率低。基于现有检测方法的近似重复记录的消除方法重复数据不能被完全清洗,从而导致数据信息失真。综上所述,现有的方法不能满足船舶智能航行状态下实时性、高可靠性的要求。
技术实现思路
(一)要解决的技术问题为了解决现有技术中的智能船舶近似重复记录的检测方法对排序关键字的依赖性大导致漏检率较高及检测效率低的问题,本申请提出了一种针对智能船舶近似重复记录的检测方法和一种针对智能船舶近似重复记录的消除方法。(二)技术方案为达到上述目的,本申请采用如下技术方案:第一方面,本申请提供一种针对智能船舶近似重复记录的检测方法,包括以下步骤:步骤S10、获取包含待检测记录的数据集作为待检测数据集;步骤S20、根据预设的属性的重要程度,从所述待检测数据集中提取一个或多个属性作为排序关键字;步骤S30、基于所述排序关键字,对所述待检测数据集中的各条记录进行排序,将排序后的待检测数据集作为第一数据集;步骤S40、通过滑动窗口顺序扫描所述第一数据集,将每次窗口滑动时进入滑动窗口的一个或多个记录分别作为目标记录,将当前滑动窗口中与目标记录对应的其他各条记录作为比对记录组;其中,当前滑动窗口的宽度和滑动速度分别基于上一滑动窗口中近似重复记录的数量进行调整;步骤S50、采用编辑距离算法分别计算目标记录与相应比对记录组中每条记录的第一相似度,将所述第一相似度大于第一阈值的记录作为所述目标记录的近似重复记录;步骤S60、将每个滑动窗口中得到的近似重复记录作为所述待检测数据集的近似重复记录。作为本专利技术方法的一种改进,步骤S40中“当前滑动窗口的宽度和滑动速度分别基于上一滑动窗口中近似重复记录的数量进行调整”的方法为:其中,Wd表示当前滑动窗口的宽度,W1表示滑动窗口宽度的最小值,W2表示滑动窗口宽度的最大值,Wd-1表示上一滑动窗口的宽度,Md-1表示上一滑动窗口中近似重复记录的数量;其中,vd表示当前滑动窗口的滑动速度。作为本专利技术方法的一种改进,所述第一相似度的计算方法为:其中,simc(str1,str2)表示第一相似度,str1表示每次窗口滑动时进入滑动窗口的记录字符串,str2表示当前滑动窗口中其他各条记录的字符串,dis(str1,str2)表示字符串str1和str2的编辑距离,len(str1)、len(str2)分别表示字符串str1和str2的长度,MAX(len(str1),len(str2))表示两个字符串长度的最大值。作为本专利技术方法的一种改进,步骤S20包括:步骤S21、根据预设的属性的重要程度,从所述待检测数据集中提取多个属性作为特征属性组;步骤S22、对所述待检测数据集每个属性根据重要程度的大小分配相应的属性等级;步骤S23、用多个评价方法分别对每个属性的属性等级进行评价,将每个属性得到的多个等级评价结果的平均值作为该属性的最终属性等级评价结果,基于所述最终属性等级评价结果确定该属性的权值;步骤S24、基于所述特征属性组中每个属性的权值确定一个或多个属性作为排序关键字。作为本专利技术方法的一种改进,步骤S50中“采用编辑距离算法分别计算目标记录与相应比对记录组中每条记录的第一相似度”之前还包括:步骤S51、基于所述目标记录的字符串长度确定长度范围,清除相应比对记录组中记录的字符串长度落入所述长度范围内的记录。作为本专利技术方法的一种改进,所述长度范围为:{lenstr1|lenstr1<0.6lenstr2或lenstr1>1.67lenstr2}其中,lenstr1表示当前滑动窗口中记录的字符串长度,lenstr2表示每次窗口滑动时进入滑动窗口的记录的字符串长度。作为本专利技术方法的一种改进,在步骤S50中,步骤S51之前还包括:步骤S52、基于步骤S23中得到的最终属性等级,对比对记录组中每条记录的字段进行排序,从每条记录中选取预设数量的字段作为待检测字段;步骤S53、基于所述待检测字段,分别计算目标记录与相应比对记录组中每条记录的第二相似度,将所述第二相似度大于第二阈值的记录从所述比对记录组中清除。作为本专利技术方法的一种改进,所述第二相似度的计算方法为:其中,Simb(R1,R2)表示记录R1和记录R2的第二相似度,Wi表示记录中第i个字段的权重,Valid[i]表示在记录中的第i个字段同时非空时赋值为1、否则赋值为0,Sima(R1i,R2i)表示记录R1和记录R2的第i个字段的相似度。第二方面,本申请提供一种针对智能船舶近似重复记录的消除方法,包括以下步骤:通过上述的针对智能船舶近似重复记录的检测方法,分别获取滑动窗口顺序扫描所述第一数据集时当前滑动窗口中的近似重复记录和相应的目标记录;对每次扫描获取的近似重复记录和相应的目标记录通过条件判断删除一条记录;其中,通过条件判断删除一条记录的方法包括:判断两条记录是否包含属性值为空的字段,如果是,则删除包含属性值为空的字段的记录;否则,判断两条记录的权值之和是否相等,如果是,则删除更新时间最远的记录;否则,删除权值之和较低的记录。(三)有益效果本申请提出一种针对智能船舶近似重复记录的检测方法方法,通过宽度和滑动速度自适应调整的滑动窗口顺序扫描数据集并判断窗口内的记录是否为相似重复记录,可以避免进行过多的无效检索,又可以避免因窗口固定导致相似重复记录被遗漏的可能,在确保精度的同时提高算法执行效率。在判重检测前,基于多种方法的综合确定权值,可进一步提高记录聚类的效果,增强数据库中数据排序结果的单一性及可靠性,且可为排序以及字段匹配算法提供划分依据,进一步提高检索精度。在判重检测中,先通过一部分字段的相似度和权值过滤掉不可能的相似重复记录,对相似概率小的记录提前排除,可以大大减少记录匹配次数,提高检测效率;采用长度过滤进一步排除相似概率小的记本文档来自技高网...

【技术保护点】
1.一种针对智能船舶近似重复记录的检测方法,其特征在于,该方法包括:/n步骤S10、获取包含待检测记录的数据集作为待检测数据集;/n步骤S20、根据预设的属性的重要程度,从所述待检测数据集中提取一个或多个属性作为排序关键字;/n步骤S30、基于所述排序关键字,对所述待检测数据集中的各条记录进行排序,将排序后的待检测数据集作为第一数据集;/n步骤S40、通过滑动窗口顺序扫描所述第一数据集,将每次窗口滑动时进入滑动窗口的一个或多个记录分别作为目标记录,将当前滑动窗口中与目标记录对应的其他各条记录作为比对记录组;其中,当前滑动窗口的宽度和滑动速度分别基于上一滑动窗口中近似重复记录的数量进行调整;/n步骤S50、采用编辑距离算法分别计算目标记录与相应比对记录组中每条记录的第一相似度,将所述第一相似度大于第一阈值的记录作为所述目标记录的近似重复记录;/n步骤S60、将每个滑动窗口中得到的近似重复记录作为所述待检测数据集的近似重复记录。/n

【技术特征摘要】
1.一种针对智能船舶近似重复记录的检测方法,其特征在于,该方法包括:
步骤S10、获取包含待检测记录的数据集作为待检测数据集;
步骤S20、根据预设的属性的重要程度,从所述待检测数据集中提取一个或多个属性作为排序关键字;
步骤S30、基于所述排序关键字,对所述待检测数据集中的各条记录进行排序,将排序后的待检测数据集作为第一数据集;
步骤S40、通过滑动窗口顺序扫描所述第一数据集,将每次窗口滑动时进入滑动窗口的一个或多个记录分别作为目标记录,将当前滑动窗口中与目标记录对应的其他各条记录作为比对记录组;其中,当前滑动窗口的宽度和滑动速度分别基于上一滑动窗口中近似重复记录的数量进行调整;
步骤S50、采用编辑距离算法分别计算目标记录与相应比对记录组中每条记录的第一相似度,将所述第一相似度大于第一阈值的记录作为所述目标记录的近似重复记录;
步骤S60、将每个滑动窗口中得到的近似重复记录作为所述待检测数据集的近似重复记录。


2.根据权利要求1所述的针对智能船舶近似重复记录的检测方法,其特征在于,步骤S40中“当前滑动窗口的宽度和滑动速度分别基于上一滑动窗口中近似重复记录的数量进行调整”的方法为:



其中,Wd表示当前滑动窗口的宽度,W1表示滑动窗口宽度的最小值,W2表示滑动窗口宽度的最大值,Wd-1表示上一滑动窗口的宽度,Md-1表示上一滑动窗口中近似重复记录的数量;



其中,vd表示当前滑动窗口的滑动速度。


3.根据权利要求2所述的针对智能船舶近似重复记录的检测方法,其特征在于,所述第一相似度的计算方法为:



其中,simc(str1,str2)表示第一相似度,str1表示每次窗口滑动时进入滑动窗口的记录字符串,str2表示当前滑动窗口中其他各条记录的字符串,dis(str1,str2)表示字符串str1和str2的编辑距离,len(str1)、len(str2)分别表示字符串str1和str2的长度,MAX(len(str1),len(str2))表示两个字符串长度的最大值。


4.根据权利要求2所述的针对智能船舶近似重复记录的检测方法,其特征在于,步骤S20包括:
步骤S21、根据预设的属性的重要程度,从所述待检测数据集中提取多个属性作为特征属性组;
步骤S22、对所述待检测数据集每个属性根据重要程度的大小分配相应的属性等级;
步骤S23、用多个评价方法分别对每个属性的属性等级进行评价,将每个属性得到的...

【专利技术属性】
技术研发人员:王晓原夏媛媛姜雨函柴垒高杰孙正濮朱慎超
申请(专利权)人:智慧航海青岛科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1