相似度检测方法技术

技术编号:39570828 阅读:22 留言:0更新日期:2023-12-03 19:21
本申请公开了一种相似度检测方法

【技术实现步骤摘要】
相似度检测方法、设备及其存储介质


[0001]本申请涉及结构化语言处理
,尤其涉及一种相似度检测方法

设备及其存储介质


技术介绍

[0002]随着互联网经济的发展,越来越多的企业出于分析性报告和决策支持目的,需要基于数据仓库使用脚本进行数据分析

随着脚本数量的逐步增加,需要对脚本之间存在的冗余或重复的加工逻辑进行抽象解耦;而对脚本之间进行相似度检测是发现重复冗余逻辑的方法之一,有利于数据的治理

[0003]常规的针对脚本的相似度检测方法是基于表和
/
或字段的同源度来表示脚本之间的相似度,但该方法仅考虑了表和字段上的相似度,并未考虑脚本加工逻辑上的相似性,使得对脚本加工逻辑的相似度检测的准确度较低

[0004]上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术


技术实现思路

[0005]本申请的主要目的在于提供一种相似度检测方法

设备及其存储介质,旨在解决常规相似度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种相似度检测方法,其特征在于,所述相似度检测方法包括以下步骤:获取第一脚本和第二脚本,并根据所述第一脚本和所述第二脚本的脚本元素构建评分矩阵;根据预设的相似度评分规则,对所述评分矩阵进行第一预设方向上的相似度评分,并生成得分矩阵,其中,所述得分矩阵中各得分元素为在所述第一预设方向上的所述第一脚本和所述第二脚本的脚本元素之间的相似度之和;以所述得分矩阵中的目标得分元素为起始点,进行第二预设方向上的反向回溯,以确定所述第一脚本和所述第二脚本之间的相似片段,其中,所述目标得分元素大于所述目标得分元素在所述第一预设方向上的相邻得分元素,所述第二预设方向与所述第一预设方向相反;根据所述相似片段的片段长度,确定所述第一脚本和所述第二脚之间的脚本相似度
。2.
如权利要求1所述的相似度检测方法,其特征在于,所述评分矩阵包括多个评分元素,各所述评分元素包括第一脚本元素和第二脚本元素,所述根据预设的相似度评分规则,对所述评分矩阵进行第一预设方向上的相似度评分的步骤包括:获取目标评分元素在所述第二预设方向上的相邻评分元素所对应的相邻得分元素,并判断所述目标评分元素中的第一脚本元素和第二脚本元素是否相同;若否,则确定所述目标评分元素中的第一脚本元素和第二脚本元素之间的相似度为第一预设相似度,并计算所述相邻得分元素与所述第一预设相似度之和,以作为所述目标评分元素相对应的目标得分元素,并对所述目标得分元素添加预设的空位标记;若是,则确定所述目标评分元素中的第一脚本元素和第二脚本元素之间的相似度为第二预设相似度,并计算所述相邻得分元素与所述第二预设相似度之和,以作为所述目标评分元素相对应的目标得分元素,其中,所述第一预设相似度为负数,且所述第一预设相似度的绝对值大于所述第二预设相似度
。3.
如权利要求2所述的相似度检测方法,其特征在于,在所述确定所述目标评分元素中的第一脚本元素和第二脚本元素之间的相似度为第二预设相似度的步骤之前,还包括:确定所述第一脚本元素和
/
或所述第二脚本元素的元素类型;若所述元素类型为高价值型,则判定所述第二预设相似度为预设的第一分值;若所述元素类型为低价值型,则判定所述第二预设相似度为预设的第二分值;若所述元素类型为伴生型,则判定所述第二预设相似度为预设的第三分值,其中,所述第一分值大于所述第二分值,所述第二分值大于所述第三分值
。4.
如权利要求2所述的相似度检测方法,其特征在于,所述计算所述相邻得分元素与所述第一预设相似度之和,以作为所述目标评分元素相对应的目标得分元素的步骤包括:判断所述相邻得分元素与所述第一预设相似度之和是否大于预设的第一相似度阈值;若是,则以所述相邻得分元素与所述第一预设相似度之和,作为所述目标...

【专利技术属性】
技术研发人员:吝博强
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1