一种基于编辑距离的数据相似度检测方法技术

技术编号：19964379 阅读：48 留言：0更新日期：2019-01-03 12:54

本发明专利技术揭示了一种基于编辑距离的数据相似度检测方法，该方法包括以下步骤：步骤S1：输入字符串str1，str2；步骤S2：采用动态规划方法获得LD（str1，str2），LCS（str1，str2），LCCS（str1，str2）；所述步骤S2包括以下步骤：S21：计算字符串间的编辑距离L

A Data Similarity Detection Method Based on Editing Distance

The invention discloses a data similarity detection method based on edit distance, which includes the following steps: (1) input string str1, str2; (2) obtain LD (str1, str2), LCS (str1, str2), LCCS (str1, str2) using dynamic programming method; and (2) include the following steps: S21: calculate edit distance between strings L.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于编辑距离的数据相似度检测方法
本专利技术涉及一种基于编辑距离的数据相似度检测方法，属于大数据数据预处理领域。
技术介绍
随着物联网和“互联网+”时代的迅速发展，全球已进入了大数据时代。毫无疑问，大数据隐含着巨大的社会、经济、科研价值，已引起了各行各业的高度重视。如果能对大数据进行有效地挖掘，将对社会经济和科学研究发展产生巨大的推动作用，同时也孕育着前所未有的机遇。一般情况下，数据挖掘总是假设数据是“干净”和一致的，然而现实中感知数据往往是不完整的、含有噪声的，且存在不一致性，这些数据表现出的质量问题将会严重影响数据分析的结果。因此，对采集到的大数据首先进行预处理，提高数据质量，对大数据分析和研究具有重要的意义。在大数据预处理中，记录相似重复检测对提高数据质量起着至关重要的作用。在相似重复记录检测过程中，相似度的计算是检测相似重复记录的基础。为此，需要研究高精度的相似度计算方法。在本专利技术中，将以字符类型数据作为数据为例来对数据相似度计算方法进行说明。目前，根据字符串的字面相似性，可以将数据相似度检测方法分为基于统计相关性和基于语义相似性两类方法。其中，应用最广泛的是基于字面相似度的编辑距离(LD，LevenshteinDistance)方法。在此方法中，编辑距离是指由原字符串变化到另外一个字符串所需的最少编辑次数或最小代价，编辑即是指对字符串指定位置的单个字符进行插入、删除和替换的操作。近年来，针对不同应用需求对LD的改进方法层出不穷，韩安琪等人(韩安琪等人，中国，“基于改进编辑距离的字符串相似度求解算法”，计算机工程，2014，第40卷第1期)...

【技术保护点】
1.一种基于编辑距离的数据相似度检测方法，其特征在于：该方法包括以下步骤：步骤S1：输入字符串str1，str2；步骤S2：采用动态规划方法获得LD(str1，str2)，LCS(str1，str2)，LCCS(str1，str2)；所述步骤S2包括以下步骤：S21：计算字符串间的编辑距离Ld；字符串str1和str2的长度分别为m和n，构造矩阵[LD]n+1，m+1，利用动态规划方法获得该矩阵元素，即

【技术特征摘要】
2018.03.02 CN 20181017760601.一种基于编辑距离的数据相似度检测方法，其特征在于：该方法包括以下步骤：步骤S1：输入字符串str1，str2；步骤S2：采用动态规划方法获得LD(str1，str2)，LCS(str1，str2)，LCCS(str1，str2)；所述步骤S2包括以下步骤：S21：计算字符串间的编辑距离Ld；字符串str1和str2的长度分别为m和n，构造矩阵[LD]n+1，m+1，利用动态规划方法获得该矩阵元素，即在该矩阵中，矩阵右下角元素LD(n，m)为字符串str1和str2之间的编辑距离Ld；S22：计算字符串间的最长公共子序列Lcs；Lcs是两个字符串中最长的共同子序列，字符串str1和str2的长度分别为m和n，构造矩阵[L]n+1，m+1，利用动态规划方法获得该矩阵元素，即在该矩阵中，矩阵右下角元素L(n，m)为字符串str1和str2之间...

【专利技术属性】
技术研发人员：杨丽花，李蕾，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人