一种数据相似度分析方法技术

技术编号：12577527 阅读：103 留言：0更新日期：2015-12-23 17:08

本发明专利技术公开了一种数据相似度分析方法，包括以下步骤：S1、设置得分策略；S2、构建得分矩阵；S3、填充得分矩阵；S4、对得分矩阵进行回归，得到两组数据的比较结果。本发明专利技术引入了得分策略，并根据策略计算分值，用于定量判断数据之间的相似程度，能够针对非精确匹配的情况进行相似度比较。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机商业智能
，具体设及的设计。
技术介绍
随着信息技术的发展，许多IT领域每天都会产生大量的数据，而在许多业务环境中，存在着不同的数据库，运些数据库中都存储着大量的数据，而运些数据往往都存在着一定的相似性，比如在某高校的业务数据中，教务系统和学工系统中都保存着大量的与学生相关的数据。在运样的情况下，我们很多时候都非常关屯、运些不同数据源之间的相似程度，W 便分析运些数据之间的冗余情况。运些不同的数据一般都是W不同的数据格式存储的，一般有数值型、字符型、日期型等，而众所周知，对计算机而言，运些数据都是W二进制数的形式存储的，进一步，运些不同数据格式都可W转化为字符串型，因此，数据相似度比较的相关技术，实际上可W转化为字符串比较的相关技术。字符串比较相关的技术主要包括： 1、朴素比较方法阳〇化]直接比较字符在相应位置是否相同来确定二者的相似程度。由于需要全部遍历，因此比较过程需要消耗更多的时间。朴素比较方法的优点在于实现简单，可用于数据量较少的情况，但对于大数据量的场景，一般不使用运种原始的数据比较方法。 2、BM方法BM方法是精确字符串匹配的Boyer-Moore的简称。运种方法的时间复杂度较低，是现在用的比较多的一种方法。阳00引所谓精确字符串匹配问题，是在文本T中找到所有与查询P精确匹配的子串。BM算法主要用了 =种巧妙而有效的方法，即从右到左扫描，坏字符规则和好后缀规则。从右到左扫描的意思是从最后一个字符开始向前匹配，而不是习惯上的从开头向后匹配。坏字符规则是，从右到左的扫描过程中，...

【技术保护点】
一种数据相似度分析方法，其特征在于，包括以下步骤：S1、设置得分策略；S2、构建得分矩阵；S3、填充得分矩阵；S4、对得分矩阵进行回归，得到两组数据的比较结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：唐雪飞，陈科，
申请(专利权)人：成都康赛信息技术有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人