一种多粒度数据模式挖掘方法及相关设备技术

技术编号:39180743 阅读:9 留言:0更新日期:2023-10-27 08:28
本申请提供一种多粒度数据模式挖掘方法及相关设备。其中,该方法包括:读取待处理数据并对所述待处理数据进行多粒度模式挖掘;根据所述多粒度模式挖掘结果,生成所述待处理数据对应的多粒度模式;输出并展示所述待处理数据对应的多粒度数据模式,其中,所述多粒度数据模式包括所述待处理数据对应的基础模式,所述基础模式包括第一层级数据模式和第二层级数据模式,每一层级数据模式包括数据模式样例和与所述数据模式样例匹配的数据的数量以及在所述待处理数据中所占的比例。上述方法能够丰富数据模式的挖掘粒度,帮助用户全面有效的识别数据的特征,能够多维度展示数据的数据特征和业务见解。和业务见解。和业务见解。

【技术实现步骤摘要】
一种多粒度数据模式挖掘方法及相关设备


[0001]本专利技术涉及数据挖掘
,尤其涉及一种多粒度数据模式挖掘方法及相关设备。

技术介绍

[0002]数据模式(datapattern)是一种展示数据内容,体现数据内容分布的重要手段,是数据准备、数据资产管理、数据仓库(extract

transform

load,ETL)等多种产品的重要组成部分,同时也是进行自动ETL、数据特征提取、算子推荐等数据治理智能算法的重要依据。
[0003]模式挖掘(patternmining,PM)是获取数据模式的主要技术手段,目前大部分数据治理厂商,例如Informatica、Trifacta、Talend等均具有模式挖掘功能,并且将其集成于数据准备、数据清理、数据目录、数据概览等多个模块中,用于挖掘得到数据的数据模式,从而帮助用户完成数据内容剖析、数据清理、数据格式转换、数据集成等主要数据治理功能。但目前模式挖掘算法只能支持基础模式和一些特殊的数据模式(如日期地址模板),无法识别数据的其他内容特征和业务特征,尤其是编码类数据,现有模式挖掘算法完全无法识别其编码特征,因此,也难以为用户提供多维度的数据见解和业务见解。
[0004]因此,如何丰富数据模式的挖掘粒度,帮助用户全面有效的识别数据的特征,多维度展示数据的数据特征和业务见解是目前亟待解决的问题。

技术实现思路

[0005]本专利技术实施例公开了一种多粒度数据模式挖掘方法及相关设备,能够丰富数据模式的挖掘粒度,帮助用户全面有效的识别数据的特征,多维度展示数据的数据特征和业务见解。
[0006]第一方面,本申请提供一种多粒度数据模式挖掘方法,包括:读取待处理数据,并对所述待处理数据进行多粒度模式挖掘;根据所述多粒度模式挖掘结果,生成所述待处理数据对应的多粒度数据模式;输出并展示所述待处理数据对应的多粒度数据模式,其中,所述多粒度数据模式包括所述待处理数据对应的基础模式,所述基础模式包括第一层级数据模式和第二层级数据模式,每一层级数据模式包括数据模式样例和与所述数据模式样例匹配的数据的数量以及在所述待处理数据中所占的比例。
[0007]在本申请提供的方案中,数据处理系统在对数据进行处理时,不仅仅局限于基础模式的挖掘,而是通过多种维度对数据进行多粒度挖掘,得到数据对应的不同层级的数据模式,并向用户进行展示,从而帮助用户全面有效的识别数据的特征,以便于后续用户根据数据的数据特征进行数据清理、格式转换、数据集成等工作。
[0008]结合第一方面,在第一方面的一种可能的实现方式中,所述第一层级数据模式包括至少一个子层级数据模式,所述至少一个子层级数据模式的挖掘粒度小于所述第一层级数据模式,所述至少一个子层级数据模式中的每个子层级数据模式与所述第一层级数据模式具有公共子字符串。
[0009]在本申请提供的方案中,数据处理系统在对数据进行多粒度模式挖掘过程中,可以基于公共子字符串对某一层级的数据模式进行更深层次的挖掘,从而得到该层级数据模式下的子层级数据模式,从而能够更加细致的展示数据具有的数据特征,帮助用户更好的对数据进行识别。
[0010]结合第一方面,在第一方面的一种可能的实现方式中,基于所述多粒度数据模式,通过知识库对所述多粒度数据模式中的每一层级数据模式进行检索和匹配,所述知识库包括不同业务模式对应的正则表达式;根据检索结果,输出并展示所述待处理数据对应的多粒度业务模式,其中,所述多粒度业务模式包括多个层级的业务模式,且每个层级的业务模式与所述多粒度数据模式中的一个数据模式匹配,每个层级的业务模式对应一种业务见解。
[0011]在本申请提供的方案中,知识库中存储了不同业务模式对应的正则表达式,从而为数据提供相应的业务见解,数据处理系统在挖掘得到数据的多粒度数据模式之后,可以针对每一层级的数据模式在知识库中进行检索和匹配,从而确定每一层级的数据模式所对应的业务模式,最终可以得到数据所对应的多粒度业务模式,帮助用户识别出数据所表达的业务含义。
[0012]结合第一方面,在第一方面的一种可能的实现方式中,对所述待处理数据进行解析得到所述待处理数据对应的基础模式;利用公共子串挖掘算法对所述基础模式相同的待处理数据进行公共子串迭代挖掘;基于每一次迭代挖掘后得到的公共子串,生成所述待处理数据对应的原子模式;对所述待处理数据对应的原子模式进行归并处理,得到所述待处理数据对应的多粒度数据模式。
[0013]在本申请提供的方案中,数据处理系统首先对数据进行解析得到基础模式,然后基于公共子串挖掘算法对基础模式相同的数据进行公共子串迭代挖掘,并根据每一次挖掘到的公共子串生成对应的原子模式,最后对原子模式进行归并处理得到多粒度数据模式,这样可以实现对数据更多粒度和更深层次的挖掘,从而能够更全面的展示数据特征。
[0014]结合第一方面,在第一方面的一种可能的实现方式中,基于所述基础模式相同的待处理数据的后缀数据,得到出现频率值大于预设阈值的子串;对所有所述出现频率值大于预设阈值的子串进行筛选,确定每一次迭代挖掘后生成的公共子串。
[0015]在本申请提供的方案中,数据处理系统基于后缀数组对基础模式相同的数据进行公共子串挖掘,从而找到每一次挖掘后得到的公共子串,从而实现对数据进行多粒度挖掘,进而展示数据对应的多粒度数据模式。
[0016]结合第一方面,在第一方面的一种可能的实现方式中,对所述基础模式相同的待处理数据进行对齐,并对所述基础模式相同的待处理数据进行逐位对比,比较相同位置上的数据是否相同;基于比较结果确定每一次迭代挖掘后生成的公共子串。
[0017]在本申请提供的方案中,对基础模式相同的数据,假设公共子串出现在相同的位置上,从而基于这个假设进行诸位对比,根据比较结果可以识别出所有的公共子串,从而实现对数据进行多粒度挖掘,进而展示数据对应的多粒度数据模式。
[0018]结合第一方面,在第一方面的一种可能的实现方式中,基于所述基础模式相同的待处理数据,构建最频项集树FP

tree;根据所述FP

tree,确定每一次迭代挖掘后生成的公共子串。
[0019]在本申请提供的方案中,数据处理系统基于关联关系对基础模式相同的数据构建FP

tree,然后找到公共子串,并根据公共子串处理程序生成子串集,从而实现对数据进行多粒度挖掘,进而展示数据对应的多粒度数据模式。
[0020]结合第一方面,在第一方面的一种可能的实现方式中,基于动态规划算法,计算所有所述原子模式中的任意两个原子模式之间的编辑距离;根据编辑距离计算结果和预先设置的合并策略,对所述待处理数据对应的原子模式进行合并。
[0021]在本申请提供的方案中,数据处理系统利用动态规划算法计算任意两个原子模式之间的编辑距离,然后根据预设的合并策略对原子模式进行合并,从而生成最终的多粒度数据模式,这样可以将相似的数据模式进行合并,使得最终的展示结果更加本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多粒度数据模式挖掘方法,其特征在于,包括:读取待处理数据,并对所述待处理数据进行多粒度模式挖掘;根据所述多粒度模式挖掘结果,生成所述待处理数据对应的多粒度数据模式;输出并展示所述待处理数据对应的多粒度数据模式,其中,所述多粒度数据模式包括所述待处理数据对应的基础模式,所述基础模式包括第一层级数据模式和第二层级数据模式,每一层级数据模式包括数据模式样例和与所述数据模式样例匹配的数据的数量以及在所述待处理数据中所占的比例。2.如权利要求1所述的方法,其特征在于,所述方法还包括:所述第一层级数据模式包括至少一个子层级数据模式,所述至少一个子层级数据模式的挖掘粒度小于所述第一层级数据模式,所述至少一个子层级数据模式中的每个子层级数据模式与所述第一层级数据模式具有公共子字符串。3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:基于所述多粒度数据模式,通过知识库对所述多粒度数据模式中的每一层级数据模式进行检索和匹配,所述知识库包括不同业务模式对应的正则表达式;根据检索结果,输出并展示所述待处理数据对应的多粒度业务模式,其中,所述多粒度业务模式包括多个层级的业务模式,且每个层级的业务模式与所述多粒度数据模式中的一个数据模式匹配,每个层级的业务模式对应一种业务见解。4.如权利要求1

3任一项所述的方法,其特征在于,所述对所述待处理数据进行多粒度模式挖掘,包括:对所述待处理数据进行解析得到所述待处理数据对应的基础模式;利用公共子串挖掘算法对所述基础模式相同的待处理数据进行公共子串迭代挖掘;基于每一次迭代挖掘后得到的公共子串,生成所述待处理数据对应的原子模式;对所述待处理数据对应的原子模式进行归并处理,得到所述待处理数据对应的多粒度数据模式。5.如权利要求4所述的方法,其特征在于,所述利用公共子串挖掘算法对所述基础模式相同的待处理数据进行公共子串迭代挖掘包括:基于所述基础模式相同的待处理数据的后缀数据,得到出现频率值大于预设阈值的子串;对所有所述出现频率值大于预设阈值的子串进行筛选,确定每一次迭代挖掘后生成的公共子串。6.如权利要求4所述的方法,其特征在于,所述利用公共子串挖掘算法对所述基础模式相同的待处理数据进行公共子串迭代挖掘包括:对所述基础模式相同的待处理数据进行对齐,并对所述基础模式相同的待处理数据进行逐位对比,比较相同位置上的数据是否相同;基于比较结果确定每一次迭代挖掘后生成的公共子串。7.如权利要求4所述的方法,其特征在于,所述利用公共子串挖掘算法对所述基础模式相同的待处理数据进行公共子串迭代挖掘包括:基于所述基础模式相同的待处理数据,构建最频项集树FP

tree;根据所述FP

tree,确定每一次迭代挖掘后生成的公共子串。
8.如权利要求4

7任一项所述的方法,其特征在于,所述对所述待处理数据对应的原子模式进行归并处理包括:基于动态规划算法,计算所有所述原子模式中的任意两个原子模式之间的编辑距离;根据编辑距离计算结果和预先设置的合并策略,对所述待处理数据对应的原子模式进行合并。9.如权利要求4

8任一项所述的方法,其特征在于,所述对所述待处理数据进行解析得到所述待处理数据对应的基础模式包括:利用上下文无关文法CFG对所述待处理数据进行解析,得到基础模式对应的正则表达式;根据所述基础模式对应的正则表达式,生成所述待处理数据对应的基础模式。10.一种多粒度数据模式挖掘装置,其特征在于,包括:读取解析模块,用于读取待处理数据;处理模块,用于...

【专利技术属性】
技术研发人员:魏子恒郝诗源龙江吕红
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1