【技术实现步骤摘要】
一种多粒度数据模式挖掘方法及相关设备
[0001]本专利技术涉及数据挖掘
,尤其涉及一种多粒度数据模式挖掘方法及相关设备。
技术介绍
[0002]数据模式(datapattern)是一种展示数据内容,体现数据内容分布的重要手段,是数据准备、数据资产管理、数据仓库(extract
‑
transform
‑
load,ETL)等多种产品的重要组成部分,同时也是进行自动ETL、数据特征提取、算子推荐等数据治理智能算法的重要依据。
[0003]模式挖掘(patternmining,PM)是获取数据模式的主要技术手段,目前大部分数据治理厂商,例如Informatica、Trifacta、Talend等均具有模式挖掘功能,并且将其集成于数据准备、数据清理、数据目录、数据概览等多个模块中,用于挖掘得到数据的数据模式,从而帮助用户完成数据内容剖析、数据清理、数据格式转换、数据集成等主要数据治理功能。但目前模式挖掘算法只能支持基础模式和一些特殊的数据模式(如日期地址模板),无法识别数据的其他内容特征和业务特征,尤其是编码类数据,现有模式挖掘算法完全无法识别其编码特征,因此,也难以为用户提供多维度的数据见解和业务见解。
[0004]因此,如何丰富数据模式的挖掘粒度,帮助用户全面有效的识别数据的特征,多维度展示数据的数据特征和业务见解是目前亟待解决的问题。
技术实现思路
[0005]本专利技术实施例公开了一种多粒度数据模式挖掘方法及相关设备,能够丰富数据模式的挖掘粒度 ...
【技术保护点】
【技术特征摘要】
1.一种多粒度数据模式挖掘方法,其特征在于,包括:读取待处理数据,并对所述待处理数据进行多粒度模式挖掘;根据所述多粒度模式挖掘结果,生成所述待处理数据对应的多粒度数据模式;输出并展示所述待处理数据对应的多粒度数据模式,其中,所述多粒度数据模式包括所述待处理数据对应的基础模式,所述基础模式包括第一层级数据模式和第二层级数据模式,每一层级数据模式包括数据模式样例和与所述数据模式样例匹配的数据的数量以及在所述待处理数据中所占的比例。2.如权利要求1所述的方法,其特征在于,所述方法还包括:所述第一层级数据模式包括至少一个子层级数据模式,所述至少一个子层级数据模式的挖掘粒度小于所述第一层级数据模式,所述至少一个子层级数据模式中的每个子层级数据模式与所述第一层级数据模式具有公共子字符串。3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:基于所述多粒度数据模式,通过知识库对所述多粒度数据模式中的每一层级数据模式进行检索和匹配,所述知识库包括不同业务模式对应的正则表达式;根据检索结果,输出并展示所述待处理数据对应的多粒度业务模式,其中,所述多粒度业务模式包括多个层级的业务模式,且每个层级的业务模式与所述多粒度数据模式中的一个数据模式匹配,每个层级的业务模式对应一种业务见解。4.如权利要求1
‑
3任一项所述的方法,其特征在于,所述对所述待处理数据进行多粒度模式挖掘,包括:对所述待处理数据进行解析得到所述待处理数据对应的基础模式;利用公共子串挖掘算法对所述基础模式相同的待处理数据进行公共子串迭代挖掘;基于每一次迭代挖掘后得到的公共子串,生成所述待处理数据对应的原子模式;对所述待处理数据对应的原子模式进行归并处理,得到所述待处理数据对应的多粒度数据模式。5.如权利要求4所述的方法,其特征在于,所述利用公共子串挖掘算法对所述基础模式相同的待处理数据进行公共子串迭代挖掘包括:基于所述基础模式相同的待处理数据的后缀数据,得到出现频率值大于预设阈值的子串;对所有所述出现频率值大于预设阈值的子串进行筛选,确定每一次迭代挖掘后生成的公共子串。6.如权利要求4所述的方法,其特征在于,所述利用公共子串挖掘算法对所述基础模式相同的待处理数据进行公共子串迭代挖掘包括:对所述基础模式相同的待处理数据进行对齐,并对所述基础模式相同的待处理数据进行逐位对比,比较相同位置上的数据是否相同;基于比较结果确定每一次迭代挖掘后生成的公共子串。7.如权利要求4所述的方法,其特征在于,所述利用公共子串挖掘算法对所述基础模式相同的待处理数据进行公共子串迭代挖掘包括:基于所述基础模式相同的待处理数据,构建最频项集树FP
‑
tree;根据所述FP
‑
tree,确定每一次迭代挖掘后生成的公共子串。
8.如权利要求4
‑
7任一项所述的方法,其特征在于,所述对所述待处理数据对应的原子模式进行归并处理包括:基于动态规划算法,计算所有所述原子模式中的任意两个原子模式之间的编辑距离;根据编辑距离计算结果和预先设置的合并策略,对所述待处理数据对应的原子模式进行合并。9.如权利要求4
‑
8任一项所述的方法,其特征在于,所述对所述待处理数据进行解析得到所述待处理数据对应的基础模式包括:利用上下文无关文法CFG对所述待处理数据进行解析,得到基础模式对应的正则表达式;根据所述基础模式对应的正则表达式,生成所述待处理数据对应的基础模式。10.一种多粒度数据模式挖掘装置,其特征在于,包括:读取解析模块,用于读取待处理数据;处理模块,用于...
【专利技术属性】
技术研发人员:魏子恒,郝诗源,龙江,吕红,
申请(专利权)人:华为云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。