【技术实现步骤摘要】
一种数据正则表达式的挖掘方法及装置
本专利技术涉及数据处理领域,尤其涉及一种数据正则表达式的挖掘方法及装置。
技术介绍
数据挖掘是指从大量的、不完全的、模糊的、有错误的数据中,提取人们不知道的但又对使用人有价值的信息的过程。数据挖掘流程通常包含对数据进行预处理、数据挖掘算法的实现以及对挖掘结果的展示。早期的数据挖掘流程采用单机节点上的串行方式来实现,单机节点的数据挖掘系统,其可挖掘的数据量及算法的负载度,依赖于单个执行节点的性能。由于现行数据挖掘系统都是需要针对海量数据进行处理,这种采用单机节点上的串行处理办法仅能支持少量数据,并且性能较低。后来随着数据挖掘技术的发展,现行挖掘方法有采用工作流中多个并行计算的方法来解决上述单节点串行方式处理数据挖掘所导致的处理效率低下的问题。在并行处理中,当多个并行的数据处理任务被触发时,为其中的每个数据处理任务分配执行节点,以使得上述多个并的数据处理任务在分配的执行节点上并行执行,在执行节点上通过Map/Reduce机制将数据处理任务分配给并行执行的Map任务进行处理,将该数据处理任务对应的各Map任务的结果通过相应的Reduc ...
【技术保护点】
一种数据正则表达式的挖掘方法,其特征在于,所述方法包括以下步骤:获取存储数据,并采用字典树结构存储;根据正则表达式规则进行节点升级;根据升级后节点的子节点个数和相同字符子节点数分别进行分支合并;识别干扰分支,并进行分支删减;将规则树转换成字符串格式并输出。
【技术特征摘要】
1.一种数据正则表达式的挖掘方法,其特征在于,所述方法包括以下步骤:获取存储数据,并采用字典树结构存储;根据正则表达式规则进行节点升级;根据升级后节点的子节点个数和相同字符子节点数分别进行分支合并;识别干扰分支,并进行分支删减;其中,预先设定一个阈值,阈值根据节点平均进入数和系数之乘积来确定;如果某分支的进入记录数小于所述阈值,则判定为干扰分支;将规则树转换成字符串格式并输出。2.根据权利要求1所述的方法,其特征在于,所述采用字典树结构存储数据信息包括:节点字符、所有节点、字符重复次数、进入节点的数据条数及终止节点的数据条数。3.根据权利要求1或2所述的方法,其特征在于,所述节点升级包括:根据正则表达式规则预先制定包含字符级别和升级关系的规则表格;其中,所述规则表格是:根据所述规则表格进行节点升级。4.根据权利要求1所述的方法,其特征在于,所述分支合并包括:纵向合并和横向合并;所述纵向合并仅当某个节点只有一个子节点,且该子节点的字符等同于父节点时进行;所述横向合并当节点升级后某个父节点包含相同字符的子节点时进行。5.根据权利要求1所述的方法,其特征在于,所述识别干扰分支还包括:如果某节点的终止记录数小于所述阈值,则判定为干扰点,应将所述节点的...
【专利技术属性】
技术研发人员:王明兴,贾西贝,
申请(专利权)人:深圳市华傲数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。