【技术实现步骤摘要】
一种血缘关系的生成方法、装置和系统
[0001]本公开涉及大数据利用
,尤其涉及一种血缘关系的生成方法
、
装置和系统
。
技术介绍
[0002]血缘关系可以表征数据的流转过程,通过分析数据之间的血缘关系,有助于用户及时发现数据异常并修复,提高数据的准确性和管理效率
。
[0003]现有的血缘关系分析过程中,常用的血缘关系提取工具通常依赖于有向图
、
元数据
、
关系型语句分析等,展示数据流动的图形界面
、
或者存储数据的元数据信息
、
或者析构关系型语句的逻辑以推断血缘关系
。
[0004]然而,随着数据量的激增和场景多样化,用户标注的人力成本越来越高,而且图形界面绘制耗时增加,响应缓慢导致用户体验感很差;元数据的管理需要投入大量的人力和时间成本,一旦局部故障或者数据丢失,即会导致整个系统管理混乱而崩溃,而且查询耗时过久,同样导致用户满意度较差;关系型语句的分析不仅需要对每个分析引擎进行改造,开发成本过高的同时数据识别的准确度参差不齐,而且面对日志等非结构化
、
复杂场景的数据,无法构建真实的血缘关系,导致大数据利用率低下
、
灵活性差
。
技术实现思路
[0005]有鉴于此,本公开实施例提供一种血缘关系的生成方法
、
装置和系统,能够解决血缘关系的生成耗时长
、
用户体验感差;人力和时间成本高,故障或者 ...
【技术保护点】
【技术特征摘要】
1.
一种血缘关系的生成方法,其特征在于,所述生成方法包括:接收一个或多个文件操作日志;其中,所述文件操作日志包括任务标识
、
操作动作
、
操作时间和操作路径;按照所述任务标识,对所述文件操作日志进行分组;针对每一个所述分组,根据所述操作动作的操作类型对所述文件操作日志中的操作路径进行清洗,将清洗后的文件操作日志依据所述操作时间进行排序,从排序结果中提取清洗后的操作路径中的文件之间的依赖关系;利用所述文件之间的依赖关系,生成所述任务标识的血缘关系
。2.
如权利要求1所述的生成方法,其特征在于,所述任务标识对应多个节点标识,每一个节点标识为一个小组;所述针对每一个所述分组,根据所述操作动作的操作类型对所述文件操作日志中的操作路径进行清洗,包括:将每一个所述小组内的多个所述文件操作日志按照操作时间进行一次排序,获取各个所述文件操作日志中的操作路径和操作动作;判断所述操作动作的操作类型是否为读文件,在所述操作动作的操作类型为读文件的情况下,对所述操作路径的路径类型进行判断;其中,所述操作类型包括读文件和写文件;删除所述路径类型为业务路径的读文件的所述操作路径中的文件标识,得到清洗后的文件操作日志
。3.
如权利要求2所述的生成方法,其特征在于,所述写文件包括创建动作和移动动作;在所述操作动作的操作类型为写文件的情况下,还包括:判断所述文件操作日志中每一个创建动作之后是否还存在移动动作;在所述创建动作之后存在移动动作的情况下,删除所述写文件中存在临时标识的操作路径,得到清洗后的文件操作日志
。4.
如权利要求2或3所述的生成方法,其特征在于,在所述创建动作之后不存在移动动作的情况下,确定所述创建动作对应的文件操作日志异常;将异常的文件操作日志删除;或者,在所述操作路径的路径类型为代码类型的情况下,删除所述代码路径的文件操作日志
。5.
如权利要求1所述的生成方法,其特征在于,所述将清洗后的文件操作日志依据所述操作时间进行排序,从排序结果中提取清洗后的操作路径中的文件之间的依赖关系,包括:针对每一个所述小组,将清洗后的文件操作日志按照所述操作时间进行二次排序;查找所述文件操作日志的操作类型为写文件的文件操作日志;根据各个所述写文件的文件标识
、
所述写文件与前一写文件之间的一个或多个读文件的操作路径的路径含义,提取所述文件依赖关系,或者,根据多个所述写文件的文件标识,提取所述文件依赖关系
。6.
如权利要求1所述...
【专利技术属性】
技术研发人员:田闯,赵辉,李婉琪,冯春锋,潘丹,
申请(专利权)人:度小满科技,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。