一种用于数据链路的获取方法和系统技术方案

技术编号:26790607 阅读:25 留言:0更新日期:2020-12-22 17:05
本发明专利技术给出了一种用于数据链路的获取方法和系统,包括配置数据接入层到数据服务层上部署的组件,统一组件中的日志标准以及日志输出格式,其中,日志信息中的关键信息被赋予追溯标识;响应于源数据通过组件,获取组件上的日志信息;清洗日志信息,提取日志信息中的关键信息存储至数据库中;以及利用数据库中的关键信息,获取数据在组件中的流向生成数据链路。利用该方法或系统可以有效管理组件,查看数据流动方向,流动过程和完整数据链路,完整数据链路在web端可视化展示。

【技术实现步骤摘要】
一种用于数据链路的获取方法和系统
本专利技术涉及大数据的
,尤其是一种用于数据链路的获取方法和系统。
技术介绍
数据流动路径的复杂化导致追踪溯源变得异常困难,大数据应用体系庞杂,频繁的数据共享和交换促使数据流动路径变得交错复杂,数据从产生到销毁不再是单向、单路径的简单流动模式,也不再仅限于组件内部流转。在此过程中,实现异构组件下跨越数据控制者或全路径数据追踪溯源变得更加困难,典型的溯源方案通过人工记录,记录在人脑或者记录在档案或者数据库,源于对数据链路的不重视,区块链溯源方案特点为数据源头可信,溯源数据可信。现有技术有进行日志输出,但并未做日志分析,没有准确的目的性和对数据链路的可视化。现有技术各种组件十分丰富,组合方式多种多样,数据源为从组件到组件流动的方式,通过人为操作,且进行人为的一次性记忆,由于各组件的差异性体现,对于组件的统一管理十分困难,数据的完整链路不清晰明了,且数据在组件中传输过程并未对数据安全性验证。
技术实现思路
为了解决现有技术中组件管理不全面,没有明确的目的性,没有日志分析的技术问题,本专利技术提出了一种用于数据链路的获取方法和系统。在一个方面,本专利技术提出了一种用于数据链路的获取方法,包括以下步骤:S1:配置数据接入层到数据服务层上部署的组件,统一组件中的日志标准以及日志输出格式,其中,日志信息中的关键信息被赋予追溯标识;S2:响应于源数据通过组件,获取组件上的日志信息;S3:清洗日志信息,提取日志信息中的关键信息存储至数据库中;以及S4:利用数据库中的关键信息,获取数据在组件中的流向生成数据链路。优选的,日志标准为log4j标准。统一为log4j标准可以方便于进行日志参数的统一输出,便于进行日志信息的分析。进一步优选的,日志信息包括组件的配置信息、时间、日志级别、会话标识、功能标识、数据处理和内容参数,关键信息包括组件的配置信息、功能标识和数据处理,组件的配置信息包括组件的IP地址和端口信息。以上信息的设置能够便于进行对组件的控制,以及数据的溯源分析。优选的,数据接入层到数据服务层上部署的组件包括:数据接入层上的sqoop、flume、logstash或爬虫组件,数据计算层上的MR、spark、sparkingstreaming或tensorflow组件,数据分析层上的实时SQL、机器学习、NLP分析或深度学习组件。去源去终端应用的数据处理方式便于进行日志的统一处理,避免对数据源或终端应用的影响。优选的,步骤S3中提取日志信息中的关键信息具体为:利用正则或字符串匹配的方式提取关键信息。利用正则或字符串的匹配可以快速获取日志中的关键信息。优选的,还包括:利用数据在组件中的流向,动态配置组件的端口信息控制数据的流向。凭借数据流向可以通过日志中的信息动态实现对组件的控制,满足不同使用需求。优选的,还包括:利用web端接入数据库并显示数据的流向以及数据在组件中的数据处理信息。凭借web端的接入可以将数据流向等信息可视化。根据本专利技术的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述方法。根据本专利技术的第三方面,提出了一种用于数据链路的获取系统,该系统包括:组件配置单元:配置用于配置数据接入层到数据服务层上部署的组件,统一组件中的日志标准以及日志输出格式,其中,日志信息中的关键信息被赋予追溯标识;日志信息获取单元:配置用于响应于源数据通过组件,获取组件上的日志信息;数据库维护单元:配置用于清洗日志信息,提取日志信息中的关键信息存储至数据库中;以及数据流向获取单元:配置用于利用数据库中的关键信息,获取数据在组件中的流向。优选的,还包括:动态配置单元:配置用于利用数据在组件中的流向,动态配置组件的端口信息控制数据的流向;可视化单元:配置用于利用web端接入数据库并显示数据在组件中的流向以及数据在组件中的数据处理信息。本专利技术提出了一种用于数据链路的获取方法和系统,当web端选择好监控的组件时,组件位置都配置正确时,也即正常读取组件配置文件、日志内容、监听组件端口时,且符合设计标准后,在源数据通过每个组件时,数据采集系统收集打印的日志或配置文件中的信息且生成唯一资源编码存储到数据库中,直至链路完成。本方案去源去终端应用,只从接入层到数据服务层,通过配置好组件的信息,是否开启组件的监控,数据链路采集系统对组件监听端口,读取配置文件,日志信息,获取组件中的数据来源,数据去向,组件本身信息。整个过程中组件产生的日志为统一的log4j标准,便于进行分析和配置。附图说明包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本专利技术的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请的一个实施例的一种用于数据链路的获取方法的流程图;图2是本申请的一个具体的实施例的数据流程图;图3是本申请的一个实施例的一种用于数据链路的获取系统的框架图;图4a-c是本申请的一个具体的实施例的系统UI设计图;图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。根据本申请的一个实施例的基于人脸识别的客流统计方法,图1示出了根据本申请的实施例的用于数据链路的获取方法的流程图。如图1所示,该方法包括以下步骤:S101:配置数据接入层到数据服务层上部署的组件,统一组件中的日志标准以及日志输出格式,其中,日志信息中的关键信息被赋予追溯标识。在具体的实施例中,统一的日志标准为log4j标准。且日志应当提供如下内容:时间,包含时区信息和毫秒,这个工作往往日志框架足以支持。核心属性之一。日志级别,例如DEBUG、INFO以及WARN、ERROR。会话标识,能知道是哪个客户端或者是哪个用户触发、登陆账号、seesion信息等。功能标识,功能标识的意义在于方便日志搜索,跟踪指定功能的完整轨迹,是INFO、DEBUG日志的常见技巧。跟logger分类同一道理,更细分功能标识则是方法标识,更多使用在DEBUG做在线调试使用。精炼的内容,内容是日志的核心,结合上述使用场景,简单来说包括场景信息(谁,什么功能等),状态信息(开始,中断,结束)以及重要参数。本文档来自技高网...

【技术保护点】
1.一种用于数据链路的获取方法,其特征在于,包括以下步骤:/nS1:配置数据接入层到数据服务层上部署的组件,统一所述组件中的日志标准以及日志输出格式,其中,日志信息中的关键信息被赋予追溯标识;/nS2:响应于源数据通过所述组件,获取所述组件上的所述日志信息;/nS3:清洗所述日志信息,提取所述日志信息中的所述关键信息存储至数据库中;以及/nS4:利用所述数据库中的所述关键信息,获取数据在所述组件中的流向生成数据链路。/n

【技术特征摘要】
1.一种用于数据链路的获取方法,其特征在于,包括以下步骤:
S1:配置数据接入层到数据服务层上部署的组件,统一所述组件中的日志标准以及日志输出格式,其中,日志信息中的关键信息被赋予追溯标识;
S2:响应于源数据通过所述组件,获取所述组件上的所述日志信息;
S3:清洗所述日志信息,提取所述日志信息中的所述关键信息存储至数据库中;以及
S4:利用所述数据库中的所述关键信息,获取数据在所述组件中的流向生成数据链路。


2.根据权利要求1述的用于数据链路的获取方法,其特征在于,所述日志标准为log4j标准。


3.根据权利要求1或2所述的用于数据链路的获取方法,其特征在于,所述日志信息包括所述组件的配置信息、时间、日志级别、会话标识、功能标识、数据处理和内容参数,所述关键信息包括所述组件的配置信息、功能标识和数据处理,所述组件的配置信息包括所述组件的IP地址和端口信息。


4.根据权利要求1所述的用于数据链路的获取方法,其特征在于,所述数据接入层到所述数据服务层上部署的所述组件包括:所述数据接入层上的sqoop、flume、logstash或爬虫组件,数据计算层上的MR、spark、sparkingstreaming或tensorflow组件,数据分析层上的实时SQL、机器学习、NLP分析或深度学习组件。


5.根据权利要求1所述的用于数据链路的获取方法,其特征在于,所述步骤S3中提取所述日志信息中的所述关键信息具体为:利用正则或字符串匹配的方式提...

【专利技术属性】
技术研发人员:王剑锋廖宁林炳生宋琦陈德振王磊
申请(专利权)人:厦门安胜网络科技有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1