一种用户行为数据质量的实时检测方法及存储介质技术

技术编号:26597344 阅读:12 留言:0更新日期:2020-12-04 21:19
本发明专利技术提供了一种用户行为数据质量的实时检测方法及存储介质,涉及数据质量检测技术领域,通过从日志数据采集用户行为数据,经Spark流式处理所述用户行为数据,实现实时监测用户行为数据后,结合用户行为数据的特点,从数据的精确性、逻辑一致性与数据异常深层进行质量检测评估,不仅能够展现出不同深度的质量评估效果,还能够挖掘出用户行为数据之间复杂的质量问题,形成了适合用户行为数据的质量检测体系,有利于车企方及时并准确的发现数据中存在的问题,对于数据管理具有重要意义。

【技术实现步骤摘要】
一种用户行为数据质量的实时检测方法及存储介质
本专利技术涉及数据质量检测
,具体涉及一种用户行为数据质量的实时检测方法及存储介质。
技术介绍
随着车联网技术不断发展,搭载车联网服务的智能网联汽车越来越受到人们的青睐。车主在日常用车过程中,产生了大量的用户行为数据,用户行为数据记录了用户在车上的操作行为,可以通过采集用户行为数据,了解车主日常使用车辆的行为习惯,从而帮助车企优化配置,为车主提供更好的服务。为了准确地获得车机状态和用户的座舱的使用情况,保证收集到的用户行为数据准确有效地刻画了车主的真实行为,更好地为数据挖掘和决策分析提供支持,同时也需要对采集到的数据质量进行评估,高质量的数据和有效的数据管理,可以保证分析结果的真实和有价值。随着当前车联网智能化的不断推进,企业数据库中获得的行为数据数量和种类逐步增多,但对用户行为数据质量的管理普遍水平不高,导致行为数据对分析决策支持度低,不能形成适合用户行为数据的质量检测体系,从而制约了数据的深度挖掘。如何对车企的各种类型的用户行为数据质量进行实时检测,及时并准确地发现数据中存在的问题,对于数据管理具有重要意义。目前已有的数据质量评估工具主要通过分别从完整性、规范性、一致性、准确性以及唯一性等方面分别通过检测统计质量得分,通过加权平均计算出数据质量综合评分的方法对数据质量进行检测和管控,这样的质量评估方式虽然计算公式简单,但是存在以下缺点:1.难以结合行为数据的特点进行质量检测。2.统计层次比较单一,不能给出不同深度的质量评估效果,不能挖掘行为数据之间复杂的质量问题。因此,有必要开发一种用户行为数据质量的实时检测方法及存储介质。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种用户行为数据质量的实时检测方法及存储介质,用于解决现有检测方法统计层次过于单一,不能针对不同深度的数据质量进行评估,不能挖掘用户行为数据之间复杂的质量问题。第一方面,本专利技术提供了一种用户行为数据质量的实时检测方法,包括如下步骤:从日志数据提取用户行为数据;通过流式处理所述用户行为数据,以实现实时监测用户行为数据并得到实时数据流;根据数据库设置的数据质量评估规则与训练数据异常深层模型,依次对实时数据流的精确性、逻辑一致性以及数据异常深层进行检验,其中,对所述实时数据流的精确性进行检验时,若实时数据流的精确性未能通过所述数据质量评估规则的检验,则得到数据异常报告,反之,则继续对实时数据流的逻辑一致性进行评估检验;若实时数据流的逻辑一致性未能通过数据质量评估规则的检验,则得到数据异常报告,反之,则继续对实时数据流的数据异常深层进行评估检验;若实时数据流的数据异常深层未能通过训练数据异常深层模型的检验,则得到数据异常报告,反之,则将实时数据流将上传至数据库进行保存。进一步地,对实时数据流的精确性进行检验时的约束条件包括主键非空约束、数据类型约束、数据格式约束、数据精度约束以及值域范围约束。进一步地,所述逻辑一致性的数据逻辑依赖关系包括离散型数据与连续型数据,其中,所述离散型数据通过建立规则,以正则表达式对数据的频率和模式进行评估,所述连续型数据则通过MAD算法,以反映出每个数据点与均值之间的距离。进一步地,所述训练数据异常深层是通过DBSCAN聚类算法与分类算法对异常的数据进行划分,以检测出异常数据的类别。第二方面,本专利技术还提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序被一个或者多个处理器执行时,能实现所述的用户行为数据质量的实时检测方法的步骤。本专利技术带来了以下有益效果:本专利技术所述的一种用户行为数据质量的实时检测方法及存储介质,通过结合用户行为数据的特点,从数据的精确性、逻辑一致性与数据异常深层模型进行质量检测评估,不仅能够展现出不同深度的质量评估效果,还能够挖掘出用户行为数据之间复杂的质量问题,形成了适合用户行为数据的质量检测体系,有利于车企方能够及时并准确地发现数据中存在的问题,对于数据管理具有重要意义。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的一种用户行为数据质量的实时检测方法的流程图;图2为本专利技术提供的一种用户行为数据质量的实时检测方法的逻辑示意图。具体实施方式如图1所示,一种用户行为数据质量的实时检测方法,包括如下步骤:步骤1,从日志数据采集用户行为数据;步骤2,通过流式处理所述用户行为数据,以实现实时监测用户行为数据并得到实时数据流;步骤3,根据数据库设置的数据质量评估规则与训练数据异常深层模型,依次对实时数据流的精确性、逻辑一致性以及数据异常深层进行检验,其中,对所述实时数据流的精确性进行检验时,若实时数据流的精确性未能通过所述数据质量评估规则的检验,则得到数据异常报告,反之,则继续对实时数据流的逻辑一致性进行评估检验;若实时数据流的逻辑一致性检未能通过数据质量评估规则的检验,则得到数据异常报告,反之,则继续对实时数据流的数据异常深层进行评估检验;若实时数据流的数据异常深层未能通过训练数据异常深层模型的检验,则得到数据异常报告,反之,则将实时数据流将上传至数据库进行保存。在本实施例中,首先从日志数据中采集用户行为数据,然后通过Spark流式处理用户行为数据,以实时监测用户行为数据并得到实时数据流。其中,流式处理具有低延迟、高扩展和高容错等诸多有点,其处理计算过程可不经存储直接在内存中进行实时计算。在实时监测用户行为数据时通常需要利用flume做目标文件的监控,只要监控到数据的更新,便将目标文件下沉到kafka分布式消息系统中,利用Flink流式处理进行消费。当Flink在对kafka分布式消息系统中的消息进行消费时,需要用于接收到每一条信息的FlinkKafkaConsumer,还需要能将字节数组形式的kafka消息解序列化对象的key/value解序列化器。一旦遇到不符合消息schema的key,又或者是不符合阈值条件的value,则需要对这条消息进行处理。在处理过滤掉对应的key,或者是某些key的value小于预期的阈值时,该条消息也需要屏蔽,以防止数据污染,将质量检测不通过的情况以短信、邮件以及App等方式及时通知给数据管理者。而kafka分布式消息系统接收来自Flume目标文件数据的具体过程如下,首先是在kafka分布式消息系统中创建一个用于我们实时处理系统的topic,然后利用Flume将其采集到的用户行为数据发送到该topic上即可。需要说明的是,kafka分布式消息系统类似于一个传送系统,消息的添加也是有序的,能存储消息,按topic存取,支持多个生产者或者消费者对topic的本文档来自技高网
...

【技术保护点】
1.一种用户行为数据质量的实时检测方法,其特征在于,包括如下步骤:/n从日志数据提取用户行为数据;/n通过流式处理所述用户行为数据,以实现实时监测用户行为数据并得到实时数据流;/n根据数据库设置的数据质量评估规则与训练数据异常深层模型,依次对实时数据流的精确性、逻辑一致性以及数据异常深层进行检验,其中,/n对所述实时数据流的精确性进行检验时,若实时数据流的精确性未能通过所述数据质量评估规则的检验,则得到数据异常报告,反之,则继续对实时数据流的逻辑一致性进行评估检验;/n若实时数据流的逻辑一致性未能通过数据质量评估规则的检验,则得到数据异常报告,反之,则继续对实时数据流的数据异常深层进行评估检验;/n若实时数据流的数据异常深层未能通过训练数据异常深层模型的检验,则得到数据异常报告,反之,则将实时数据流将上传至数据库进行保存。/n

【技术特征摘要】
1.一种用户行为数据质量的实时检测方法,其特征在于,包括如下步骤:
从日志数据提取用户行为数据;
通过流式处理所述用户行为数据,以实现实时监测用户行为数据并得到实时数据流;
根据数据库设置的数据质量评估规则与训练数据异常深层模型,依次对实时数据流的精确性、逻辑一致性以及数据异常深层进行检验,其中,
对所述实时数据流的精确性进行检验时,若实时数据流的精确性未能通过所述数据质量评估规则的检验,则得到数据异常报告,反之,则继续对实时数据流的逻辑一致性进行评估检验;
若实时数据流的逻辑一致性未能通过数据质量评估规则的检验,则得到数据异常报告,反之,则继续对实时数据流的数据异常深层进行评估检验;
若实时数据流的数据异常深层未能通过训练数据异常深层模型的检验,则得到数据异常报告,反之,则将实时数据流将上传至数据库进行保存。


2.根据权利要求1所述的用户行为数据质量的实时检测方法,...

【专利技术属性】
技术研发人员:江元源
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1