一种实时画像数据计算方法及系统技术方案

技术编号:20242083 阅读:32 留言:0更新日期:2019-01-29 23:15
本发明专利技术涉及画像数据的计算技术,具体涉及实时画像数据计算方法及系统,其方法包括:对日志数据进行实时采集、解析,形成数据采集链接;根据数据采集链接,按照数据类型对采集的日志数据进行划分,形成有序消息队列,将所采集的日志数据作为Kafka消息源,利用Kafka消息队列的异步通信机制将各层之间解耦转发出去;使用Strom集群,基于画像标签的计算规则实时计算数据流,输出实时画像标签;对计算输出的实时画像存储,供查询并返回数据,对短期查询的实时数据缓存,供短期高频查询使用;接收数据查询请求,调度处理数据,对实时画像标签数据有效整理,返回实时画像数据并可视化展示。本发明专利技术提高了实时画像数据的计算输出效率。

【技术实现步骤摘要】
一种实时画像数据计算方法及系统
本专利技术涉及画像数据的计算技术,具体涉及一种实时画像数据计算方法及系统。
技术介绍
随着大数据应用技术发展,企业在各个业务应用端产生了大量非结构化和半结构化数据,积累了海量数据。客户画像标签快速分析是企业的重要数据资产转化价值方式之一,可以帮助企业根据用户行为数据,分析客户特征,获取客户实时画像标签。在构建用户画像的过程中,一般基于历史数据离线计算或者Hadoop的批处理系统进行计算,输出历史画像标签或者准实时标签。在企业的客户服务中,大多数话务场景需要实时了解用户的背景现状与行为属性,画像技术在客服应用中,具有低延迟、增量计算的需求。但是无论针对上述哪种客户画像数据,均需等待一定时长后,才能构建用户画像,所以时效性较差。同时在构建用户画像时需进行海量数据的批量处理,处理过程耗时长、过程复杂且计算量大。因此,当前大多数画像构建方法存在实时画像标签输出低效、不及时的缺陷,难以向客户服务业务提供实时画像标签,帮助话务人员及时了解客户属性。综上,本专利技术人认为,有必要提出一种基于Storm技术的流式计算方法与系统,实时地计算日志数据,提高实时画像输出效率。
技术实现思路
为了解决现有技术所存在的问题,本专利技术提供一种实时画像数据计算方法,采用三级集群服务器计算海量业务数据并输出实时画像标签,提高了实时画像数据的计算输出效率。本专利技术还提供一种实时画像数据计算系统。本专利技术的实时画像数据计算方法,包括步骤:S1、实时数据采集,对日志数据进行实时采集,并对所采集的日志数据进行解析,形成数据采集链接;S2、实时数据转发,根据数据采集链接,按照数据类型对采集的日志数据进行划分,形成有序消息队列;其中,将所采集的日志数据作为Kafka消息源,放进Kafka消息队列中,利用Kafka消息队列的异步通信机制将各层之间解耦转发出去,实现数据的分类管理和高并发接入;S3、实时数据计算,根据有序消息队列,使用Strom集群,基于画像标签的计算规则实时计算数据流,输出实时画像标签;S4、实时数据存储,对计算输出的实时画像存储,供客户端根据具体业务情形查询并返回数据,同时针对短期查询的实时数据进行应用缓存,供短期高频查询使用;S5、实时数据展示,接收客户端的数据查询请求,根据数据查询请求调度处理数据,对实时画像标签数据有效整理,返回实时画像数据并可视化展示。优选地,在步骤S3的实时数据计算过程中,使用Strom集群创建Spout,接收Kafka消息队列数据,并以数据流的形式发送给bolt,bolt负责转化所述数据流,在bolt中完成过滤。优选地,步骤S3中使用Storm集群对实时数据进行计算,包括如下步骤:S301、建立实时计算拓扑,将应用程序实现的逻辑封装进Strom流式计算平台中的实时计算拓扑Topology,实时计算拓扑Topology是一组由数据源节点spouts和数据操作节点bolts通过消息队列进行连接的拓扑结构;S3011、数据源节点spouts从Kafka服务器的数据源中不间断地获取数据,并以元组的形式发送给相应的数据操作节点bolts;S3012、数据操作节点bolts对接收到的流数据进行计算处理,最后输出实时画像数据;S302、Storm集群管理,由zookeeper服务器协调集群中各个线程、进程和服务器;S303、Storm集群的Master服务器根据系统运行情况分发代码,将任务分配给工作节点Worker服务器执行,同时监控任务和工作节点的运行情况;S304、Worker服务器负责接收Master服务器分发的任务并运行,每一个Worker服务器上都运行着部分Topology程序;S305、将Storm流中分析的最新实时画像数据缓存到缓存服务器Redis中;S306、将Storm流中计算完成的实时画像数据存储到存储服务器Hbase中。本专利技术的实时画像数据计算系统,包括:业务系统,用于记录业务流程并产生、缓存用户行为数据;分布式数据采集服务器集群,用于采集各个不同业务系统的原始数据并汇总,形成有序消息队列,将所采集的日志数据作为Kafka消息源,放进Kafka消息队列中,利用Kafka消息队列的异步通信机制将各层之间解耦转发至分布式实时数据计算服务器集群,实现数据的分类管理和高并发接入;分布式实时数据计算服务器集群,用于对转发过来的数据进行实时计算,将计算结果传递至存储服务器与缓存服务器;分布式实时数据调度服务器集群,用于存储分析数据并根据客户端查询请求返回数据并可视化展示。优选地,所述分布式数据采集服务器集群包括:Flume服务器与Kafka服务器;其中,Flume服务器用于数据实时采集,将采集不同业务系统的日志数据并汇总;Kafka服务器用于有序管理所采集的日志数据,在日志数据汇总之后,将所采集的日志数据作为Kafka消息源,利用Kafka消息队列的异步通信机制将各层之间解耦转发至分布式实时数据计算服务器集群。优选地,所述分布式实时数据调度服务器集群包括存储服务器Hbase、缓存服务器Redis及数据可视化服务系统;其中,存储服务器Hbase用于对海量结果数据存储,供后续分析使用;缓存服务器Redis用于临时缓存最新实时画像数据,供短时间内的实时画像的迅速响应,数据可视化服务系统根据查询请求返回相应的数据可视化展示图。由以上技术方案可知,本专利技术采用三级集群服务器计算海量业务数据并输出实时画像标签:业务系统产生业务日志数据后,由第一级服务器集群采集实时采集业务日志数据并汇总,将数据形成有序的消息队列转发给第二服务器集群;之后由第二级服务器集群按照画像标签规则对消息队列进行计算输出,第二级服务器集群的实时计算技术的核心采用了Strom流式计算平台,Strom本质上是一个由处理者和消息队列组成的消息处理网络,是具有实时、分布式、高度容错等特点的实时计算平台;第二级服务器集群输出的实时画像数据由第三级服务器集群接收并存储在相应的数据库中,同时根据数据查询请求将实时画像标签返回实时画像数据,提高了实时画像标签的计算输出效率。附图说明图1为本专利技术实施例提供的实时画像数据计算系统结构框图;图2为本专利技术实施例提供的实时画像数据计算方法流程图;图3为本专利技术实施例中采用Storm流对实时数据计算的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,以下将结合附图对本专利技术的技术方案进行清楚、完整的描述;显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其他实施例,都属于本专利技术所保护的范围。本专利技术使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算机设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。本专利技术实施例提供的实时画像数据计算系统的结构如图1所示,包括:业务系统101、分布式数据采集服务器集群10本文档来自技高网...

【技术保护点】
1.一种实时画像数据计算方法,其特征在于,包括步骤:S1、实时数据采集,对日志数据进行实时采集,并对所采集的日志数据进行解析,形成数据采集链接;S2、实时数据转发,根据数据采集链接,按照数据类型对采集的日志数据进行划分,形成有序消息队列;其中,将所采集的日志数据作为Kafka消息源,放进Kafka消息队列中,利用Kafka消息队列的异步通信机制将各层之间解耦转发出去,实现数据的分类管理和高并发接入;S3、实时数据计算,根据有序消息队列,使用Strom集群,基于画像标签的计算规则实时计算数据流,输出实时画像标签;S4、实时数据存储,对计算输出的实时画像存储,供客户端根据具体业务情形查询并返回数据,同时针对短期查询的实时数据进行应用缓存,供短期高频查询使用;S5、实时数据展示,接收客户端的数据查询请求,根据数据查询请求调度处理数据,对实时画像标签数据有效整理,返回实时画像数据并可视化展示。

【技术特征摘要】
1.一种实时画像数据计算方法,其特征在于,包括步骤:S1、实时数据采集,对日志数据进行实时采集,并对所采集的日志数据进行解析,形成数据采集链接;S2、实时数据转发,根据数据采集链接,按照数据类型对采集的日志数据进行划分,形成有序消息队列;其中,将所采集的日志数据作为Kafka消息源,放进Kafka消息队列中,利用Kafka消息队列的异步通信机制将各层之间解耦转发出去,实现数据的分类管理和高并发接入;S3、实时数据计算,根据有序消息队列,使用Strom集群,基于画像标签的计算规则实时计算数据流,输出实时画像标签;S4、实时数据存储,对计算输出的实时画像存储,供客户端根据具体业务情形查询并返回数据,同时针对短期查询的实时数据进行应用缓存,供短期高频查询使用;S5、实时数据展示,接收客户端的数据查询请求,根据数据查询请求调度处理数据,对实时画像标签数据有效整理,返回实时画像数据并可视化展示。2.根据权利要求1所述的实时画像数据计算方法,其特征在于,在步骤S3的实时数据计算过程中,使用Strom集群创建Spout,接收Kafka消息队列数据,并以数据流的形式发送给bolt,bolt负责转化所述数据流,在bolt中完成过滤。3.根据权利要求1或2所述的实时画像数据计算方法,其特征在于,步骤S3中使用Storm集群对实时数据进行计算,包括如下步骤:S301、建立实时计算拓扑,将应用程序实现的逻辑封装进Strom流式计算平台中的实时计算拓扑Topology,实时计算拓扑Topology是一组由数据源节点spouts和数据操作节点bolts通过消息队列进行连接的拓扑结构;S3011、数据源节点spouts从Kafka服务器的数据源中不间断地获取数据,并以元组的形式发送给相应的数据操作节点bolts;S3012、数据操作节点bolts对接收到的流数据进行计算处理,最后输出实时画像数据;S302、Storm集群管理,由zookeeper服务器协调集群中各个线程、进程和服务器;S303、Storm集群的Maste...

【专利技术属性】
技术研发人员:黄剑文冯歆尧王国瑞江疆萧展辉陈宋毛莉萍钱正浩杨秋勇苏华权丘荣恭孟禹
申请(专利权)人:广东电网有限责任公司信息中心
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1