一种基于大数据并行运算的语音信箱业务数据分析方法技术

技术编号:13295840 阅读:94 留言:0更新日期:2016-07-09 13:56
本发明专利技术提供一种基于大数据并行运算的语音信箱业务数据分析方法,通过flume日志收集系统把语音信箱平台业务系统的各核心组件抛出的结构化日志汇聚到hadoop离线集群;通过MapReduce将当天收集的原始日志生成或更新用户模型数据;用户模型数据反更新当天收集的日志生成相应的流水模型数据;查询最新的用户模型数据或者统计时间段内的流水模型数据得出统计分析结果。业务统计分析时,避免一次查询要处理整个数据集,既有效利用了大数据分析框架的并行运算能力又巧妙地避免了蛮干。本发明专利技术方法,减少了查询时间,提高了数据处理效率,适用于拥有海量的用户及业务数据的语音信箱系统。

【技术实现步骤摘要】

本专利技术涉及语音信箱系统领域,更具体地,涉及一种基于大数据并行运算的语音信箱业务数据分析方法
技术介绍
语音信箱技术是结合了移动互联网领域、移动通信领域、以及传统的电信智能网与数据网领域中的多种通讯技术,为移动终端用户提供语音留言的发送和收取服务的一种技术。基于语音信箱技术开发的语音邮件服务平台能够将主叫的语音留言信息及时送达到接收者的终端设备上,使得人们之间的交流和沟通变得更加方便和高效。语音信箱技术是一项非常实用的技术,使用语音信箱业务的移动终端用户,在不方便接接听电话的时候,主叫方通话可以被转入语音信箱系统,按照系统的提示音进行操作,给被叫用户录下要说的话,存储完成之后,系统将通过各种推送机制去通知被叫用户有新的留言到达。被叫用户在收到新留言达到通知信息后,可以到语音信箱系统后台上对自己的语音留言数据进行提取收听,就不会错过对方给自己的任何语音通话信息了,从而使得通信沟通效率得到提高。语音信箱系统包括海量的用户及业务数据,传统的基于数据库的统计分析系统受制于日益庞大的数据量,面对移动互联网动辄T级的落地数据显得有些力不从心,数据处理效率低下。由此大数据并行运算的统计分析系统应运而生,并很快成为目前比较前端的技术和发展的趋势。基于hadoop离线集群的mapreduce运算突破了传统的数据库统计分析的瓶颈,其具有强大的吞吐量以及方便的横向纵向扩展和并行的运算能力,但其似乎采用的是一种蛮力方法,每个查询都要处理整个数据集。
技术实现思路
本专利技术为克服上述现有技术所述的数据处理效率低下、每个查询都要处理整个数据集的缺陷,提供一种基于大数据并行运算的语音信箱业务数据分析方法,该方法数据处理效率高、并且能够避免一次查询要处理整个数据集。为解决上述技术问题,本专利技术的技术方案如下:一种基于大数据并行运算的语音信箱业务数据分析方法,所述方法包括以下步骤:S1:通过flume日志收集系统把语音信箱平台业务系统的各核心组件抛出的结构化日志汇聚到hadoop离线集群;S2:通过MapReduce将当天收集的原始日志生成或更新用户模型数据;S3:用户模型数据反更新当天收集的日志生成相应的流水模型数据;S4:查询最新的用户模型数据或者统计时间段内的流水模型数据得出统计分析结果。在一种优选的方案中,步骤S1中,hadoop离线集群中所有日志都以key/value形式存储,key为全球唯一标识,value为分析统计关心字段的集合。在一种优选的方案中,所述核心组件包括IVRSERVER组件、IMSERVER组件、HTTPSERVER组件,各核心组件分别用于与用户电话、APP、WEB进行交互。在一种优选的方案中,步骤S2中,所述用户模型数据以key/value形式存储,key为对应用户的号码,value为该用户的属性,一个用户对应一条记录。在一种优选的方案中,所述统计分析结果为预设时间段内业务的订购用户数。在一种优选的方案中,所述方法还包括以下步骤:S5:通过JDBC(JavaDataBaseConnectivity,java数据库连接)将统计分析结果插入数据库,其目的是加快结果展示时的查询效率;S6:将数据库中的统计分析结果通过JDBC发送到BAS展示系统,统计分析结果通过BAS展示系统页面进行展示。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术提供一种基于大数据并行运算的语音信箱业务数据分析方法,通过flume日志收集系统把语音信箱平台业务系统的各核心组件抛出的结构化日志汇聚到hadoop离线集群;通过MapReduce将当天收集的原始日志生成或更新用户模型数据;用户模型数据反更新当天收集的日志生成相应的流水模型数据;查询最新的用户模型数据或者统计时间段内的流水模型数据得出统计分析结果。业务统计分析时,避免一次查询要处理整个数据集,既有效利用了大数据分析框架的并行运算能力又巧妙地避免了蛮干。本专利技术方法,减少了查询时间,提高了数据处理效率,适用于拥有海量的用户及业务数据的语音信箱系统。附图说明图1为本专利技术基于大数据并行运算的语音信箱业务数据分析方法的原理图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1在描述本实施例之前,对本专利技术说明书涉及的技术术语进行解释:1)语音信箱:语音信箱系统指服务提供商给业务注册用户的用来收取和转发语音留言的业务系统。被叫用户开通了语音信箱业务后,在无法接听电话或者不方便接听电话的时候,主叫方可以在系统上留下语音录音,系统将通过消息推送机制提醒被叫用户进行留言的收取,方便用户沟通。2)VVM:VisualVoiceMail的缩写,可视化语音信箱。是指用户能够通过移动终端上的语音信箱的应用程序,采用可视化的方式收取和管理。本文中的“语音信箱”都是指“可视化语音信箱”。3)APP:app泛指可以安装在手机操作系统上的应用软件,一般可以实现一些一些特定的功能,完善原始操作系统的不足,实现用户的个性化定制需求。4)组件:语音信箱平台系统中遵循分布式系统开发规范所开发出来的能够独立在服务器上运行的应用程序。5)IVRSERVER:InteractiveVoiceResponseServer,即互动式语音应答服务组件,负责处理用户通过IVR电话进行的一系列操作逻辑。6)RMISERVER:语音信箱的即时通讯组件。7)HTPPSERVER:承载http协议通讯的服务组件。8)Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。9)Hadoop离线集群:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。框架最核心的设计就是HDFS和MapReduce。10)HDFS:Hadoop实现的一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS,为海量的数据提供存储。11)MapReduce:处理大量半结构化数据集合的编程模型,用于大规模数据集(大于1TB)的并行运算。12)DB:关系型数据库简称。13)BAS展示系统:数据统计分析展示系统。如图1所示,一种基于大数据并行运算的语音信箱业务数据分析方法,所述方法包括以下步骤:S1:通过flume日志收集系统把语音信箱平台业务系统的各核心组件抛出的结构化日志汇聚到hadoop离线集群;hadoop离线集群中所有日志都以key/value形式存储,key为全球唯一标识,value为分析统计关心字段的集合。所述核心组件包括IVRSERVER、IMSERVER、HTTPSERVER等组件,各核心组件分别用于与用户电话、APP、WEB进行交互。S2:通过MapR本文档来自技高网...

【技术保护点】
一种基于大数据并行运算的语音信箱业务数据分析方法,其特征在于,所述方法包括以下步骤:S1:通过flume日志收集系统把语音信箱平台业务系统的各核心组件抛出的结构化日志汇聚到hadoop离线集群;S2:通过MapReduce将当天收集的原始日志生成或更新用户模型数据; S3:用户模型数据反更新当天收集的日志生成相应的流水模型数据;S4:查询最新的用户模型数据或者统计时间段内的流水模型数据得出统计分析结果。

【技术特征摘要】
1.一种基于大数据并行运算的语音信箱业务数据分析方法,其特征在于,所述方法包括以下步骤:
S1:通过flume日志收集系统把语音信箱平台业务系统的各核心组件抛出的结构化日志汇聚到hadoop离线集群;
S2:通过MapReduce将当天收集的原始日志生成或更新用户模型数据;
S3:用户模型数据反更新当天收集的日志生成相应的流水模型数据;
S4:查询最新的用户模型数据或者统计时间段内的流水模型数据得出统计分析结果。
2.根据权利要求1所述的基于大数据并行运算的语音信箱业务数据分析方法,其特征在于,步骤S1中,hadoop离线集群中所有日志都以key/value形式存储,key为全球唯一标识,value为分析统计关心字段的集合。
3.根据权利要求1所述的基于大数据并行运算的语音信箱业务数据分析方法,其特征在于,步骤S...

【专利技术属性】
技术研发人员:陈天桥黄继国蒲明彬
申请(专利权)人:广州市讯飞樽鸿信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1