信息查询方法及系统技术方案

技术编号:15268246 阅读:141 留言:0更新日期:2017-05-04 03:36
本发明专利技术公开一种信息查询方法及系统,其中,该方法包括:在接收到查询用户发送的查询统计请求后,对查询统计请求进行任务分解,以得到相应的map reduce任务;根据得到的map reduce任务,从分布式文件系统中相应的分布式数据存储节点读取数据;其中在分布式文件系统中的Hive数据仓库中,数据存储采用RcFile格式;根据各分布式数据存储节点读取的数据进行分布式计算;将各分布式数据存储节点的计算结果进行合并,以得到查询结果;将查询结果提供给查询用户。本公开提供的方法与系统,以自动资源适配的方式自动增加云资源计算节点,提升移动上网日志查询和分析的效率。

Information inquiry method and system

The invention discloses an information query method and system, wherein, the method comprises: receiving a query in the statistical query request sent by the user, the task decomposition of the query request, in order to obtain the corresponding map reduce task; according to the map reduce task, read data from the corresponding nodes in the distributed data storage and distributed file system; Hive data warehouse in the distributed file system, data storage using RcFile format; according to the distributed data storage node reads the data distributed computing; will calculate all the distributed data storage node results are merged to get the query result; the query results to user query. The method and system provided by the invention can automatically increase the computing node of the cloud resource in the way of the automatic resource adaptation, and improve the efficiency of the query and analysis of the mobile Internet log.

【技术实现步骤摘要】

本专利技术涉及移动通信领域,尤其涉及一种信息查询方法及系统
技术介绍
在移动互联网中,移动终端如手机和PAD终端通过电信运营商进行无线方式接入,实现网络的访问。为了保障公共信息安全,电信运营商对通过CTNET、CTWAP或者WLAN方式接入,访问互联网业务的网络痕迹数据进行了留存。主要包含了两种类型痕迹数据,移动上网用户在接入互联网时认证登录过程中痕迹和移动上网用户在接入互联网后访问互联网时痕迹数据。随着移动互联网的迅猛发展和智能手机终端的普及,移动上网的痕迹留存数据量由GB级别突破到TB级别。以福建电信900万C网用户,2014年1月的每天产生的原始上网痕迹数据为700G。按照至少保存3个月的中国工信部要求,那么数据总量在70T,而且有日益增长的趋势。现有的技术解决架构为把上网痕迹数据关联匹配后,装载入关系型数据库,来实现对用户上网行为的查询和统计分析。当遍历查询的数据量在10TB以上时,集中式的关系型数据库处理系统,出现了数据查询定位缓慢,检索一个用户的一周上网痕迹数据时需要耗费接近6小时,对宏观的用户网络行为分析在现有架构下无法完成。即使目前互联网行业已大量采用hadoop本文档来自技高网...
信息查询方法及系统

【技术保护点】
一种信息查询方法,其特征在于,包括:在接收到查询用户发送的查询统计请求后,对查询统计请求进行任务分解,以得到相应的map reduce任务;根据得到的map reduce任务,从分布式文件系统中相应的分布式数据存储节点读取数据;其中在分布式文件系统中的Hive数据仓库中,数据存储采用RcFile格式;根据各分布式数据存储节点读取的数据进行分布式计算;将各分布式数据存储节点的计算结果进行合并,以得到查询结果;将查询结果提供给查询用户。

【技术特征摘要】
1.一种信息查询方法,其特征在于,包括:在接收到查询用户发送的查询统计请求后,对查询统计请求进行任务分解,以得到相应的mapreduce任务;根据得到的mapreduce任务,从分布式文件系统中相应的分布式数据存储节点读取数据;其中在分布式文件系统中的Hive数据仓库中,数据存储采用RcFile格式;根据各分布式数据存储节点读取的数据进行分布式计算;将各分布式数据存储节点的计算结果进行合并,以得到查询结果;将查询结果提供给查询用户。2.根据权利要求1所述的方法,其特征在于,还包括:实时采集移动用户的上网痕迹数据;将采集到的上网痕迹数据装载到分布式文件系统中的Hive数据仓库中。3.根据权利要求2所述的方法,其特征在于,在将采集到的上网痕迹数据装载到分布式文件系统中的Hive数据仓库中的步骤中,还包括:在进行Hive数据仓库中数据表创建时,根据查询统计请求任务分解个数和系统能力确定分桶个数。4.根据权利要求3所述的方法,其特征在于,利用公式Buckets=min(data_total_size/dfs.block.size,map_count)计算分桶个数Buckets,其中min()为取最小值函数,data_total_size为上网痕迹数据总量,dfs.block.size为分布式文件系统中配置的文件块大小,map_count为查询统计请求任务分解个数。5.根据权利要求2所述的方法,其特征在于,上网痕迹数据包括DPI设备分类上传的认证信息和互联网访问信息、WAP网关分类上传的认证信息和互联网访问信息、防火墙的SYSLOG日志服务器上传的NAT地址转换信息。6.一种信息查询系统,其特征在于,包括接口单元、查询驱动单元、数据处理单元和分布式文件系统,其中:接口单元,用于接收查询用户发送的查...

【专利技术属性】
技术研发人员:吴强王福荣王丽清胡华伟周裕峰
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1