一种海量房租信息的实时查询方法技术

技术编号:20221711 阅读:30 留言:0更新日期:2019-01-28 20:14
本发明专利技术提供了一种海量房租信息的实时查询方法,包括部署Flume数据实时抽取系统、针对海量房租信息查询场景进行索引优化,封装数据二次检索过程,建立客户端到Hbase分布式数据库实时查询的Rest API、客户端直接调用Rest API完成多维组合即席查询,返回查询最终结果步骤,本发明专利技术将Flume应用至关系行业务数据库到Hbase分布式数据库之间的数据实时传输,保证数据传输的实时性,数据查询的一致性,通过SolrCloud分布式索引组件为Hbase中的Row Key添加二级索引,根据海量房租信息场景进行索引优化,保证系统在海量数据下对实时查询任务能在秒级作出响应,在系统封装数据二次检索过程中,二级索引对客户端完全透明,实现查询透明化。满足实时查询系统的可靠性、实时性以及操作透明性。

【技术实现步骤摘要】
一种海量房租信息的实时查询方法
本专利技术涉及大数据分析应用
,尤其涉及适用于房屋中介服务中的一种海量房租信息的实时查询方法。
技术介绍
在数据时代,不论是科学研究、电子商务还是互联网应用等领域。数据量呈现爆发式增长趋势,用户和应用程序能够在任何时间、任何地点、任何状态下创造数据,随着数据生成的自动化以及数据生成速度的加快,对信息检索的高效性、可靠性、便捷性提出了严苛的性能要求。在现实的房租信息检索场景中,用户需要在海量的数据下,压秒级内完成的多字段组合即席查询服务,且查询方式多为模糊查询,而实际服务于用户查询的数据源位于传统的关系型业务数据库中,在数据量趋于海量时,超高的延迟性严重破坏了用户的查询体验,因此实时查询任务的低延迟、高可靠性、透明性成为工业界关注的热点,现在面临的问题是急需建立实时数据传输通道,将业务数据导入分布式数据库中,以进行更高效的查询,且分布式数据库也需要提供健壮的索引机制应对复杂的多维组合即席查询任务。
技术实现思路
针对上述
技术介绍
所阐述的问题,本专利技术目的是提供一种海量房租信息的实时查询方法,解决现有技术的问题,保证数据查询的一致性,且海量数据场景下的查询任务可以在秒级内作出响应,满足实时查询系统的可靠性、实时性以及操作透明性。为了达到上述目的,本专利技术提供如下技术方案:一种海量房租信息的实时查询方法,其特征在于:包括如下步骤:Q1、部署Flume数据实时抽取系统,将关系型业务数据库中的实时数据导入Hbase分布式数据库中,包括:Q1-1、根据外部关系型业务数据库部署Flume服务:即,A、部署FlumeSource,指定数据源类型、数据库URL、表名和列名;B、部署FlumeChannel,指定传输内存、事务容量等;C、部署FlumeHbaseSink,指定Hbase地址、表名、列簇;Q1-2、在Hbase中建立数据表,用于存储传统关系型业务数据库中的数据;Q1-3、启动Flume服务,该服务的Agent监听数据库变化并同步到Hbase分布式数据库中;Q2、针对海量房租信息查询场景进行索引优化,根据房租信息数据,优化分词处理器优化,建立精准索引,为Hbase表中的RowKey字段添加二级索引并实时同步至SolrCloud,包括:Q2-1、创建Solr预设文件,添加除被索引的Hbase表中的RowKey字段以外其他所有字段作为二级索引字段,单独将RowKey字段设置为Solr索引的UniqueKey;Q2-2、创建Hbase索引预设文件,指定SolrCloudCollection名称,需要写入到Solr中的字段、RowKey字段名称;Q2-3、将Solr预设文件和Hbase索引预设文件部署到SolrCloud,并启动SolrCloud服务,SolrCloud机器中的各个节点可以通过Hbase表中的其他字段对RowKey进行检索;Q3、封装数据二次检索过程,建立客户端到Hbase分布式数据库实时查询的RestAPI,包括:Q3-1、客户端通过RestAPI发起多维组合即席查询请求;Q3-2、程序自动发送组合字段至SolrCloud集群查询Hbase分布式数据库中满足要求的RowKey集合;Q3-3、利用得到的RowKey查询Hbase分布式数据库中的完整记录,并返回给客户端;Q4、客户端直接调用RestAPI完成多维组合即席查询,即客户端提交查询任务到系统指定的RestServer端口,RestServer监听到查询任务后启动查询程序,返回查询最终结果。本专利技术通过结合中间件的方式,将Flume应用至关系行业务数据库到Hbase分布式数据库之间的数据实时传输,保证了数据传输的实时性,数据查询的一致性,通过SolrCloud分布式索引组件为Hbase中的RowKey添加二级索引,并根据海量房租信息场景进行索引优化,保证了系统在海量数据下对实时查询任务能在秒级作出响应,在系统封装数据二次检索过程中,二级索引对客户端完全透明,实现查询透明化。满足实时查询系统的可靠性、实时性以及操作透明性。附图说明图1是本专利技术实施例提供的面向海量房租信息的RestAPI工作时序图;图2是本专利技术实施例提供的面向海量房租信息的实时查询数据流图;具体实施方式下面将结合本专利技术的附图和实施例,对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。根据图1、2所示,本专利技术实施例,说明一种海量房租信息的实时查询方法,包括如下步骤:包括如下步骤:Q1、部署Flume数据实时抽取系统,将关系型业务数据库中的实时数据导入Hbase分布式数据库中,包括:Q1-1、根据外部关系型业务数据库部署Flume服务:即,A、部署FlumeSource,指定数据源类型、数据库URL、表名和列名;B、部署FlumeChannel,指定传输内存、事务容量等;C、部署FlumeHbaseSink,指定Hbase地址、表名、列簇;Q1-2、在Hbase中建立数据表,在Hbase数据库中建立与关系型业务数据库相关联的表;为房租信息数据划分列簇,将关联度较高的维度划分到同一个列簇,但不超过2个列簇,为房租信息数据设计RowKey作为记录的一级索引用于存储传统关系型业务数据库中的数据;Q1-3、启动Flume服务,该服务的Agent监听数据库变化并同步到Hbase分布式数据库中;Q2、针对海量房租信息查询场景进行索引优化,根据房租信息数据,优化分词处理器优化,建立精准索引,具体为:1、添加停止词,抽样房租信息数据获取词频逆序排序,将前百分之十无作用词加入停止次库;添加包括但不限于“*”、“@”、“!”等无意义符号或情感符号;2、添加新词,将“整租”、“押一”、“付三”等房租时常用缩减术语加入新词字典中,保证分词正确性;3、添加扩展词库。将“一室一厅”、“两室一厅”等户型信息保留为完整分词;这样即为Hbase表中的RowKey字段添加二级索引并实时同步至SolrCloud,包括:Q2-1、创建Solr预设文件,添加除被索引的Hbase表中的RowKey字段以外其他所有字段作为二级索引字段,单独将RowKey字段设置为Solr索引的UniqueKey,配置solr提交方式为硬提交,数据在Hbase中刷新时同步建立索引,保证访问数据的一致性;Q2-2、创建Hbase索引预设文件,调整索引分片(shard)数量,提高索引效率,指定SolrCloudCollection名称,需要写入到Solr中的字段、RowKey字段名称;Q2-3、将Solr预设文件和Hbase索引预设文件部署到SolrCloud,为非RowKey字段构建完整逻辑上的倒排索引并启动SolrCloud服务,SolrCloud机器中的各个节点可以通过Hbase表中的其他字段对RowKey进行检索;Q3、封装数据二次检索过程,建立客户端到Hbase分布式数据库实时查询的RestAPI,包括:Q3-1、客户端通过RestAPI发起多维组合即席查询请求;Q3-2、程序自动发送组合字段至SolrCloud集群查询Hbase分布式数本文档来自技高网...

【技术保护点】
1.一种海量房租信息的实时查询方法,其特征在于:包括如下步骤:包括如下步骤:Q1、部署Flume数据实时抽取系统,将关系型业务数据库中的实时数据导入Hbase分布式数据库中,包括:Q1‑1、根据外部关系型业务数据库部署Flume服务:即,A、部署Flume Source,指定数据源类型、数据库URL、表名和列名;B、部署Flume Channel,指定传输内存、事务容量等;C、部署Flume Hbase Sink,指定Hbase地址、表名、列簇;Q1‑2、在Hbase中建立数据表,用于存储传统关系型业务数据库中的数据;Q1‑3、启动Flume服务,该服务的Agent监听数据库变化并同步到Hbase分布式数据库中;Q2、针对海量房租信息查询场景进行索引优化,根据房租信息数据,优化分词处理器优化,建立精准索引,为Hbase表中的Row Key字段添加二级索引并实时同步至SolrCloud,包括:Q2‑1、创建Solr预设文件,添加除被索引的Hbase表中的Row Key字段以外其他所有字段作为二级索引字段,单独将Row Key字段设置为Solr索引的Unique Key;Q2‑2、创建Hbase索引预设文件,指定SolrCloud Collection名称,需要写入到Solr中的字段、Row Key字段名称;Q2‑3、将Solr预设文件和Hbase索引预设文件部署到SolrCloud,并启动SolrCloud服务,SolrCloud机器中的各个节点可以通过Hbase表中的其他字段对Row Key进行检索;Q3、封装数据二次检索过程,建立客户端到Hbase分布式数据库实时查询的Rest API,包括:Q3‑1、客户端通过Rest API发起多维组合即席查询请求;Q3‑2、程序自动发送组合字段至SolrCloud集群查询Hbase分布式数据库中满足要求的Row Key集合;Q3‑3、利用得到的Row Key查询Hbase分布式数据库中的完整记录,并返回给客户端;Q4、客户端直接调用Rest API完成多维组合即席查询,即客户端提交查询任务到系统指定的Rest Server端口,Rest Server监听到查询任务后启动查询程序,返回查询最终结果。...

【技术特征摘要】
1.一种海量房租信息的实时查询方法,其特征在于:包括如下步骤:包括如下步骤:Q1、部署Flume数据实时抽取系统,将关系型业务数据库中的实时数据导入Hbase分布式数据库中,包括:Q1-1、根据外部关系型业务数据库部署Flume服务:即,A、部署FlumeSource,指定数据源类型、数据库URL、表名和列名;B、部署FlumeChannel,指定传输内存、事务容量等;C、部署FlumeHbaseSink,指定Hbase地址、表名、列簇;Q1-2、在Hbase中建立数据表,用于存储传统关系型业务数据库中的数据;Q1-3、启动Flume服务,该服务的Agent监听数据库变化并同步到Hbase分布式数据库中;Q2、针对海量房租信息查询场景进行索引优化,根据房租信息数据,优化分词处理器优化,建立精准索引,为Hbase表中的RowKey字段添加二级索引并实时同步至SolrCloud,包括:Q2-1、创建Solr预设文件,添加除被索引的Hbase表中的RowKey字段以外其他所有字段作为二级索引字段,单独将Row...

【专利技术属性】
技术研发人员:雷大江舒海东胡峰
申请(专利权)人:智庭北京智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1