The invention relates to a real-time update for Spark Sql metadata retrieval method. The method of retrieval in Spark Sql, will use the metadata cache will be retrieved by the data block file metadata in the form set cache in memory; when the incremental information metadata of files, will first check the incremental information belonging to the table retrieval metadata exists in the cache, if there will be a collection of the table file metadata file metadata increment increased to cache, thereby completing the incremental Spark Sql retrieval metadata update. The invention also provides the Spark Sql metadata retrieval processing method can increase the real-time processing of metadata retrieval increases, improve the real-time search results. The present invention can avoid the regular full update of the retrieval metadata to reduce the time and resource overhead when updating metadata.
【技术实现步骤摘要】
一种面向Spark-Sql检索的元数据实时更新方法
本专利技术涉及一种面向SparkSql检索的元数据实时更新方法,可提高SparkSql检索海量数据时的结果实时性及运行性能,属于大数据处理领域。
技术介绍
随着计算机技术的不断发展和信息化程度的不断提高,数据量迅速增长,面向海量数据存储及应用也随之蓬勃发展。如,在网络安全上,使用大数据技术分析网络攻击行为;在电子商务上,使用大数据技术分析用户购物喜好或最受青睐的商品。大数据技术在建设节约型社会,提高生成效率等方面起到了积极的推动作用。在海量数据检索应用中,Apache基金会的分布式检索框架SparkSql提供了同Hive的HiveQL接口,其具有较高的效率及可用性,作为一种优秀的大数据检索方法,在该领域被广泛的使用。SparkSql中对检索中使用过的元数据进行了缓存,该缓存有效的提高了对相同数据进行多次查询时的效率,但也存在问题。当检索使用的元数据发生变化时,SparkSql框架会将原缓存全部弃用,重新加载全量的检索元数据,这在海量数据规模下会造成较大的时间和资源开销。在元数据经常变换的业务场景下,频繁更新检索元数据造成了SparkSql出现性能瓶颈,是使用SparkSql进行检索的一个关键问题。随着数据量的不断增加和大数据技术的不断发展,SparkSql的原生元数据更新方法出现性能瓶颈,其效率直接的影响了业务应用。
技术实现思路
为了解决上述SparkSql使用中所出现的关键问题,本专利技术的目的是提供一种面向SparkSql检索的元数据实时更新方法,能够有效的降低SparkSql检索进行元数据更新时的资源 ...
【技术保护点】
一种面向Spark Sql检索的元数据实时更新方法,其特征在于,包括以下步骤:1)在Spark Sql进行检索时,将被检索的数据块的文件元数据以集合的形式进行缓存;2)当获得文件元数据的增量信息时,检查该增量信息所属的表的文件元数据是否存在于缓存之中,若存在,则将增量信息中的文件元数据增加至缓存的文件元数据的集合之中,从而完成Spark Sql检索的文件元数据的增量更新。
【技术特征摘要】
1.一种面向SparkSql检索的元数据实时更新方法,其特征在于,包括以下步骤:1)在SparkSql进行检索时,将被检索的数据块的文件元数据以集合的形式进行缓存;2)当获得文件元数据的增量信息时,检查该增量信息所属的表的文件元数据是否存在于缓存之中,若存在,则将增量信息中的文件元数据增加至缓存的文件元数据的集合之中,从而完成SparkSql检索的文件元数据的增量更新。2.如权利要求1所述的方法,其特征在于,步骤2)获得文件元数据的增量信息的方法是:在SparkSql框架启动时,同时启动一个附属的Http服务,用于监听和接收有关SparkSql文件元数据增加的请求,该请求中附带新增的文件元数据的信息。3.如权利要求2所述的方法,其特征在于,当该Http服务接收到增加SparkSq...
【专利技术属性】
技术研发人员:李斌斌,王树鹏,王振宇,张磊,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。