【技术实现步骤摘要】
生成配置文件及数据处理的方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种生成配置文件及数据处理的方法和装置。
技术介绍
[0002]在线广告业务发展迅速,是互联网公司的主要盈利来源之一。而广告商品信息服务作为在线广告系统中至关重要的一环,是属于系统中最底层的数据查询服务,不涉及外部调用和复杂计算,只和数据库交互进行数据查询,因此数据存储架构直接影响到广告商品信息服务的质量。
[0003]现有技术中,商品属性字段根据不同系统模块被粗略地划分到多个数据对象中,其中每一个数据对象存储在一个特定的数据库集群中。当新增字段时,需要结合字段的请求方及其访问量情况,人为指定添加到某一个数据对象中,也即指定了存储该字段的数据库集群,还要人为计算并评估该数据库集群的内存资源、QPS(全称为Queries Per Second,即每秒查询率)是否能承受、是否需要扩容等。
[0004]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:(1)根据不同系统模块将字段粗略划分并存储至数据库集群中,会导致 ...
【技术保护点】
【技术特征摘要】
1.一种生成配置文件的方法,其特征在于,包括:根据监控数据和线上请求日志,确定字段对应的查询率特征向量;基于聚类算法,根据所述查询率特征向量对所述字段进行分类处理,获得至少一个字段集合;确定所述至少一个字段集合对应的存储数据库集群,以生成所述字段对应的字段存储位置配置文件。2.根据权利要求1所述的方法,其特征在于,所述根据监控数据和线上请求日志,确定字段对应的查询率特征向量,包括:确定服务请求方,然后查询所述监控数据,获得在预设时间周期内所述服务请求方的最大查询率;分析所述线上请求日志,得到所述字段被所述服务请求方请求访问的情况,获取所述字段对应的字段访问向量;根据所述服务请求方的最大查询率和所述字段对应的字段访问向量,计算所述字段对应的查询率特征向量。3.根据权利要求1所述的方法,其特征在于,所述基于聚类算法,根据所述查询率特征向量对所述字段进行分类处理,获得至少一个字段集合,包括:设置所述聚类算法的参数值;基于所述聚类算法,利用所述查询率特征向量将所述字段分成所述参数值个不相交的子集,得到所述至少一个字段集合;其中,所述参数值为所述至少一个字段集合的集合个数,以及所述至少一个字段集合的集合个数与所述存储数据库集群的集群个数相同。4.根据权利要求3所述的方法,其特征在于,所述设置所述聚类算法的参数值,包括:确定参数的至少一个可选取值;针对所述至少一个可选取值中的每个可选取值,确定所述每个可选取值对应的数据库集群性能;根据业务需求和所述每个可选取值对应的数据库集群性能,从所述至少一个可选取值中选择出所述参数值;其中,所述数据库集群性能包括以下选项中至少一项:数据库集群带宽值、数据库集群内存优化值。5.根据权利要求1所述的方法,其特征在于,在确定所述至少一个字段集合对应的存储数据库集群之后,所述方法还包括:读取当前数据存储的镜像数据,根据所述镜像数据,计算所述字段所占用的字节数;根据所述字段占用的字节数,计算所述存储数据库集群的字段存储量;根据所述存储数据库集群的字段存储量和单片内存量,计算所述存储数据库集群对应的集群单副本片数;根据所述存储数据库集群的最大承载查询率、所述存储数据库集群对应的集群单副本片数和所述集群单副本的可承载查询率,计算所述存储数据库集群对应的集群副本片数。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:定期更新所述字段存储位置配置文件;以及
在出现新的字段的情况下,更新所述字段存储位置配置文件。7.一种数据处理的方法,其特征在于,包括:接收数据处理任务,获取所述数据处理任务中的目标...
【专利技术属性】
技术研发人员:何悦扬,
申请(专利权)人:北京京东振世信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。