【技术实现步骤摘要】
一种基于批流融合的挂货量统计方法、系统、装置
本专利技术涉及数据处理
,尤其是涉及一种基于批流融合的挂货量统计方法、系统、装置。
技术介绍
对于钢铁电商而言,挂货量的统计是数据分析工作里很重要的一部分。传统的关系型数据库所存储的资源信息都是动态变化的,只能获取到当前时间的资源状态与资源属性,无法获取到资源状态与资源属性的历史变动信息,缺乏统计挂货量的数据基础,无法精准实时的统计各供应商当天在平台的累计挂货量,也无法统计平台供应商累计的挂货量。利用原大数据的批处理技术或许能达到一定的效果,但数据采集多以天或者小时为采集频率,即便采集频率提升到分钟,增量采集所得到的资源历史变动信息也是不准确的:首先,不能保证客户不会在一分钟内完成上架下架等操作,在这种情况下,仍然会有部分资源无法被统计;另外,业务库中存储的资源表一般有多张,主表和子表分别记录不同的信息需要进行关联,而上下架的操作数据修改是没法根据时间来进行强关联进行统计,除上述以外,离线的高频采集是一种侵入式采集方式,对业务系统性能有较大影响,离线采集的时效性也达不到实时 ...
【技术保护点】
1.一种基于批流融合的挂货量统计方法,其特征在于,该方法包括如下步骤:/nS1、批处理:在平台开市前获取业务库中的资源表,基于资源表获取平台上各供应商处于上架状态的各个资源的资源挂货唯一哈希码和资源重量并写入消息系统,最后求取各个供应商的资源重量总和作为挂货量初始值存入数据库;/nS2、流处理:平台开市后实时采集资源表履历,基于资源表履历获得供应商所有操作更新时间点的资源信息,筛选上架状态的记录生成新的资源挂货唯一哈希码以及对应的资源重量实时值;/nS3、批流融合处理:判断流处理得到的新的资源挂货唯一哈希码是否存在于消息系统中,若是则舍弃,否则将新的资源挂货唯一哈希码以及对 ...
【技术特征摘要】
1.一种基于批流融合的挂货量统计方法,其特征在于,该方法包括如下步骤:
S1、批处理:在平台开市前获取业务库中的资源表,基于资源表获取平台上各供应商处于上架状态的各个资源的资源挂货唯一哈希码和资源重量并写入消息系统,最后求取各个供应商的资源重量总和作为挂货量初始值存入数据库;
S2、流处理:平台开市后实时采集资源表履历,基于资源表履历获得供应商所有操作更新时间点的资源信息,筛选上架状态的记录生成新的资源挂货唯一哈希码以及对应的资源重量实时值;
S3、批流融合处理:判断流处理得到的新的资源挂货唯一哈希码是否存在于消息系统中,若是则舍弃,否则将新的资源挂货唯一哈希码以及对应的资源重量实时值存入消息系统,同时更新各个供应商的总挂货量并存入数据库;
S4、循环执行步骤S2~S3。
2.根据权利要求1所述的一种基于批流融合的挂货量统计方法,其特征在于,所述的资源表包括资源主表和资源子表,对应的,所述的资源表履历包括资源主表履历和资源子表履历,所述的资源主表和资源主表履历包括至少如下字段:资源号、供应商代码、捆包号、状态、重量,所述的资源子表和资源子表履历包括至少如下字段:资源号、品种、牌号、产地、规格。
3.根据权利要求2所述的一种基于批流融合的挂货量统计方法,其特征在于,步骤S1具体为:
S11、在资源主表中筛选出状态为“上架”的资源,用资源号关联资源子表并按照“供应商代码+捆包号+品种+牌号+产地+规格”生成资源挂货唯一哈希码,将“供应商代码+资源挂货唯一哈希码+重量+更新时间”写入消息系统;
S12、基于供应商代码将同一个供应商的资源的重量求和得到挂货量初始值存入数据库。
4.根据权利要求2所述的一种基于批流融合的挂货量统计方法,其特征在于,步骤S2具体为:
S21、采集资源主表履历和资源子表履历,并存储至消息系统;
S22、使用Flink计算引擎按照资源号将最新获取的资源主表履历或资源子表履历对应关联与之时间最近的一条资源子表履历或资源主表履历,并按照“供应商代码+捆包号+品种+牌号+产地+规格”生成新的资源挂货唯一哈希码,将新的资源挂货唯一哈希码写入消息系统。
5.根据权利要求4所述的一种基于批流融合的挂货量统计方法,其特征在于,步骤S22中具体为:
在Flink中设置窗口T;
若在T窗口期内资源主表履历和资源子表履历均有流数据流入,则将流入的资源主表履历和资源子表履历按资源号进行关联,并对“上架”状态的记录按照“供应商代码+捆包号+品种+牌号+产地+规格”生成新的资源挂货唯一哈希码;
若在T窗口期内仅有资源主表履历或资源子表履历有流数据流入,则从消息系统中提取当前流入的流数据中对应的资源号当天的所有履历,若流数据为资源主表履历,则通过Flink将资源主表履历与最近的一条资源子表履历关联,若流数据为资源子表履历,则通过Flink将资源子表履历与最近的一条资源主表履历关联,最后对“上架”状态的记录按照“供应商代码+捆包号+品种+牌号+产地+规格”生成新的资源挂货唯一哈希码。
6.根据权利要求1所述的一种基于批流融合的挂货量统计方法,其特征在于,步骤S3具体为:判断流处理得到的新的资源挂货唯一哈希码是否存在于消息系统中,若是则舍弃,否则将“供应商代码+资源挂货唯一哈希码+重量+更新时间”写入消息系统,同时将该条记录对应的重量与数据库中该供应商已有的挂货量进行累加得到总挂货量并更新至数据库。
7.根据权利要求1~6任意一项所述的一种基于批流融合的挂货量统计方法,其特征在于,所述的消息系统包括kafka。
8.根据权利要求1~6任意一项所述的一种基于批流融合的挂货量统计方法,其特征在于,所述的数据库包括mysql数据库系统。
9.一种基于批流融合的挂货量统计系统,其特征在于,该系统包括:
批处理模块(1):该模块用于在平台开市前获取业务库中的资源表,基于资源表获取平台上各供应商处于上架状态的各个资源的资源挂货唯一哈希码和资源重量并写入消息系统,最后求取各个供应商的资源重量总和作为挂货量初始值存入数据库;
流处理模块(...
【专利技术属性】
技术研发人员:金梦丽,仲跻炜,朱彭生,万仕龙,
申请(专利权)人:欧冶云商股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。