一种基于开票活跃度构建企业画像的方法及系统技术方案

技术编号:27978244 阅读:42 留言:0更新日期:2021-04-06 14:13
本发明专利技术公开了一种基于开票活跃度构建企业画像的方法及系统,包括:获取发票处理数据和开票行为处理数据;确定待画像企业所属行业的行业属性代码和画像周期;根据所述行业属性代码,选取发票处理数据,并按照企业标识信息进行分组,以获取所述待画像企业所属行业的所有企业标识信息;根据所有企业标识信息对所述开票行为处理数据进行筛选,以获取行业开票行为汇总数据;根据所述行业开票行为汇总数据,确定每个活跃度标签对应的月平均开票张数区间;确定所述待画像企业的月平均开票张数,与月平均开票张数区间进行匹配,以确定匹配的开票活跃度标签,并根据所述匹配的开票活跃度标签和行业属性代码确定所述待画像企业在所述画像周期内的企业画像。

【技术实现步骤摘要】
一种基于开票活跃度构建企业画像的方法及系统
本专利技术涉及企业画像
,并且更具体地,涉及一种基于开票活跃度构建企业画像的方法及系统。
技术介绍
企业画像可定义为通过收集和分析一个或多个来源的数据,对同一企业的所有相关信息进行提炼、整理与汇总,得到刻画、描述企业个体属性、行业属性和经营属性等多个维度的“画像”,即标签。现阶段基于企业的业务或应用中,以企业画像的相关企业信息为基础来开展工作,可以大大提高业务工作的效率和准确率。随着互联网信息量的暴涨及社会信息化程度的提高,各企业本身相关的信息、数据也随之增加,这也导致可供企业画像这一技术方法来分析的数据也越来越丰富。同时,企业画像的应用场景也更加丰富,分析的成果也更具说服力。但是,目前缺少企业画像在具体行业中的具体落地实现方案。
技术实现思路
本专利技术提出一种基于开票活跃度构建企业画像的方法及系统,以解决如何生成企业的企业画像的问题。为了解决上述问题,根据本专利技术的一个方面,提供了一种基于开票活跃度构建企业画像的方法,所述方法包括:<br>获取第一预设时本文档来自技高网...

【技术保护点】
1.一种基于开票活跃度构建企业画像的方法,其特征在于,所述方法包括:/n获取第一预设时间段内的与纳税人购销相关的发票数据和开票行为数据,并对所述发票数据和开票行为数据进行预处理,以获取发票处理数据和开票行为处理数据;/n确定待画像企业所属行业的行业属性代码和画像周期;其中,所述画像周期的时间长度小于等于所述第一预设时间段的时间长度;/n根据所述行业属性代码,按照所述画像周期从所述发票处理数据中选取与所述行业属性代码对应的发票处理数据,并按照企业标识信息进行分组,以获取所述待画像企业所属行业的所有企业标识信息;/n根据所述待画像企业所属行业的所有企业标识信息对所述开票行为处理数据进行筛选,以获取...

【技术特征摘要】
1.一种基于开票活跃度构建企业画像的方法,其特征在于,所述方法包括:
获取第一预设时间段内的与纳税人购销相关的发票数据和开票行为数据,并对所述发票数据和开票行为数据进行预处理,以获取发票处理数据和开票行为处理数据;
确定待画像企业所属行业的行业属性代码和画像周期;其中,所述画像周期的时间长度小于等于所述第一预设时间段的时间长度;
根据所述行业属性代码,按照所述画像周期从所述发票处理数据中选取与所述行业属性代码对应的发票处理数据,并按照企业标识信息进行分组,以获取所述待画像企业所属行业的所有企业标识信息;
根据所述待画像企业所属行业的所有企业标识信息对所述开票行为处理数据进行筛选,以获取所述待画像企业所属行业的行业开票行为汇总数据;
根据所述行业开票行为汇总数据,确定所述画像周期对应的每个活跃度标签对应的月平均开票张数区间;
根据所述待画像企业在所述画像周期内的开票行为数据确定所述待画像企业的月平均开票张数,将所述待画像企业的月平均开票张数与所述每个开票活跃度标签对应的月平均开票张数区间进行匹配,以确定匹配的开票活跃度标签,并根据所述匹配的开票活跃度标签和行业属性代码确定所述待画像企业在所述画像周期内的企业画像。


2.根据权利要求1所述的方法,其特征在于,所述获取预设时间段内的与纳税人购销相关的发票数据和开票行为数据,并对所述发票数据和开票行为数据进行预处理,以获取发票处理数据和开票行为处理数据,包括:
利用SQOOP工具从原始的电子底账Oracle数据库中抽取营改增以后的预设时间段内的与纳税人购销相关的发票数据和开票行为数据,并分别存储至HIVE发票信息表和开票行为信息表中;
利用Spark分布式处理框架分别对所述HIVE发票信息表和开票行为信息表中的数据进行ETL清洗、转换和加载处理,以获发票处理数据和开票行为处理数据。


3.根据权利要求1所述的方法,其特征在于,所述根据所述行业开票行为汇总数据,确定所述画像周期对应的每个活跃度标签对应的月平均开票张数区间,包括:
根据所述行业开票行为汇总数据计算行业月开票平均数,并根据所述行业月开票平均数和预设的每个开票活跃度标签对应的标准,确定所述画像周期对应的每个活跃度标签对应的月平均开票张数区间。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述画像周期小于等于预设的画像周期最小值或无法获取待画像企业的开票行为数据时,确定待画像企业的开票活跃度标签为“开票活跃度待确认”。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据企业的行业性质和画像周期,确定不同行业性质的企业在不同画像周期对应的每个开票活跃度标签对应的月平均开票张数区间。


6.一种基于开票活跃度构建企业画像的系统,其特征在于,所述系统包括:
数据处理单...

【专利技术属性】
技术研发人员:杨海峰邓玉婧梁丽任钦正潘竞旭鲁龙宋颖
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1