一种基于行业属性和经营属性构建企业画像的方法及系统技术方案

技术编号:26342490 阅读:62 留言:0更新日期:2020-11-13 20:34
本发明专利技术涉及一种基于行业属性和经营属性构建企业画像的方法及系统,使用SQOPP从Oracle数据库中导出数据,通过ETL过程清洗数据存入HIVE数据仓库,基于Spark分布式处理框架处理数据,能够满足海量数据中迅速定位待构建企业画像企业及其所属行业的信息,具有可扩展性强和效率高等特点,在营改增以后发票量日益增长,现阶段需要对大规模数据进行统计分析的背景下有明显的优势;仅使用企业销项发票数据,且针对不同行业可以设定不同的参数,生成特定行业的企业画像构建模型,能够提高企业画像结果的针对性和准确性;可以为税务人员提供企业画像构建结果供其参考,减轻了税务人员的工作负担,提高了税务人员的工作效率,对推动互联网和税务执法发展进程具有重要意义。

【技术实现步骤摘要】
一种基于行业属性和经营属性构建企业画像的方法及系统
本专利技术涉及数据处理
,并且更具体地,涉及一种基于行业属性和经营属性构建企业画像的方法及系统。
技术介绍
企业画像可定义为通过收集和分析一个或多个来源的数据,对同一企业的所有相关信息进行提炼、整理与汇总,得到刻画、描述企业个体属性、行业属性和经营属性等多个维度的“画像”,即标签。现阶段基于企业的业务或应用中,以企业画像的相关企业信息为基础来开展工作,可以大大提高业务工作的效率和准确率。随着互联网信息量的暴涨及社会信息化程度的提高,各企业本身相关的信息、数据也随之增加,这也导致可供企业画像这一技术方法来分析的数据也越来越丰富。同时,企业画像的应用场景也更加丰富,分析的成果也更具说服力。但是,目前缺少企业画像在具体行业中的具体落地实现方案。
技术实现思路
本专利技术提出一种基于行业属性和经营属性构建企业画像的及系统,以解决如何生成企业的企业画像的问题。为了解决上述问题,根据本专利技术的一个方面,提供了一种基于行业属性和经营属性构建企业画像的方法,所述方法本文档来自技高网...

【技术保护点】
1.一种基于行业属性和经营属性构建企业画像的方法,其特征在于,所述方法包括:/n获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据;/n确定待画像企业所属行业的行业属性代码;/n根据所述行业属性代码,从获取的销项发票处理数据中选取与所述行业属性代码对应的销项发票处理数据,以获取行业销项发票汇总数据;/n根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准,确定每个经营标签对应的销项开票金额区间;/n根据所述待画像企业的销项发票数据确定所述待画像企业的销项开票金额,将所述待画像企业的销项开票金额与所述每个经营标签对应的销项...

【技术特征摘要】
1.一种基于行业属性和经营属性构建企业画像的方法,其特征在于,所述方法包括:
获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据;
确定待画像企业所属行业的行业属性代码;
根据所述行业属性代码,从获取的销项发票处理数据中选取与所述行业属性代码对应的销项发票处理数据,以获取行业销项发票汇总数据;
根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准,确定每个经营标签对应的销项开票金额区间;
根据所述待画像企业的销项发票数据确定所述待画像企业的销项开票金额,将所述待画像企业的销项开票金额与所述每个经营标签对应的销项开票金额区间进行匹配,以确定匹配的经营标签,并根据所述匹配的经营标签和行业属性代码确定所述待画像企业的企业画像。


2.根据权利要求1所述的方法,其特征在于,所述获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据,包括:
利用SQOOP工具从原始的电子底账Oracle数据库中抽取营改增以后的预设时间段内的与纳税人购销相关的发票数据,并存储至HIVE发票信息表中;
利用Spark分布式处理框架对所述HIVE发票信息表中的与纳税人购销相关的发票数据进行ETL清洗、转换和加载处理,以获取销项发票处理数据。


3.根据权利要求1所述的方法,其特征在于,所述根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准确定每个经营标签对应的销项开票金额区间,包括:
根据所述行业销项发票汇总数据计算行业销项开票总额,并根据所述行业销项开票总额和预设的经营属性为“行业销售地位”的经营标签标准,计算经营属性为“行业销售地位”的每个经营标签对应的销项开票金额区间;
根据所述开票总金额和预设的经营属性为“销售业绩”的经营标签标准,计算经营属性为“销售业绩”的每个经营标签对应的销项开票金额区间。


4.根据权利要求1所述的方法,其特征在于,所述销项发票处理数据包括:企业信息数据和销项发票明细数据。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据企业的行业性质确定不同企业对应的每个经营属性的经营标签标准。


6.一种基于行业属性和经营属性构建企业画像的系统,其特征在于,所述系统包括:
销项发票数...

【专利技术属性】
技术研发人员:杨海峰任钦正顾津潘竞旭张学军鲁龙宋颖
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1