本发明专利技术属于计算机技术领域,具体涉及一种基于机器学习对企业所得税风险评估的方法。具体包括:首先规划机器学习数据集的属性集合,根据企业所得税的管理特点从属性集中选择机器学习的290个目标集合;对数据分类抽取,按照不同属性所在的系统和表单进行分类各自抽取数据;再后数据按户归集形成机器学习最终的数据集;选择决策树和支持向量机算法模型进行集成和联接,形成适应于所得税的机器学习算法模型;最终运算输出结果和结果核实反馈。本发明专利技术的有益效果是:通过两种模型结合起来以发挥各自的优势,从大数据中发现规律,用于企业所得税的风险评估,达到很好的效果;充分的运用了大数据平台的并行和分布的优势,更佳的高效。
【技术实现步骤摘要】
一种基于机器学习对企业所得税风险评估的方法
本专利技术属于计算机
,具体涉及一种基于机器学习对企业所得税风险评估的方法。
技术介绍
在税务系统,企业所得税的管理是税收监管中的重点也是难点。企业缴纳企业所得税是以企业最终的企业应纳税所得额为计税依据,这涉及到企业的经营收入、成本、费用等各个方面,可是说,企业所得税涉及到企业的各个方面。当前企业所得税的管理模式是:企业每个季度自行省报预缴,年底实施汇算清缴。企业每年度向税务系统报送的汇算清缴表40多张表。税务系统除了收到企业所得税的这项相关系统,还采集到其他各种涉税信息(如:登记信息、企业财务报表、企业缴纳其他税费数据、企业开具发票和外部门涉税数据等各类信息),以反映出税务系统已归集了涉税大数据信息。如何利用这些涉税大数据利用技术手段加强税收监管,特别是企业所得税的监管是税务系统需要解决的问题。传统的数据分析手段是:基于业务人员的税收业务知识形成分析指标形式的业务需进行技术实现,数据按照不同指标按照不同维度交叉分析,在此基础上,利用统计方法进行各种比对分析。这种分析是非常有用的,能揭示一些数据的直观信息。但这种的方法有几个缺点:一是只能反映数据的某个局部的情况,不能给出数据的全貌;二是不能充分利用大数据的‘大’和‘全’的特性,揭示他们内在的关系和规律(一半是非线性的);三是分析结果对数据质量的波动非常敏感,分析结果利用效果不是很好。随着云计算和人工智能的发展,数据科学这门综合学科体现了未来的发展前景。本专利技术利用一种机器学习技术对涉税数据进行特征的提取,然后利用大数据平台的并行计算能力和算法模型从这些数据中找到有价值的内容和规律,针对企业所得税的风险评估提供很有成效的支持。
技术实现思路
为了解决上述的企业所得税税务风险指向性不强和评估效率不高的问题。本专利技术公开了面向税务领域的一种基于机器学习对企业所得税风险评估的方法。其中对于机器学习模型的构建方法采取税收业务专家知识和机器学习结合的方式。具体方案如下:一种基于机器学习对企业所得税风险评估的方法,包括:规划构建机器学习的属性集和目标集;对所述属性集和所述目标集进行分类抽取、归集,形成数据集A并储到数据库Greenplum中,将所述数据集A合并形成二维数组;将所述二维数组输入多个决策树模型进行运算,得出数据集B;将所述数据集B和所述二维数组输入支持向量机模型进行运算,得出数据集C,并储到数据库Greenplum中;将储到数据库Greenplum的所述数据集C按照业务规则进行展示。作为本专利技术实施例的一种优选技术方案,所述属性集被定义为D={X1,X2,…,Xm},表示m个企业的按年归集数据,其中m根据被评估的行业所确定的纳税户数而确定,所述企业的按年归集数据可表示为Xi={xi1,xi2,…,xid},其中d为企业所得税的特性,包括登记类12个、征收类4个、申报类4个、财务报表类69个、汇算清缴年度报表类1773个,故d=1862。作为本专利技术实施例的一种优选技术方案,所述目标集被定义为Y={Y1,Y2,…,Yc},表示与应纳税所得额相关联的c个目标。作为本专利技术实施例的一种优选技术方案,所述对所述属性集和所述目标集进行分类抽取、归集具体包括:按照1862个属性所在数据源系统和表单,分类实施数据的抽取,抽取结果包括户、期限、类别和属性;将所述抽取结果按照年度按户进行归集,形成数据集A并储到数据库Greenplum中,其中所述数据集A为归集的1862个属性按数值型和字符型的两个数组列。作为本专利技术实施例的一种优选技术方案,所述二维数组在在运算前需要进行预处理和展平处理,具体包括:预处理:将所述数值型和字符型的两个数组列中的缺失值进行处理,然后对所述数值型数组进行规范化处理,最后以数组列的形式进行存储;展平处理:把所述数组列展平以满足模型算法对数据格式的要求,然后自动拆分成多个子数据集满足数据库的表列数的最大限制。作为本专利技术实施例的一种优选技术方案,所述多个决策树模型中通过引入样本选择、属性选择、属性划分阀值从而引入随机性,得到的决策树的集成即为极限随机树,并通过应用第三方库Scikit-learn的decisiontree和SVC提供的算法实现。作为本专利技术实施例的一种优选技术方案,所述多个决策树模型的运算过程中还包括所述决策树模型的优化处理,具体包括:通过交叉验证、错误分析,以参数搜索的方式自动调正其各个决策树模型的超参数。作为本专利技术实施例的一种优选技术方案,所述数据C被表示为两个矩阵:一个是目标的预测值输出矩阵Yo,表示为Yo={Yc+1,Yc+2,…,Yc+i,…,Yc+c},一个是目标对应输出的概率矩阵Po,表示为Po={Pc+1,Pc+2,…,Pc+i,…,Pc+c}。作为本专利技术实施例的一种优选技术方案,所述将储到数据库Greenplum的所述数据集C按照业务规则进行展示步骤具体包括:按照风险值{Yc×Pc}进行排名,以展示每户纳税人在目标集中对应目标的实际值和预测值。与现有技术相比,本专利技术的有益效果是:(1)通过把极限随机树模型和支持向量学习机模型结合起来以发挥各自的优势,从大数据中挖掘出潜在的规律和关系,用于企业所得税的风险评估,达到很好的效果;(2)充分的运用了大数据平台的并行和分布的优势,整个过程从数据集生成到最后的模型运算输出在50分钟以内完成,除了体现系统的高效,更是在系统的实践迭代调试中发挥很好的现实作用。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种基于机器学习对企业所得税风险评估的方法的流程图;图2为本专利技术实施例提供的一种基于机器学习对企业所得税风险评估的方法的数据分类抽取、归集构建机器学习的数据集流程图;图3为本专利技术实施例提供的一种基于机器学习对企业所得税风险评估的方法的算法模型构建流程图;图4为本专利技术实施例提供的一种基于机器学习对企业所得税风险评估的方法的数据集C(即风险值)的总体数据展示结果图;图5为本专利技术实施例提供的一种基于机器学习对企业所得税风险评估的方法的单户钻取数据展示结果图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅附图1至3,其示出了本专利技术实施例提供的一种基于机器学习对企业所得税风险评估的方法的流程图,可以包括:1、规划构建机器学习的属性集和目标集本文档来自技高网...
【技术保护点】
1.一种基于机器学习对企业所得税风险评估的方法,其特征在于,包括:/n规划构建机器学习的属性集和目标集;/n对所述属性集和所述目标集进行分类抽取、归集,形成数据集A并储到数据库Greenplum中,将所述数据集A合并形成二维数组;/n将所述二维数组输入多个决策树模型进行运算,得出数据集B;/n将所述数据集B和所述二维数组输入支持向量机模型进行运算,得出数据集C,并储到数据库Greenplum中;/n将储到数据库Greenplum的所述数据集C按照业务规则进行展示。/n
【技术特征摘要】
1.一种基于机器学习对企业所得税风险评估的方法,其特征在于,包括:
规划构建机器学习的属性集和目标集;
对所述属性集和所述目标集进行分类抽取、归集,形成数据集A并储到数据库Greenplum中,将所述数据集A合并形成二维数组;
将所述二维数组输入多个决策树模型进行运算,得出数据集B;
将所述数据集B和所述二维数组输入支持向量机模型进行运算,得出数据集C,并储到数据库Greenplum中;
将储到数据库Greenplum的所述数据集C按照业务规则进行展示。
2.根据权利要求1所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述属性集被定义为D={X1,X2,…,Xm},表示m个企业的按年归集数据,其中m根据被评估的行业所确定的纳税户数而确定,所述企业的按年归集数据可表示为Xi={xi1,xi2,…,xid},其中d为企业所得税的特性,包括登记类12个、征收类4个、申报类4个、财务报表类69个、汇算清缴年度报表类1773个,故d=1862。
3.根据权利要求1所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述目标集被定义为Y={Y1,Y2,…,Yc},表示与应纳税所得额相关联的c个目标。
4.根据权利要求2所述的一种基于机器学习对企业所得税风险评估的方法,其特征在于,所述对所述属性集和所述目标集进行分类抽取、归集具体包括:
按照1862个属性所在数据源系统和表单,分类实施数据的抽取,抽取结果包括户、期限、类别和属性;
将所述抽取结果按照年度按户进行归集,形成数据集A并储到数据库Greenplum中,其中所述数据集A为归集的1862个属性按数值型和字符型的两个数组列。
...
【专利技术属性】
技术研发人员:王心慧,齐艳红,徐夫田,马路军,李崇西,徐俊荣,张鹏,汤荣志,隋同兵,李思宏,
申请(专利权)人:国家税务总局山东省税务局,济南中智亚信信息技术有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。