一种基于协同过滤的进销项差异度计算的方法及系统技术方案

技术编号:24252670 阅读:51 留言:0更新日期:2020-05-23 00:09
本发明专利技术公开了一种基于协同过滤的进销项差异度计算的方法及系统,其中方法包括:将进项商品评分矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵;将销项商品评分矩阵和商品内容矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人销项特征矩阵;根据所述纳税人进项特征矩阵的购进特征向量和所述纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。

A method and system for calculating the difference degree of sales and purchase based on collaborative filtering

【技术实现步骤摘要】
一种基于协同过滤的进销项差异度计算的方法及系统
本专利技术涉及
税务数据监管
,更具体地,涉及一种基于协同过滤的进销项差异度计算的方法及系统。
技术介绍
我国的国税地税征管体制改革以后,新税务机构正式运行的第一年,税收征管环境正在发生着巨大的变化,随着减税降费政策的贯彻执行,必然伴生的是利用金税三期系统、大数据和信息化手段加强税收征管与税务稽查的力度。在虚开行为中,进销项比对是一个重要指标。现在大数据和人工智能技术逐渐成熟,如何结合新技术提高进销项比对准确性是现阶段亟需解决的问题。现有的进销项比对是基于进销项商品编码比对来实现的,存在两个缺点:首先该方法是通过对纳税人购进和销售的商品编码进行简单比对,没有考虑充分发挥税务大数据的优势。另外,该方法对于进销项不完全一致的情况,缺少一个准确进销项差异度度量,无法满足精确监控的要求。现有技术(申请号:CN201611219220.9)公开了一种用于计算进项物品列表和销项物品列表之间差异度的方法,方法包括:进行进项物品的数据准备并且执行进项数据查询,对纳税人按照物品名称和单位进行分组统计,得到进项数据的集合;进行销项物品的数据准备并且执行销项数据查询,对纳税人按照物品名称和单位进行分组统计,得到销项数据的集合;读取进项物品的列表和销项物品的列表,将进项物品的列表和销项物品的列表按照纳税人的识别号进行分组,得到每个纳税人的进项物品集合和销项物品集合;获取同一纳税人的进项物品集合和销项物品集合,对进项物品集合和销项物品集合进行数据分析,得到多个税额差异度;以及将同一纳税人的多个税额差异度相加,以获得进项数据和销项数据之间差异度集合。然而,现有技术步骤繁琐,人力物力投入大,效率低。因此,需要一种技术,以实现基于协同过滤的进销项差异度计算的方法。
技术实现思路
本专利技术技术方案提供一种基于协同过滤的进销项差异度计算的方法及系统,以解决如何基于协同过滤进行进销项差异度计算的问题。为了解决上述问题,本专利技术提供了一种基于协同过滤的进销项差异度计算的方法,所述方法包括:将进项商品评分矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵;将销项商品评分矩阵和商品内容矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人销项特征矩阵;根据所述纳税人进项特征矩阵的购进特征向量和所述纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。优选地,所述方法还包括:获取纳税人的进项发票信息和销项发票信息,构建纳税人的进项发票信息表和销项发票信息表;对所述进项发票信息表和所述销项发票信息表的数据进行清洗;对清洗后的所述进项发票信息表和所述销项发票信息表的数据进行聚合运算,获取进项发票信息聚合表和销项发票信息聚合表。优选地,所述方法还包括:对所述进项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取进项商品加权评分结果;并将进项商品加权评分结果映射到预定区间,获取所述进项商品最终加权评分,建立包括所述进项商品最终加权评分的进项商品评分事实表;对所述销项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取销项商品加权评分结果;并将销项商品加权评分结果映射到预定区间,获取所述销项商品最终加权评分,建立包括所述销项商品最终加权评分的销项商品评分事实表。优选地,所述方法还包括:建立进项商品评分矩阵,所述进项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及进项商品评分事实表;建立销项商品评分矩阵,所述销项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及销项商品评分事实表。优选地,所述方法中的字段包括:购进金额、购进数量和购进频次。基于本专利技术的另一方面,本申请一种基于协同过滤的进销项差异度计算的系统,所述系统包括:第一获取单元,用于将进项商品评分矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵;第二获取单元,用于将销项商品评分矩阵和商品内容矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人销项特征矩阵;计算单元,用于根据所述纳税人进项特征矩阵的购进特征向量和所述纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。优选地,所述系统还包括初始单元,用于:获取纳税人的进项发票信息和销项发票信息,构建纳税人的进项发票信息表和销项发票信息表;对所述进项发票信息表和所述销项发票信息表的数据进行清洗;对清洗后的所述进项发票信息表和所述销项发票信息表的数据进行聚合运算,获取进项发票信息聚合表和销项发票信息聚合表。优选地,所述初始单元还用于:对所述进项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取进项商品加权评分结果;并将进项商品加权评分结果映射到预定区间,获取所述进项商品最终加权评分,建立包括所述进项商品最终加权评分的进项商品评分事实表;对所述销项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取销项商品加权评分结果;并将销项商品加权评分结果映射到预定区间,获取所述销项商品最终加权评分,建立包括所述销项商品最终加权评分的销项商品评分事实表。优选地,所述初始单元还用于:建立进项商品评分矩阵,所述进项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及进项商品评分事实表;建立销项商品评分矩阵,所述销项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及销项商品评分事实表。优选地,所述系统中的字段包括:购进金额、购进数量和购进频次。本专利技术技术方案提供一种基于协同过滤的进销项差异度计算方法及系统,其中方法包括:将进项商品评分矩阵作为协同过滤算法模型的输入,对协同过滤算法模型进行训练,获取纳税人进项特征矩阵;将销项商品评分矩阵作为协同过滤算法模型的输入,对协同过滤算法模型进行训练,获取纳税人销项特征矩阵;根据纳税人进项特征矩阵的购进特征向量和纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。本专利技术技术方案利用TensorFlow深度学习框架来计算纳税人进销项差异度,并使用Spark来加速机器学习算法的计算效率。然后,本专利技术技术方案是通过对纳税人的购进和销售行为进行学习,提取其进销项行为特征,作为计算纳税人进销项差异度的依据。最后,本专利技术技术方案实现了数据压缩,保留了反映纳税人进销项行为特征的重要信息,能够减少冗余计算,提高了系统的处理效率,提高了进销项差异度的准确性。附图说明通过参考下面的附图,可以更为完整地理解本专利技术的示例性实施方式:图1为根据本专利技术优选实施方式的基于协同过滤的本文档来自技高网
...

【技术保护点】
1.一种基于协同过滤的进销项差异度计算的方法,所述方法包括:/n将进项商品评分矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵;/n将销项商品评分矩阵和所述商品内容矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人销项特征矩阵;/n根据所述纳税人进项特征矩阵的购进特征向量和所述纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。/n

【技术特征摘要】
1.一种基于协同过滤的进销项差异度计算的方法,所述方法包括:
将进项商品评分矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵;
将销项商品评分矩阵和所述商品内容矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人销项特征矩阵;
根据所述纳税人进项特征矩阵的购进特征向量和所述纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。


2.根据权利要求1所述的方法,所述方法还包括:
获取纳税人的进项发票信息和销项发票信息,构建纳税人的进项发票信息表和销项发票信息表;
对所述进项发票信息表和所述销项发票信息表的数据进行清洗;
对清洗后的所述进项发票信息表和所述销项发票信息表的数据进行聚合运算,获取进项发票信息聚合表和销项发票信息聚合表。


3.根据权利要求2所述的方法,所述方法还包括:
对所述进项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取进项商品加权评分结果;并将进项商品加权评分结果映射到预定区间,获取所述进项商品最终加权评分,建立包括所述进项商品最终加权评分的进项商品评分事实表;
对所述销项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取销项商品加权评分结果;并将销项商品加权评分结果映射到预定区间,获取所述销项商品最终加权评分,建立包括所述销项商品最终加权评分的销项商品评分事实表。


4.根据权利要求3所述的方法,所述方法还包括:
建立进项商品评分矩阵,所述进项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及进项商品评分事实表;
建立销项商品评分矩阵,所述销项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及销项商品评分事实表。


5.根据权利要求3所述的方法,所述方法中的字段包括:购进金额、购进数量和购进频次。


6.一种基于协同过滤的进...

【专利技术属性】
技术研发人员:张殿臣刘丹吴伟刚郝建茹潘竞旭鲁龙宋颖
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1