【技术实现步骤摘要】
一种纳税人所属行业代码预测方法、装置、设备及介质
[0001]本专利技术涉及税务处理
,特别涉及一种纳税人所属行业代码预测方法、装置、设备及介质。
技术介绍
[0002]ARM服务器是CPU(Central Processing Unit,中央处理器)架构的一种,业界普遍应用x86架构的CPU,但是税务局的本地云服务器CPU为ARM64架构,因此应税务局算法上云的需要,深度学习算法需要从x86架构的服务器迁移到ARM64架构的服务器上,所有环境需要重新搭建,会导致很多生产上的问题。且因云服务器中没有GPU(Graphics Processing Unit,图形处理器)资源,导致原深度学习模型无法正常训练,故需要重构算法,在保证准确率的前提下脱离对GPU和深度学习框架的依赖。
[0003]现有技术方案为BERT(Bidirectional Encoder Representation from Transformers),BERT是一种业界非常常用的深度学习模型。然而,依赖于GPU的算力支撑以及深度学习框架支撑。 ...
【技术保护点】
【技术特征摘要】
1.一种纳税人所属行业代码预测方法,其特征在于,包括:获取不同纳税人的主行业代码和与所述主行业代码对应的纳税人文本信息;其中,所述纳税人文本信息包括纳税人的纳税人名称和经营范围;所述主行业代码中包括若干个附属行业代码;确定第一纳税人文本信息中的目标词与第二纳税人文本信息中的所述目标词的词频文档频率占比,以得到所述目标词的关键词分数;所述第一纳税人文本信息为与当前选择的主行业代码对应的纳税人文本信息;其中,若所述主行业代码的数量大于预设阈值,则所述第二纳税人文本信息为除所述第一主行业代码外的其他主行业代码包括的纳税人文本信息,若所述主行业代码的数量不大于所述预设阈值,则所述第二纳税人文本信息为所有主行业代码包括的纳税人文本信息;对所述关键词分数进行特征转换以得到关键词分数特征,并对所述主行业代码进行特征平铺以得到相应的独热编码;利用所述关键词分数特征和所述独热编码训练相应的XGBoost模型,以便通过所述XGBoost模型预测所述附属行业代码。2.根据权利要求1所述的纳税人所属行业代码预测方法,其特征在于,所述确定第一纳税人文本信息中的目标词与第二纳税人文本信息中的所述目标词的词频文档频率占比,以得到所述目标词的关键词分数,包括:确定目标词在第一纳税人文本信息中出现的频率,以得到第一词频;确定所述目标词在第二纳税人文本信息中出现的频率,以得到第二词频;确定包括所述目标词的语句在所述第一纳税人文本信息中出现的频率,以得到第一文本频率;确定包括所述目标词的语句在所述第二纳税人文本信息中出现的频率,以得到第二文本频率;基于所述第一词频、所述第二词频、所述第一文本频率和所述第二文本频率确定出所述目标词的词频文档频率占比,以得到所述目标词的关键词分数。3.根据权利要求1所述的纳税人所属行业代码预测方法,其特征在于,所述对所述关键词分数进行特征转换以得到关键词分数特征,包括:将所述关键词分数转换为包括累加分数、累乘分数、关键词个数、关键词总长度、关键词平均长度、关键词平均分数、关键词最大分数、第二大关键词分数、第三大关键词分数的数值特征,以根据所述数值特征确定关键词分数特征。4.根据权利要求1所述的纳税人所属行业代码预测方法,其特征在于,所述利用所述关键词分数特征和所述独热编码训练相应的XGBoost模型之前,还包括:根据所述关键词分数特征利用NearMiss
‑
1进行下采样,并利用预设样本数量确定公式确定出目标样本数量。5.根据权利要求4所述的纳税人所属行业代码预测方法,其特征在于,所述利用预设...
【专利技术属性】
技术研发人员:陈泓,孙琦,刘子星,王伟,徐煌,丁乐,
申请(专利权)人:亿企赢网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。