一种申报数据预测方法、装置、设备及介质制造方法及图纸

技术编号:35879069 阅读:17 留言:0更新日期:2022-12-07 11:17
本申请公开了一种申报数据预测方法、装置、设备及介质,涉及人工智能领域,该方法包括:按照业务逻辑确定目标申报数据中的目标标签,并生成第一目标特征;将目标申报数据划分为第一训练集、第二训练集和测试集;基于第一训练集中各项数据对应的目标标签和第一目标特征,对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练;将第二训练集中各项数据对应的目标标签作为标签,并将训练后两模型对第二训练集的预测结果作为第二目标特征,对第二预设XGBregressor模型进行训练;第二预设XGBregressor模型为训练后两模型进行模型融合得到的模型;利用训练后第二预设XGBregressor模型基于测试集对申报数据进行预测。本发明专利技术能够将LSTM和XGBRegressor进行高质量融合,对申报数据进行准确预测。对申报数据进行准确预测。对申报数据进行准确预测。

【技术实现步骤摘要】
一种申报数据预测方法、装置、设备及介质


[0001]本专利技术涉及人工智能领域,特别涉及一种申报数据预测方法、装置、设备及介质。

技术介绍

[0002]在税务申报的场景下,通常会根据往期申报人数预测未来的申报高峰期的“户次”数量,以便及时协调相关人力资源。但是当前的预测水平非常不理想,所以需要对算法进行优化。
[0003]现在的解决方案仅为XGBRegressor(即xgboost回归模型),但这种方案完全没有对时间“趋势”进行捕捉的效果,完全忽视了“趋势”的影响。并且模型整体精度不足,预测数据不准确,无法满足实际使用需求,需要进一步优化。
[0004]由上可见,在税务数据预测过程中,如何避免出现由于现有的使用XGBRegressor进行数据预测的方法导致预测数据不准确,无法满足实际使用需求的情况是本领域有待解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种申报数据预测方法、装置、设备及介质,能够将LSTM(即Long Short Term Memory networks,长短期记忆网络)和XGBRegressor进行高效高质量融合,以保证数据预测的准确性。其具体方案如下:第一方面,本申请公开了一种申报数据预测方法,包括:按照业务逻辑确定目标申报数据中的目标标签,并生成第一目标特征;按照预设分类方法将所述目标申报数据划分为第一训练集、第二训练集以及测试集;基于所述第一训练集中各项数据对应的目标标签和第一目标特征,对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练,以获取训练后长短期记忆网络模型和训练后第一XGBregressor模型;将所述第二训练集中各项数据对应的目标标签作为标签,并将所述训练后长短期记忆网络模型和所述训练后第一XGBregressor模型对所述第二训练集的预测结果作为第二目标特征,对第二预设XGBregressor模型进行训练,以获取训练后第二预设XGBregressor模型;所述第二预设XGBregressor模型为利用训练后长短期记忆网络模型和训练后第一XGBregressor模型进行模型融合得到的模型;利用所述训练后第二预设XGBregressor模型基于所述测试集对申报数据进行预测。
[0006]可选的,所述基于所述第一训练集中各项数据对应的目标标签和第一目标特征,对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练,包括:将所述第一训练集中各项数据对应的目标标签输入预设长短期记忆网络模型中,并将所述第一训练集中各项数据对应的第一目标特征输入第一预设XGBregressor模型进
行训练。
[0007]可选的,所述按照业务逻辑确定目标申报数据中的目标标签,并生成第一目标特征之前,还包括:收集原始申报数据,并对所述原始申报数据中的缺失数据进行填充,以生成填充后申报数据;将所述填充后申报数据进行数据缩放,以生成目标申报数据。
[0008]可选的,所述对所述原始申报数据中的缺失数据进行填充,包括:确定所述原始申报数据中的缺失数据项;确定所述缺失数据项对应的缺失时刻,基于预先生成的时间码表,以预设时间为跨度确定所述缺失时刻对应的参考时刻;将所述参考时刻对应的申报数据作为所述缺失时刻对应的申报数据,对所述缺失数据项进行填充。
[0009]可选的,所述对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练,以获取训练后长短期记忆网络模型和训练后第一XGBregressor模型,包括:对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练,并利用所述第二训练集作为验证集对所述预设长短期记忆网络模型和第一预设XGBregressor模型进行验证,以确定训练后长短期记忆网络模型和训练后第一XGBregressor模型。
[0010]可选的,所述利用所述第二训练集作为验证集对所述预设长短期记忆网络模型和第一预设XGBregressor模型进行验证,以确定训练后长短期记忆网络模型和训练后第一XGBregressor模型,包括:利用所述第二训练集作为验证集对所述预设长短期记忆网络模型和第一预设XGBregressor模型进行验证,并确定平均绝对值误差;基于所述平均绝对值误差对所述预设长短期记忆网络模型和第一预设XGBregressor模型进行参数调整,以将参数调整后的所述预设长短期记忆网络模型和第一预设XGBregressor模型作为训练后长短期记忆网络模型和训练后第一XGBregressor模型。
[0011]可选的,所述基于所述平均绝对值误差对所述预设长短期记忆网络模型和第一预设XGBregressor模型进行参数调整,以将参数调整后的所述预设长短期记忆网络模型和第一预设XGBregressor模型作为训练后长短期记忆网络模型和训练后第一XGBregressor模型,包括:利用预设迭代次数对所述预设长短期记忆网络模型进行迭代,并基于所述平均绝对值误差对所述预设长短期记忆网络模型和第一预设XGBregressor模型进行参数调整,以将最优的预设长短期记忆网络模型作为训练后长短期记忆网络模型;基于所述平均绝对值误差,并利用穷举搜索的方式对所述第一预设XGBregressor模型的学习率、最大深度、L1正则化参数、L2正则化参数以及基本分类器的数量进行参数选择,以将最优的第一XGBregressor模型作为训练后第一XGBregressor模型。
[0012]第二方面,本申请公开了一种申报数据预测装置,包括:标签确定与特征生成模块,用于按照业务逻辑确定目标申报数据中的目标标签,并生成第一目标特征;数据集划分模块,用于按照预设分类方法将所述目标申报数据划分为第一训练
集、第二训练集以及测试集;第一训练模块,用于基于所述第一训练集中各项数据对应的目标标签和第一目标特征,对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练,以获取训练后长短期记忆网络模型和训练后第一XGBregressor模型;第二训练模块,用于将所述第二训练集中各项数据对应的目标标签作为标签,并将所述训练后长短期记忆网络模型和所述训练后第一XGBregressor模型对所述第二训练集的预测结果作为第二目标特征,对第二预设XGBregressor模型进行训练,以获取训练后第二预设XGBregressor模型;所述第二预设XGBregressor模型为利用训练后长短期记忆网络模型和训练后第一XGBregressor模型进行模型融合得到的模型;数据预测模块,用于利用所述训练后第二预设XGBregressor模型基于所述测试集对申报数据进行预测。
[0013]第三方面,本申请公开了一种电子设备,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序,以实现前述的申报数据预测方法。
[0014]第四方面,本申请公开了一种计算机存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的申报数据预测方法的步骤。
[0015]本申请按照业本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种申报数据预测方法,其特征在于,包括:按照业务逻辑确定目标申报数据中的目标标签,并生成第一目标特征;按照预设分类方法将所述目标申报数据划分为第一训练集、第二训练集以及测试集;基于所述第一训练集中各项数据对应的目标标签和第一目标特征,对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练,以获取训练后长短期记忆网络模型和训练后第一XGBregressor模型;将所述第二训练集中各项数据对应的目标标签作为标签,并将所述训练后长短期记忆网络模型和所述训练后第一XGBregressor模型对所述第二训练集的预测结果作为第二目标特征,对第二预设XGBregressor模型进行训练,以获取训练后第二预设XGBregressor模型;所述第二预设XGBregressor模型为利用训练后长短期记忆网络模型和训练后第一XGBregressor模型进行模型融合得到的模型;利用所述训练后第二预设XGBregressor模型基于所述测试集对申报数据进行预测。2.根据权利要求1所述的申报数据预测方法,其特征在于,所述基于所述第一训练集中各项数据对应的目标标签和第一目标特征,对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练,包括:将所述第一训练集中各项数据对应的目标标签输入预设长短期记忆网络模型中,并将所述第一训练集中各项数据对应的第一目标特征输入第一预设XGBregressor模型进行训练。3.根据权利要求1所述的申报数据预测方法,其特征在于,所述按照业务逻辑确定目标申报数据中的目标标签,并生成第一目标特征之前,还包括:收集原始申报数据,并对所述原始申报数据中的缺失数据进行填充,以生成填充后申报数据;将所述填充后申报数据进行数据缩放,以生成目标申报数据。4.根据权利要求3所述的申报数据预测方法,其特征在于,所述对所述原始申报数据中的缺失数据进行填充,包括:确定所述原始申报数据中的缺失数据项;确定所述缺失数据项对应的缺失时刻,基于预先生成的时间码表,以预设时间为跨度确定所述缺失时刻对应的参考时刻;将所述参考时刻对应的申报数据作为所述缺失时刻对应的申报数据,对所述缺失数据项进行填充。5.根据权利要求1至4任一项所述的申报数据预测方法,其特征在于,所述对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练,以获取训练后长短期记忆网络模型和训练后第一XGBregressor模型,包括:对预设长短期记忆网络模型和第一预设XGBregressor模型进行训练,并利用所述第二训练集作为验证集对所述预设长短期记忆网络模型和第一预设XGBregressor模型进行验证,以确定训练后长短期记忆网络模型和训练后第一XGBregressor模型。6.根据权利要求5所述的申报数据预测方法,其特征在于,所述利用所述第二训练集作为验证集对所述预设长短期记忆网络模型和第一预设XGBregressor模型进行验证,以确定训练后长短期记忆网络模型和训练后第一...

【专利技术属性】
技术研发人员:陈泓刘子星徐煌丁乐
申请(专利权)人:税友信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1