财务报账单据列账科目匹配度校验方法及系统技术方案

技术编号:38139079 阅读:8 留言:0更新日期:2023-07-08 09:52
本发明专利技术公开了财务报账单据列账科目匹配度校验方法及系统,属于自然语言识别技术领域,本发明专利技术要解决的技术问题为如何挖掘报账单业务摘要与财务列账科目的内在联系,实现对财务列账科目匹配度的精准识别,采用的技术方案为:该方法具体如下:选取历史报账单数据,实现财务列账科目短文本核心词提取及短文本分类,并整理出训练样本;基于NLP技术对训练样本进行抽象分析,通过业务摘要实现对列账科目的特征提取;执行卷积神经网络分类训练,并输出训练完成的NLP模型;输入待审核财务报账单,通过NLP模型对报账单执行财务列账科目准确性校验,并输出校验结果。并输出校验结果。并输出校验结果。

【技术实现步骤摘要】
财务报账单据列账科目匹配度校验方法及系统


[0001]本专利技术涉及自然语言识别
,具体地说是一种财务报账单据列账科目匹配度校验方法及系统。

技术介绍

[0002]目前,在进行传统财务报账单据审核,尤其涉及报账单据列账科目复核工作时,主要是依靠有经验的财务人员进行复核,且需要财务初审人员和财务复审人员进行多轮的核对和校验,才能确定最终的列账科目复核结果。
[0003]专利号为CN111241845A的专利申请公开了一种基于语义匹配方法的财务科目自动识别方法,包括:通过专家经验整理标准科目的匹配库;通过大量匹配语料训练科目匹配模型,根据相似度找到与原始科目最相似的标准问答库的原始科目名并返回所对应的标准科目名。最后通过专家经验对科目进行校准。该专利技术利用深度学习模型以将财务科目进行精确匹配为标准科目。最终将表达不同但具有相同财务意义的科目名归一成一个标准的科目名。该技术方案的财务科目的校准,虽然也应用了基于语义匹配的方法,但对不同财务列账科目的精准匹配与校准依然依赖于专家经验,仅仅实现了相似匹配,未建立财务报账单据内信息匹配的内在联系,难以根据单据自身信息进行内在规律挖掘。
[0004]故如何挖掘报账单业务摘要与财务列账科目的内在联系,实现对财务列账科目匹配度的精准识别是目前亟待解决的技术问题。

技术实现思路

[0005]本专利技术的技术任务是提供一种财务报账单据列账科目匹配度校验方法及系统,来解决如何挖掘报账单业务摘要与财务列账科目的内在联系,实现对财务列账科目匹配度的精准识别的问题。
[0006]本专利技术的技术任务是按以下方式实现的,一种财务报账单据列账科目匹配度校验方法,该方法具体如下:
[0007]选取历史报账单数据,实现财务列账科目短文本核心词提取及短文本分类,并整理出训练样本;
[0008]基于NLP技术对训练样本进行抽象分析,通过业务摘要实现对列账科目的特征提取;
[0009]执行卷积神经网络分类训练,并输出训练完成的NLP模型;
[0010]输入待审核财务报账单,通过NLP模型对报账单执行财务列账科目准确性校验,并输出校验结果。
[0011]作为优选,选取历史报账单数据,实现财务列账科目短文本核心词提取及短文本分类,并整理出训练样本具体如下:
[0012]获取验证期内全量报账单数据,按单份报账单数据作为一个待整理的训练样本,提取关键信息及短文本核心词信息。
[0013]更优地,关键信息包括报账单业务摘要、报账单类型名称、业务大类名称、业务小类名称、业务活动名称、借方科目编码、借方科目名称、贷方科目编码及贷方科目名称;
[0014]短文本核心词信息包括报账单业务摘要、借方科目名称和贷方科目名称;
[0015]报账单业务摘要是指报账人员提单时,手动录入的对当前报账单类型、报账内容的描述,该描述为一段无固定规则的长文本,字数在0

200字之间。
[0016]作为优选,基于NLP技术对训练样本进行抽象分析,通过业务摘要实现对列账科目的特征提取具体如下:
[0017]将分组整理后的报账单数据作为数据集进行训练样本准备,选定待分类的文本和标签;
[0018]对无效的报账单数据进行手工清洗,保留有效的样本数据;
[0019]利用“jieba”库文件对摘要进行分词,并根据词性表去除样本报账单业务摘要中不含特征的词语,移除数词及副词等无特征词对分词结果的影响,并输出完整、有效的训练样本。
[0020]作为优选,执行卷积神经网络分类训练,并输出训练完成的NLP模型具体如下:
[0021]将整个训练样本带入机器学习fastText方法和卷积神经网络分类训练算法中训练NLP模型,并将训练样本划分为训练集70%、验证集20%及测试集10%;
[0022]训练过程中,20%的验证集多次带入临时NLP模型,并持续评估效果,自动修正临时NLP模型结果,并再次将验证集带入临时NLP模型;
[0023]多次的算法迭代训练后,产生准确率达到设定值的NLP模型,作为最终输出结果;
[0024]NLP模型训练完后,剩余10%的测试集带入已成型NLP模型做结果验证,并判断验证结果是否满足设定条件:
[0025]若验证结果满足设定条件,则为成功;
[0026]若验证结果不满足设定条件,则重复训练,直至输出满足设定条件的NLP模型。
[0027]作为优选,输入待审核财务报账单,通过NLP模型对报账单执行财务列账科目准确性校验,并输出校验结果具体如下:
[0028]输入待审核财务报账单数据,调用训练完成的NLP模型,对财务报账单列账科目准确度进行校验;
[0029]输出财务科目匹配度校验模块校验完成的财务报账单列账科目信息,财务报账单列账科目信息包括财务科目名称及置信度百分比。
[0030]一种财务报账单据列账科目匹配度校验系统,该系统包括,
[0031]选取单元,用于选取验证期内全量报账单数据,按单份报账单数据作为一个待整理的训练样本,提取关键信息及短文本核心词信息;
[0032]提取单元,用于基于NLP技术对训练样本进行抽象分析,通过业务摘要实现对列账科目的特征提取;
[0033]训练单元,用于执行卷积神经网络分类训练,并输出训练完成的NLP模型;
[0034]校验单元,用于输入待审核财务报账单,通过NLP模型对报账单执行财务列账科目准确性校验,并输出校验结果。
[0035]作为优选,所述提取单元包括,
[0036]选定模块,用于将分组整理后的报账单数据作为数据集进行训练样本准备,选定
待分类的文本和标签;
[0037]清洗模块,用于对无效的报账单数据进行手工清洗,保留有效的样本数据;
[0038]分词模块,用于利用“jieba”库文件对摘要进行分词,并根据词性表去除样本报账单业务摘要中不含特征的词语,移除数词及副词等无特征词对分词结果的影响,并输出完整、有效的训练样本;
[0039]所述训练单元包括,
[0040]训练模块,用于将整个训练样本带入机器学习fastText方法和卷积神经网络分类训练算法中训练NLP模型,并将训练样本划分为训练集70%、验证集20%及测试集10%;
[0041]修正模块,用于训练过程中,20%的验证集多次带入临时NLP模型,并持续评估效果,自动修正临时NLP模型结果,并再次将验证集带入临时NLP模型;
[0042]输出模块,用于经过多次的算法迭代训练后,产生准确率达到设定值的NLP模型,作为最终输出结果;
[0043]验证模块,用于NLP模型训练完后,剩余10%的测试集带入已成型NLP模型做结果验证,并判断验证结果是否满足设定条件:
[0044]若验证结果满足设定条件,则为成功;
[0045]若验证结果不满足设定条件,则重复训练,直至输出满足设定条件的NLP模型;
[0046本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种财务报账单据列账科目匹配度校验方法,其特征在于,该方法具体如下:选取历史报账单数据,实现财务列账科目短文本核心词提取及短文本分类,并整理出训练样本;基于NLP技术对训练样本进行抽象分析,通过业务摘要实现对列账科目的特征提取;执行卷积神经网络分类训练,并输出训练完成的NLP模型;输入待审核财务报账单,通过NLP模型对报账单执行财务列账科目准确性校验,并输出校验结果。2.根据权利要求1所述的财务报账单据列账科目匹配度校验方法,其特征在于,选取历史报账单数据,实现财务列账科目短文本核心词提取及短文本分类,并整理出训练样本具体如下:获取验证期内全量报账单数据,按单份报账单数据作为一个待整理的训练样本,提取关键信息及短文本核心词信息。3.根据权利要求2所述的财务报账单据列账科目匹配度校验方法,其特征在于,关键信息包括报账单业务摘要、报账单类型名称、业务大类名称、业务小类名称、业务活动名称、借方科目编码、借方科目名称、贷方科目编码及贷方科目名称;短文本核心词信息包括报账单业务摘要、借方科目名称和贷方科目名称;报账单业务摘要是指报账人员提单时,手动录入的对当前报账单类型、报账内容的描述,该描述为一段无固定规则的长文本,字数在0

200字之间。4.根据权利要求1所述的财务报账单据列账科目匹配度校验方法,其特征在于,基于NLP技术对训练样本进行抽象分析,通过业务摘要实现对列账科目的特征提取具体如下:将分组整理后的报账单数据作为数据集进行训练样本准备,选定待分类的文本和标签;对无效的报账单数据进行手工清洗,保留有效的样本数据;利用“jieba”库文件对摘要进行分词,并根据词性表去除样本报账单业务摘要中不含特征的词语,移除数词及副词无特征词对分词结果的影响,并输出完整、有效的训练样本。5.根据权利要求1所述的财务报账单据列账科目匹配度校验方法,其特征在于,执行卷积神经网络分类训练,并输出训练完成的NLP模型具体如下:将整个训练样本带入机器学习fastText方法和卷积神经网络分类训练算法中训练NLP模型,并将训练样本划分为训练集、验证集及测试集;训练过程中,验证集多次带入临时NLP模型,并持续评估效果,自动修正临时NLP模型结果,并再次将验证集带入临时NLP模型;多次的算法迭代训练后,产生准确率达到设定值的NLP模型,作为最终输出结果;NLP模型训练完后,测试集带入已成型NLP模型做结果验证,并判断验证结果是否满足设定条件:若验证结果满足设定条件,则为成功;若验证结果不满足设定条件,则重复训练,直至输出满足设定条件的NLP模型。6.根据权利要求1所述的财务报账单据列账科目匹配度校验方法,其特征在于,输入待审核财务报账单,通过NLP模型对报账单执行财务列账科目准确性校验,并输出校验结果具体如下:
输入待审...

【专利技术属性】
技术研发人员:田浩京赵文兵陈永利
申请(专利权)人:浪潮通信信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1