一种账目数据处理方法、装置及存储介质制造方法及图纸

技术编号:31767727 阅读:30 留言:0更新日期:2022-01-05 16:53
本发明专利技术提出了一种账目数据处理方法、装置及存储介质,该方法包括:从数据库中获取多个企业的历史账目数据,对所述历史账目数据进行挖掘得到一处理规则集,所述处理规则集中包括至少一条处理规则;基于企业画像数据从所述处理规则集中匹配出适合当前企业的至少一条处理规则;将当前企业的待记账数据使用所述至少一条处理规则进行处理生成记账凭证并保存在数据库中基于生成的所述记账凭证对所述处理规则集中的一处理规则进行优化,使用优化后的该处理规则更新所述处理规则集。本发明专利技术生成记账凭证后再对规则集中的规则进行优化后更新规则集,从而保证了规则集的准确性,进而确保了后续生成的记账凭证的准确性。了后续生成的记账凭证的准确性。了后续生成的记账凭证的准确性。

【技术实现步骤摘要】
一种账目数据处理方法、装置及存储介质


[0001]本专利技术涉及人工智能
,具体涉及一种账目数据处理方法、装置及存储介质。

技术介绍

[0002]现有技术中,一般通过票据识别或直接从银行接口中获取到银行流水明细自动导入成银行日记账,再通过日记账中的摘要、金额等信息,计算出凭证分录科目或凭证模板,完成自动记账的流程。
[0003]比如,在中国专利201911391598.0中,日记账信息会通过分类器进行业务类型的分类,其公开了:1.内容分类器:通过摘要分词获得的关键字和其他信息针对用户的最近一次处理习惯建立习惯表进行分类;2.协同分类器:通过所属银行一致数据进行分词抽取的关键字最大概率的习惯进行分类。
[0004]其存在以下缺陷:1. 内容分类器:依赖最近一次处理习惯以及分词抽取的关键字,摘要经过分词后有多个关键字难以选择,在同一关键字可能对应多种类型的客观事实下,最近一次处理习惯可能会呈现交替变化的现象使人困惑;2. 协同分类器:依赖所属银行一致的数据,但摘要信息和所属银行并无直接关系,导致协同分类并不准确。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种账目数据处理方法,其特征在于,该方法包括:规则集生成步骤,从数据库中获取多个企业的历史账目数据,对所述历史账目数据进行挖掘得到一处理规则集,所述处理规则集中包括至少一条处理规则;匹配步骤,基于企业画像数据从所述处理规则集中匹配出适合当前企业的至少一条处理规则;处理步骤,将当前企业的待记账数据使用所述至少一条处理规则进行处理生成记账凭证并保存在数据库中;更新步骤,基于生成的所述记账凭证对所述处理规则集中的一处理规则进行优化,使用优化后的该处理规则更新所述处理规则集。2.根据权利要求1所述的方法,其特征在于,所述规则集生成步骤的操作为:从数据库中获取多个企业的历史账目数据,为历史账目数据中的每一条历史账目加入该企业聚类划分出的簇ID,并对该条历史账目的摘要信息生成关键字,所有历史账目处理完毕后得到数据表A,所述数据表A的字段包括:企业ID、簇ID、收支方向、银行日记账摘要、关键字集合、借方科目、贷方科目;通过Spark按簇ID、收支方向分组对数据表A进行数据处理,在每个分组内统计出各个关键字对应的借方科目、贷方科目的合计值,对数据表A中的所有数据处理完毕得到数据表B,数据表B的字段包括:簇ID、收支方向、关键字、关键字出现总数、借方科目、借方科目合计值、贷方科目和贷方科目合计值;定义变量a为关键字出现总数阈值,变量b为科目合计值占比阈值,变量c为合并的关键字准确率窗口值,并初始化变量a、b、c的值;使用网格搜索方法对表B各分组数据按借方科目、贷方科目分别按变量a、变量b进行过滤并按准确率从高到低排序生成原始规则集,通过变量b在关键词准确率窗口范围内进行相似关键字的合并得到最终规则集,然后使用最终规则集对表A的数据进行预测,最后统计出变量a、变量b、变量c的初始值对应的最终规则总数、规则准确率、无法预测的关键字miss率;将所述最终规则总数、规则准确率、无法预测的关键字miss率调整到一个可接受范围,基于所述可接受范围获得变量a、变量b、变量c的更新值,使用变量a、变量b、变量c的更新值使用同样的方法对数据表B进行处理生成更新的最终规则集作为处理规则集并插入到数据库中,所述处理规则集包括至少一张规则表,所述规则表的字段包括:簇ID、收支方向、关键字、借方/贷方科目、科目和关键字准确率。3.根据权利要求2所述的方法,其特征在于,所述关键字准确率包括借方准确率和贷方准确率,其中,借方准确率=当前关键字在当前借方科目下的出现次数/当前关键字在所有借方科目出现的总次数,贷方科目准确率=当前关键字在当前贷方科目下的出现次数/当前关键字在所有贷方科目出现的总次数。4.根据权利要求3所述的方法,其特征在于,所述生成关键字的操作为:对历史账目的摘要信息的文本进行预处理,然后使用加入行业词典的分词器对预处理后的文本进行分词,得到term集合,每个term包含:term文本、起始位置和结束位置;执行N轮term选择,第1轮选择出1个term的所有组合,第2轮选择2个term的所有组合,以此类推,第X轮选择X个term的所有组合;通过term组合生成关键字,每组term按起始位置进行排序后连接形成关键字,如果term之间在原文本是相连接的词,则直接连接,如果term之间不相连,则通过“任意一个或多个字符”的字符进行连接形成正则表达式类型的关键字,其中,1 <= N <= 当前term的总数量。
5.根据权利要求4所述的方法,其特征在于,所述匹配步骤的操作为:通过企业画像数据得到当前企业的企业向量,计算所述企业向量与簇心向量的距离,选择最近的簇心为当前企业所属簇ID,基于所述所属簇ID从所述处理规则集中选择该ID对...

【专利技术属性】
技术研发人员:黄斌
申请(专利权)人:畅捷通信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1