一种基于语义匹配方法的财务科目自动识别方法及装置制造方法及图纸

技术编号:24411082 阅读:23 留言:0更新日期:2020-06-06 09:14
本发明专利技术公开了一种基于语义匹配方法的财务科目自动识别方法,包括:通过专家经验整理标准科目的匹配库;通过大量匹配语料训练科目匹配模型,根据相似度找到与原始科目最相似的标准问答库的原始科目名并返回所对应的标准科目名。实施上述方法的装置,包括:用于通过专家经验整理的原始科目对应的标准科目模块;利用深度学习训练语义匹配模型模块;通过匹配模型返回匹配的原始科目及返回对应的标准科目模块;最后通过专家经验对科目进行校准。本发明专利技术利用深度学习模型以将财务科目进行精确匹配成标准科目。

An automatic recognition method and device of financial account based on semantic matching

【技术实现步骤摘要】
一种基于语义匹配方法的财务科目自动识别方法及装置
本专利技术涉及自动识别
,具体是一种基于语义匹配方法的财务科目自动识别方法及装置。
技术介绍
近年来,深度学习技术在自然语言处理、图形图像、自动驾驶等多个领域得到大量应用,且表现效果要明显优于传统方法。在自然语言处理领域,深度学习技术通过在高维空间中编码文本文字,能够捕获深层次的语法和语义信息,从而为进一步从语义出发实现自然语言处理领域的高级应用提供了技术基础。在财务报表结构化入库之后,为了便于进行文表和表表之间的勾稽关系,有必要将表达不同但具有相同财务意义的科目名归一成一个标准的科目名。于是我们开发了基于语义匹配方法的财务科目自动识别的装置。
技术实现思路
本专利技术的目的在于提供一种基于语义匹配方法的财务科目自动识别方法及装置,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于语义匹配方法的财务科目自动识别方法,包含以下步骤:A、通过专家经验总结建立科目匹配的标准匹配库;B、利用深度学习训练科目匹配模型;C、通过匹配模型返回标准科目名;D、通过表名进行科目名校正。作为本专利技术的进一步方案:所述步骤A中的建立标准匹配库在于将表格结构化入库的科目名通过专家经验配上标准科目名,对入库的科目进行简单预处理,去除特殊字符,同一中英文标点符号,形成标准的匹配库。作为本专利技术的进一步方案:所述步骤B中的训练科目匹配模型是基于百度的AnyQ框架,训练的一个simnet网络模型。作为本专利技术的进一步方案:所述步骤D通过表名进行科目名校正,通过专家经验总结不同类型的表格包含科目列表,如果返回的标准科目不在其表名所在的标准科目列表内,则转换为其他。作为本专利技术的进一步方案:所述训练科目匹配模型采用pair-wiseRankingLoss来进行SimNet的训练。作为本专利技术的进一步方案:所述SimNet主要分为输入层、表示层和匹配层,输入层通过lookuptable将文本词序列转换为wordembedding序列。一种基于语义匹配方法的财务科目自动识别装置,其特征在于,包括科目匹配标准库建立模块、科目匹配训练模块、科目匹配请求模块以及科目进行校准模块,科目匹配标准库建立模块、科目匹配训练模块、科目匹配请求模块以及科目进行校准模块依次连接。与现有技术相比,本专利技术的有益效果是:本专利技术利用深度学习模型以挖掘科目名的语义信息,在文表、表表财务数据比对场景中,能够准确地将同一科目意思的不同财务科目表达归一成标准财务科目。附图说明图1为本专利技术中方法部分的流程图;图2为本专利技术中装置部分的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-2,本专利技术实施例中,一种基于语义匹配方法的财务科目自动识别方法,包含以下步骤:A、通过专家经验总结建立科目匹配的标准匹配库;B、利用深度学习训练科目匹配模型;C、通过匹配模型返回标准科目名;D、通过表名进行科目名校正。步骤A中的建立标准匹配库在于将表格结构化入库的科目名通过专家经验配上标准科目名,对入库的科目进行简单预处理,去除特殊字符,同一中英文标点符号,形成标准的匹配库。步骤B中的训练科目匹配模型是基于百度的AnyQ框架,训练的一个simnet网络模型。步骤D通过表名进行科目名校正,通过专家经验总结不同类型的表格包含科目列表,如果返回的标准科目不在其表名所在的标准科目列表内,则转换为其他。训练科目匹配模型采用pair-wiseRankingLoss来进行SimNet的训练。SimNet主要分为输入层、表示层和匹配层,输入层通过lookuptable将文本词序列转换为wordembedding序列。实施例2:如图2所示,本专利技术提供一种基于语义匹配方法的财务科目自动识别的装置,包括:建立标准科目匹配库模块、训练匹配模型模块、获取模型结果模块标准科目校准模块。科目匹配标准库建立模块用于通过专家经验总结整理标准科目匹配库。科目匹配训练模块利用标准科目匹配库训练匹配模型。获取模型结果通过训练深度学习匹配模型找出对应的标准科目名。规则校准模块通过表名-标准科目字典,修正标准科目。对于本领域技术人员而言,显然本专利技术不限于上述示范性实施例的细节,而且在不背离本专利技术的精神或基本特征的情况下,能够以其他的具体形式实现本专利技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本专利技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本专利技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。本文档来自技高网...

【技术保护点】
1.一种基于语义匹配方法的财务科目自动识别方法,其特征在于,包含以下步骤:/nA、通过专家经验总结建立科目匹配的标准匹配库;/nB、利用深度学习训练科目匹配模型;/nC、通过匹配模型返回标准科目名;/nD、通过表名进行科目名校正。/n

【技术特征摘要】
1.一种基于语义匹配方法的财务科目自动识别方法,其特征在于,包含以下步骤:
A、通过专家经验总结建立科目匹配的标准匹配库;
B、利用深度学习训练科目匹配模型;
C、通过匹配模型返回标准科目名;
D、通过表名进行科目名校正。


2.根据权利要求1所述的一种基于语义匹配方法的财务科目自动识别方法,其特征在于,所述步骤A中的建立标准匹配库在于将表格结构化入库的科目名通过专家经验配上标准科目名,对入库的科目进行简单预处理,去除特殊字符,同一中英文标点符号,形成标准的匹配库。


3.根据权利要求1所述的一种基于语义匹配方法的财务科目自动识别方法,其特征在于,所述步骤B中的训练科目匹配模型是基于百度的AnyQ框架,训练的一个simnet网络模型。


4.根据权利要求2所述的一种基于语义匹配方法的财务科目自...

【专利技术属性】
技术研发人员:李鹏辉金鑫邱锡鹏
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1