一种基于序列标注的财务科目计算关系识别方法及装置制造方法及图纸

技术编号:24331624 阅读:29 留言:0更新日期:2020-05-29 19:52
本发明专利技术公开了一种基于序列标注的财务科目计算关系识别方法,包含以下步骤:A、对表格及文本进行预处理;B、采用序列标注方法对财务科目计算关系进行识别,以判断为预先定义后的计算关系;C、根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据。本发明专利技术通过设计深度学习CNN‑LSTM‑CRF的序列标注框架,通过训练序列标注模型,以财务科目序列相对应的计算关系,生成结构化数据。

A recognition method and device of financial account calculation relationship based on sequence annotation

【技术实现步骤摘要】
一种基于序列标注的财务科目计算关系识别方法及装置
本专利技术涉及财务计算
,具体是一种基于序列标注的财务科目计算关系识别方法及装置。
技术介绍
在NLP信息抽取领域中,在进行财务科目计算关系识别时大都使用正则表达式或者字典匹配。这些技术无法完全覆盖各种不同形式的说法,财务科目所对应计算关系识别的正确率较低。针对上述问题中存在的不足之处,本专利技术提供一种通过训练序列标注,抽取出与财务科目序列相对应的计算关系,生成结构化数据的一种基于序列标注的财务科目计算关系识别方法及装置。
技术实现思路
本专利技术的目的在于提供一种基于序列标注的财务科目计算关系识别方法及装置,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于序列标注的财务科目计算关系识别方法,包含以下步骤:A、对表格及文本进行预处理;B、采用序列标注方法对财务科目计算关系进行识别,以判断为预先定义后的计算关系;C、根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据。作为本专利技术的进一步方案:所述步骤A中,对表格文本进行的预处理操作包括对表格中财务科目序列所在列的提取,对表格中多个财务科目所在列的合并,将提取并合并后的财务科目序列转化成文本,以及对对文字进行清洗,以去除表格中财务科目序列以外的内容。作为本专利技术的进一步方案:所述步骤B包括以下步骤:B1、词向量,对每个科目进行CNN处理,得到每个科目对应的向量;B2、序列标注,对文本进行双向的LSTM处理,得到每个科目对应的向量;B3、通过条件随机场对每个字段所对应的标签进行预测,以得知该字段是否为预先定义好的字段。作为本专利技术的进一步方案:所述步骤C的序列标注的训练过程如下:根据财务科目关系的任务,定义所需要判断的财务科目计算关系,根据任务定义,进行财务科目计算关系的语料标注,将语料标注送到CNN-LSTM-CRF模型中进行序列标注的训练,以得到训练后用于财务科目计算关系的模型。一种基于序列标注的财务科目计算关系识别装置,包括:表格及文本预处理模块,用于对表格及文本进行预处理;序列标注模块,用于通过序列标注方法对财务科目计算关系进行识别,以判断为预先定义后的计算关系;科目计算关系抽出模块,根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据。作为本专利技术的进一步方案:所述文本预处理模块对文本进行的预处理操作包括对表格中财务科目序列所在列的提取,对表格中多个财务科目所在列的合并,将提取并合并后的财务科目序列转化成文本,以及对对文字进行清洗,以去除表格中财务科目序列以外的内容。作为本专利技术的进一步方案:所述序列标注模块对文本进行双向的LSTM处理,得到每个科目对应的向量;通过条件随机场对每个字段所对应的标签进行预测,以得知该字段是否为预先定义好的字段。与现有技术相比,本专利技术的有益效果是:本专利技术通过设计深度学习CNN-LSTM-CRF的序列标注框架,通过训练序列标注模型,以财务科目序列相对应的计算关系,生成结构化数据。附图说明图1为本专利技术的流程图。图2为本专利技术的装置原理方框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-2,本专利技术实施例中,一种基于序列标注的财务科目计算关系识别方法及装置,包含以下步骤:步骤A、对表格及文本进行预处理,以去除表格中财务科目序列以外的内容。其中,对表格及文本进行的预处理操作包括对表格中财务科目序列所在列的提取,对表格中多个财务科目所在列的合并,将提取并合并后的财务科目序列转化成文本,以及对对文字进行清洗。步骤B、通过CNN-LSTM-CRF模型对文本进行序列标注,,以判断为预先定义后的计算关系;其中,包括以下子步骤:步骤B1、词向量,对每个科目进行CNN处理,得到每个科目对应的向量。步骤B2、序列标注,对文本进行双向的LSTM处理,得到每个科目对应的向量;通过条件随机场对每个字段所对应的标签进行预测,以得知该字段是否为预先定义好的字段;步骤C、根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据。其中,序列标注的训练过程如下:根据财务科目关系的任务,定义所需要判断的财务科目计算关系;根据任务定义,进行字段、关系的语料标注;根据任务定义,进行财务科目计算关系的语料标注;将语料标注送到CNN-LSTM-CRF模型中进行序列标注的训练,以得到训练后用于财务科目计算关系的模型。已经标注好的语料,会将标注信息按行转成对应文字、对应标签、标签在文中开始位置、标签在文中结束位置,以及按行输入两个存在关系的标签编号。模型会通过反向传播算法,对整个CNN-LSTM-CRF网络进行训练更新,最终得到序列标注的模型。实施例2:如图2所示,本专利技术提供一种基于序列标注的财务科目计算关系识别方法及装置,包括:表格及文本预处理模块、命名实体识别模块、与抽出模块。表格及文本预处理模块用于对表格及文本进行预处理,以去除表格中财务科目序列以外的内容。表格及文本预处理模块对表格及文本进行的预处理操作包括对表格及文本进行的预处理操作包括对表格中财务科目序列所在列的提取,对表格中多个财务科目所在列的合并,将提取并合并后的财务科目序列转化成文本,以及对对文字进行清洗。序列标注模块用于通过序列标注方法对财务科目计算关系进行识别,以判断为预先定义后的计算关系;序列标注模块对文本进行双向的LSTM处理,得到每个字对应的向量;通过条件随机场对每个字段所对应的标签进行预测,以得知该字段是否为预先定义好的字段。抽出模块根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据。对于本领域技术人员而言,显然本专利技术不限于上述示范性实施例的细节,而且在不背离本专利技术的精神或基本特征的情况下,能够以其他的具体形式实现本专利技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本专利技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本专利技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。本文档来自技高网...

【技术保护点】
1.一种基于序列标注的财务科目计算关系识别方法,其特征在于,包含以下步骤:/nA、对表格及文本进行预处理;/nB、采用序列标注方法对财务科目计算关系进行识别,以判断为预先定义后的计算关系;/nC、根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据。/n

【技术特征摘要】
1.一种基于序列标注的财务科目计算关系识别方法,其特征在于,包含以下步骤:
A、对表格及文本进行预处理;
B、采用序列标注方法对财务科目计算关系进行识别,以判断为预先定义后的计算关系;
C、根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据。


2.根据权利要求1所述的一种基于序列标注的财务科目计算关系识别方法,其特征在于,所述步骤A中,对表格文本进行的预处理操作包括对表格中财务科目序列所在列的提取,对表格中多个财务科目所在列的合并,将提取并合并后的财务科目序列转化成文本,以及对对文字进行清洗,以去除表格中财务科目序列以外的内容。


3.根据权利要求2所述的一种基于序列标注的财务科目计算关系识别方法,其特征在于,所述步骤B包括以下步骤:B1、词向量,对每个科目进行CNN处理,得到每个科目对应的向量;B2、序列标注,对文本进行双向的LSTM处理,得到每个科目对应的向量;B3、通过条件随机场对每个字段所对应的标签进行预测,以得知该字段是否为预先定义好的字段。


4.根据权利要求2所述的一种基于序列标注的财务科目计算关系识别方法,其特征在于,所述步骤C的序列标注的训练过程如下:根据财务科目关系的任务...

【专利技术属性】
技术研发人员:李鹏辉金鑫邱锡鹏
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1