一种基于序列标注的财务科目计算关系识别方法及装置制造方法及图纸

技术编号:24331624 阅读:41 留言:0更新日期:2020-05-29 19:52
本发明专利技术公开了一种基于序列标注的财务科目计算关系识别方法,包含以下步骤:A、对表格及文本进行预处理;B、采用序列标注方法对财务科目计算关系进行识别,以判断为预先定义后的计算关系;C、根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据。本发明专利技术通过设计深度学习CNN‑LSTM‑CRF的序列标注框架,通过训练序列标注模型,以财务科目序列相对应的计算关系,生成结构化数据。

A recognition method and device of financial account calculation relationship based on sequence annotation

【技术实现步骤摘要】
一种基于序列标注的财务科目计算关系识别方法及装置
本专利技术涉及财务计算
,具体是一种基于序列标注的财务科目计算关系识别方法及装置。
技术介绍
在NLP信息抽取领域中,在进行财务科目计算关系识别时大都使用正则表达式或者字典匹配。这些技术无法完全覆盖各种不同形式的说法,财务科目所对应计算关系识别的正确率较低。针对上述问题中存在的不足之处,本专利技术提供一种通过训练序列标注,抽取出与财务科目序列相对应的计算关系,生成结构化数据的一种基于序列标注的财务科目计算关系识别方法及装置。
技术实现思路
本专利技术的目的在于提供一种基于序列标注的财务科目计算关系识别方法及装置,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于序列标注的财务科目计算关系识别方法,包含以下步骤:A、对表格及文本进行预处理;B、采用序列标注方法对财务科目计算关系进行识别,以判断为预先定义后的计算关系;C、根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据本文档来自技高网...

【技术保护点】
1.一种基于序列标注的财务科目计算关系识别方法,其特征在于,包含以下步骤:/nA、对表格及文本进行预处理;/nB、采用序列标注方法对财务科目计算关系进行识别,以判断为预先定义后的计算关系;/nC、根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据。/n

【技术特征摘要】
1.一种基于序列标注的财务科目计算关系识别方法,其特征在于,包含以下步骤:
A、对表格及文本进行预处理;
B、采用序列标注方法对财务科目计算关系进行识别,以判断为预先定义后的计算关系;
C、根据序列标注的结果,抽取出与财务科目序列相对应的计算关系,生成结构化数据。


2.根据权利要求1所述的一种基于序列标注的财务科目计算关系识别方法,其特征在于,所述步骤A中,对表格文本进行的预处理操作包括对表格中财务科目序列所在列的提取,对表格中多个财务科目所在列的合并,将提取并合并后的财务科目序列转化成文本,以及对对文字进行清洗,以去除表格中财务科目序列以外的内容。


3.根据权利要求2所述的一种基于序列标注的财务科目计算关系识别方法,其特征在于,所述步骤B包括以下步骤:B1、词向量,对每个科目进行CNN处理,得到每个科目对应的向量;B2、序列标注,对文本进行双向的LSTM处理,得到每个科目对应的向量;B3、通过条件随机场对每个字段所对应的标签进行预测,以得知该字段是否为预先定义好的字段。


4.根据权利要求2所述的一种基于序列标注的财务科目计算关系识别方法,其特征在于,所述步骤C的序列标注的训练过程如下:根据财务科目关系的任务...

【专利技术属性】
技术研发人员:李鹏辉金鑫邱锡鹏
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1