一种基于搜索的关键信息提取方法技术

技术编号：39825654 阅读：6 留言：0更新日期：2023-12-29 16:00

本发明专利技术涉及关键信息提取技术领域，尤其是一种基于搜索的关键信息提取方法，由

全部详细技术资料下载

【技术实现步骤摘要】
一种基于搜索的关键信息提取方法

[0001]本专利技术涉及关键信息提取
，尤其是一种基于搜索的关键信息提取方法
。

技术介绍

[0002]随着近年来深度学习技术的飞速发展，基于深度学习的字符检测和字符识别技术得到了广泛的应用，例如在文档识别
、
街景文字识别等方面都取得了优异的成果
。
关键信息提取技术基于字符检测和识别方法，对图片的结构化匹配提出了新的要求，不仅需要检测识别出图片中字符的位置和内容，并且要得到图片中字段名和字段值的对应关系，这些对应关系在金融
、
医疗
、
建筑工程及其他需要采集打印纸质票据的业务场景中非常重要
。
[0003]现有的关键信息提取方法是利用
NER(
命名实体识别
)
的方法对文本序列进行标注，从标注结果中获取实体类别，这些方法忽视了票据中键字段对于值字段类别区分的帮助
。

技术实现思路

[0004]本专利技术的目的是根据上述现有技术的不足，提供了一种基于搜索的关键信息提取方法，以关键字段为中心，在其局部范围搜索最佳匹配的关键信息提取，充分利用键值对的关系帮助模型区分相似字段，从而使得模型具有更强的鲁棒性
。
[0005]本专利技术目的实现由以下技术方案完成：
[0006]步骤1：对于待提取关键信息的票据，预先统计其要提取的关键信息，确定待搜索关键字段，并将其构建为一个查询表
。
[0007]步骤

【技术保护点】

【技术特征摘要】
1.
一种基于搜索的关键信息提取方法，用于对载体上的关键信息进行提取，其特征在于：包括以下步骤：
S1、
对于待提取关键信息的载体，预先统计其要提取的关键信息，确定待搜索关键字段，并将其构建为一个查询表；
S2、
通过所述查询表获得待搜索字段，将待提取关键信息的载体输入到预训练完成的检测和识别模型中，获得该载体的检测和识别结果，并通过与所述查询表匹配来确定该载体的待搜索字段；
S3、
将所述载体的检测和识别结果输入值多模态特征提取模块，该多模态特征提取模块包括提取载体上的图片
、
文本以及位置三种模态信息；
S4、
获得各个文本段节点表示后，采用基于
Transformer
实现的空间布局感知模块加强字段间的相对关系；
S5、
通过结合
S2
和
S4
的结果，定义图网络的边和节点，通过以所述待搜索字段为中心，

【专利技术属性】
技术研发人员：徐国栋，李斌，薛向阳，唐宏华，郑腰华，卢伟，冯江宇，蒋孝云，章东方，李贤庆，李厚荣，
申请(专利权)人：中铁二十四局集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人