基于自适应空间度量的结构化信息抽取方法、系统及介质技术方案

技术编号:41345694 阅读:21 留言:0更新日期:2024-05-20 10:01
本发明专利技术涉及基于自适应空间度量的结构化信息抽取方法、系统及介质,包括:离线模板构建:在模板中标注关键字所在的位置信息,标注好的模板为包含有元素k的集合K;文字识别和排序:对待处理文档图像进行文字识别,得到包含有元素s的集合S;关键字抽取:对于集合S中的每个元素s,计算元素s所对应的文本框移动到与模板中的关键字i所对应的文本框相重叠时所需要移动的最小单元数,记为D<subgt;1i</subgt;,找到D<subgt;1i</subgt;取值最小的关键字x;判断元素s的字符串中是否包含了所需识别的关键字x,若是,则将[x,s‑x,s的位置信息]作为元素r存入结果集合R中,否则,则将[s,s的位置信息]作为元素c存入候选集合C中;对应值重构:对于候选集合C中的所有元素c,计算元素c所对应的文本框移动到与结果集合R中的元素r<subgt;j</subgt;所对应的文本框相邻时所需要移动的最小单元数,记为D<subgt;2j</subgt;,找到D<subgt;2j</subgt;取值最小的元素r,并将该元素c的字符串添加到元素r的“值”的位置。本发明专利技术具有较高的可迁移性,大幅提升了信息抽取的准确性。

【技术实现步骤摘要】

本专利技术涉及信息,具体涉及基于自适应空间度量的结构化信息抽取方法、系统及介质


技术介绍

1、随着近年来文字识别的应用越来越广泛,结构化文档识别的关系抽取方法研究也逐渐引起了越来越多学者的关注和探索,但目前仍有很多问题亟待解决。首先,从目前常用的结构化信息抽取的方法来看,绝大多数的信息抽取方法都是与具体的文字识别方法相耦合的,而这一定程度降低了算法的可迁移性;其次,大多数信息抽取算法只是考虑了文本识别结果的内容信息,没有充分利用到文本的空间位置信息,这在一些关键词不明确、识别字符不准、信息种类多样的场景下可能会导致抽取结果不够准确;最后,基于传统的模板匹配的方法往往会尽可能的去标注更多的先验信息,此举虽然可以新增更多的先验参考,但也可能会因为模板中的标注信息过多而相互影响使得最终关键信息匹配错误。

2、因此,有必要开发一种新的基于自适应空间度量的结构化信息抽取方法、系统及介质。


技术实现思路

1、本专利技术的目的是提供基于自适应空间度量的结构化信息抽取方法、系统及介质,不仅能从杂乱的文本行中提取本文档来自技高网...

【技术保护点】

1.一种基于自适应空间度量的结构化信息抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:在离线模板构建时,将元素k定义为[关键字,文本框坐标组,关键字对应值的类型];

3.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述D1i的计算公式如下:

4.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述D2j的计算公式如下:

5.根据权利要求3所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述α(A,B)的计算方法如下...

【技术特征摘要】

1.一种基于自适应空间度量的结构化信息抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:在离线模板构建时,将元素k定义为[关键字,文本框坐标组,关键字对应值的类型];

3.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述d1i的计算公式如下:

4.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述d2j的计算公式如下:

5.根据权利要求3所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述α(a,b)的计算方法如下:

6.根据权利要求4所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述α(e,f)的计算方法如下:

7.根据权利要求2所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:...

【专利技术属性】
技术研发人员:石芳覃勋辉刘科邓金玉
申请(专利权)人:重庆亲笔签数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1