【技术实现步骤摘要】
本专利技术涉及信息,具体涉及基于自适应空间度量的结构化信息抽取方法、系统及介质。
技术介绍
1、随着近年来文字识别的应用越来越广泛,结构化文档识别的关系抽取方法研究也逐渐引起了越来越多学者的关注和探索,但目前仍有很多问题亟待解决。首先,从目前常用的结构化信息抽取的方法来看,绝大多数的信息抽取方法都是与具体的文字识别方法相耦合的,而这一定程度降低了算法的可迁移性;其次,大多数信息抽取算法只是考虑了文本识别结果的内容信息,没有充分利用到文本的空间位置信息,这在一些关键词不明确、识别字符不准、信息种类多样的场景下可能会导致抽取结果不够准确;最后,基于传统的模板匹配的方法往往会尽可能的去标注更多的先验信息,此举虽然可以新增更多的先验参考,但也可能会因为模板中的标注信息过多而相互影响使得最终关键信息匹配错误。
2、因此,有必要开发一种新的基于自适应空间度量的结构化信息抽取方法、系统及介质。
技术实现思路
1、本专利技术的目的是提供基于自适应空间度量的结构化信息抽取方法、系统及介质,不仅能
...【技术保护点】
1.一种基于自适应空间度量的结构化信息抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:在离线模板构建时,将元素k定义为[关键字,文本框坐标组,关键字对应值的类型];
3.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述D1i的计算公式如下:
4.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述D2j的计算公式如下:
5.根据权利要求3所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述α(A
...【技术特征摘要】
1.一种基于自适应空间度量的结构化信息抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:在离线模板构建时,将元素k定义为[关键字,文本框坐标组,关键字对应值的类型];
3.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述d1i的计算公式如下:
4.根据权利要求1所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述d2j的计算公式如下:
5.根据权利要求3所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述α(a,b)的计算方法如下:
6.根据权利要求4所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:所述α(e,f)的计算方法如下:
7.根据权利要求2所述的基于自适应空间度量的结构化信息抽取方法,其特征在于:...
【专利技术属性】
技术研发人员:石芳,覃勋辉,刘科,邓金玉,
申请(专利权)人:重庆亲笔签数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。