一种不动产权证关键信息的提取算法制造技术

技术编号:36342161 阅读:56 留言:0更新日期:2023-01-14 17:55
本发明专利技术公开了一种不动产权证关键信息的提取算法。该不动产权证关键信息的提取算法,通过在OCR领域中深度学习模型,采用基于栅格的提取方算法,利用提取出来的信息与所有信息的比,就是召回率,且利用提取出的信息中的正确数量与全部数量的比,就是准确率,对其进行演算,可将文档图片映射为保留各文本空间位置关系的栅格向量表示,并利用神经网络模型来学习出各文本切片间的关系来提取出文档的关键信息内容,能够对不动产权证中的信息进行准确的计算,同时提高了信息计算的效率,并在相邻的信息之间标记,以此来对不同的信息进行区分,从而能够快速对关键词进行提取和搜索,有利用后续对不动产权证中的信息进行计算。利用后续对不动产权证中的信息进行计算。

【技术实现步骤摘要】
一种不动产权证关键信息的提取算法


[0001]本专利技术涉及不动产权证关键信息
,具体为一种不动产权证关键信息的提取算法。

技术介绍

[0002]不动产权证,是权利人享有该不动产物权的证明。当不动产登记机构完成登记后,依法向申请人核发不动产权属证书。当事人持有不动产权属证书,就能够证明自己是不动产权属证书登记的物权的权利人,权属证书是证明物权的凭证。权属证书也可以作为权利存在的证据,但它不是确权的主要依据。即使将权属证书移转给他人占有,如果登记的内容中没有记载物权变动的,物权本身也不发生变动,权属证书是证明物权的凭证。权属证书也可以作为权利存在的证据,但它不是确权的主要依据。即使将权属证书移转给他人占有,如果登记的内容中没有记载物权变动的,物权本身也不发生变动。信息,指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。在一切通讯和控制系统中,信息是一种普遍联系的形式。1948年,数学家香农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西,信息是对客观世界中各种事物的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。
[0003]目前现有的不动产权证关键信息的提取算法,准确度底,容易导致提取的信息内容有误差,同时对信息的提取算法效率低下,存在缺陷。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种不动产权证关键信息的提取算法,具备能够对不动产权证中的信息进行准确的计算,同时提高了信息计算的效率等优点,解决了目前现有的不动产权证关键信息的提取算法,准确度底,容易导致提取的信息内容有误差,同时对信息的提取算法效率低下的问题。
[0006](二)技术方案
[0007]为实现上述对不动产权证中的信息进行准确的计算,并提高信息计算的效率目的,本专利技术提供如下技术方案:一种不动产权证关键信息的提取算法,包括以下步骤:
[0008]S1、关键词提取
[0009]将不动产权证中的信息转化为结构化的信息,用于定位文本中突出的特定信息,并去除无效标记,提取一定的关键词信息,且关键词一定是简洁明了,并是包含整个语法中的涵义。
[0010]S2、关键词搜索
[0011]将提取后的关键词通过搜索引擎来对信息进行查找,此时与关键词相互对应的大量信息会被显示,可通过筛选信息的日期、主体内容等,来对信息进行进一步细致的筛分选
取,并在相邻的信息之间标记,以此来对不同的信息进行区分。
[0012]S3、关键词提取算法
[0013]在OCR领域中深度学习模型,采用基于栅格(grid

based)的提取方算法,使其每一个字符栅格采用one

hot编码表示,向量表示为
ilde{g}\in\mathbb{R}^{H
×
W
×
N_{c}}g~∈RH
×
W
×
Nc,随后随后该向量表示作为chargrid

net的输入,基于encoder

decoder的CNN网络结构,进行关键信息的文本框检测和语义分割。整个网络由分割损失、边框分类和边框坐标回归三个部分组成的损失函数优化学习:{\mathcal{L}}_{total}={\mathcal{L}}_{seg}+{\mathcal{L}}_{boxmask}+{\mathcal{L}}_{boxcoord}Ltotal=Lseg+Lboxmask+Lboxcoord。关键信息内容通过将分割类别属于同一类别的字符整合得到。
[0014]S4、信息算法系统分类
[0015]利用提取出来的信息与所有信息的比,就是召回率,且利用提取出的信息中的正确数量与全部数量的比,就是准确率,对其进行演算,通常采用的另一个度量就是F值,它的计算公式如下:(B2+1)PR
[0016]F=βP+R
[0017]其中参数β表示recall和precision的重要性比率。
[0018]S5、信息提取检测
[0019]在相邻的句子之间输入ResNet+FPN,并利用ResNet+FPN作为骨干网络,进行文字检测,然后利用检测网络+ROIAlign的结果进行attention+encoder

decoder的文字识别,最后将文本位置信息、视觉信息、语义信息进行融合,通过BiLSTM来进行IOB标签分类得到文档关键信息,从而实现对信息进行检测。
[0020]优选的,所述在S1、步骤中,在对关键词进行提取时,如遇到生疏的词汇,可对关键词进行扩展,以达到搜索要求。
[0021]优选的,所述在S1、步骤中,对不动产权证中的标记进行查阅,也是提取不动产权证中的关键信息的一个便捷途径。
[0022]优选的,所述在S2、步骤中,可通过一些标记模型,将提取问题转换为分类的问题。
[0023]优选的,所述在S3、步骤中,可将文档图片映射为保留各文本空间位置关系的栅格向量表示,然后设计两类CNN模型来进行关键信息题:CUTIE

A。
[0024]优选的,所述在S3、步骤中,基于图结构的方法是将文档图片看作是由文本切片(text segment)组成的图结构,并利用神经网络模型来学习出各文本切片间的关系来提取出文档的关键信息内容。
[0025]优选的,所述在S4、步骤中,通常情况下,recall越高,precision就比较低,反之,precision越高。
[0026]优选的,所述在S5、步骤中,可通过文本检测、文本识别和信息提取,来进行共同优化学习。
[0027](三)有益效果
[0028]与现有技术相比,本专利技术提供了一种不动产权证关键信息的提取算法,具备以下有益效果:
[0029]1、该不动产权证关键信息的提取算法,通过在OCR领域中深度学习模型,采用基于栅格的提取方算法,利用提取出来的信息与所有信息的比,就是召回率,且利用提取出的信
息中的正确数量与全部数量的比,就是准确率,对其进行演算,可将文档图片映射为保留各文本空间位置关系的栅格向量表示,然后设计两类CNN模型来进行关键信息题,并利用神经网络模型来学习出各文本切片间的关系来提取出文档的关键信息内容,能够对不动产权证中的信息进行准确的计算,同时提高了信息计算的效率。
[0030]2、该不动产权证关键信息的提取算法,该不动产权证关键信息的提取算法,通过将不动产权证中的信息转化为结构化的信息,用于定位文本中突出的特定信息,并去除无效标记,提取一定的关键词信息,且关键词一定是简洁明了,并是包含整个语法中的涵义,将提取后的关键词通过搜索引擎来对信息进行查找,此时与关键词相互对应的大量信息会被显示,可通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不动产权证关键信息的提取算法,其特征在于,包括以下步骤:S1、关键词提取将不动产权证中的信息转化为结构化的信息,用于定位文本中突出的特定信息,并去除无效标记,提取一定的关键词信息,且关键词一定是简洁明了,并是包含整个语法中的涵义;S2、关键词搜索将提取后的关键词通过搜索引擎来对信息进行查找,此时与关键词相互对应的大量信息会被显示,可通过筛选信息的日期、主体内容等,来对信息进行进一步细致的筛分选取,并在相邻的信息之间标记,以此来对不同的信息进行区分;S3、关键词提取算法在OCR领域中深度学习模型,采用基于栅格(grid

based)的提取方算法,使其每一个字符栅格采用one

hot编码表示,向量表示为\tilde{g}\in\mathbb{R}^{H
×
W
×
N_{c}}g~∈RH
×
W
×
Nc,随后随后该向量表示作为chargrid

net的输入,基于encoder

decoder的CNN网络结构,进行关键信息的文本框检测和语义分割。整个网络由分割损失、边框分类和边框坐标回归三个部分组成的损失函数优化学习:{\mathcal{L}}_{total}={\mathcal{L}}_{seg}+{\mathcal{L}}_{boxmask}+{\mathcal{L}}_{boxcoord}Ltotal=Lseg+Lboxmask+Lboxcoord。关键信息内容通过将分割类别属于同一类别的字符整合得到;S4、信息算法系统分类利用提取出来的信息与所有信息的比,就是召回率,且利用提取出的信息中的正确数量与全部数量的比,就是准确率,对其进行演算,通常采用的另一个度量就是F值,它的计算公式如下:(B2+1)PRF=βP+R其中参数β表示recall和preci...

【专利技术属性】
技术研发人员:王敏金佳陈蕊
申请(专利权)人:四川工商学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1