一种不动产权证关键信息的提取算法制造技术

技术编号：36342161 阅读：56 留言：0更新日期：2023-01-14 17:55

本发明专利技术公开了一种不动产权证关键信息的提取算法。该不动产权证关键信息的提取算法，通过在OCR领域中深度学习模型，采用基于栅格的提取方算法，利用提取出来的信息与所有信息的比，就是召回率，且利用提取出的信息中的正确数量与全部数量的比，就是准确率，对其进行演算，可将文档图片映射为保留各文本空间位置关系的栅格向量表示，并利用神经网络模型来学习出各文本切片间的关系来提取出文档的关键信息内容，能够对不动产权证中的信息进行准确的计算，同时提高了信息计算的效率，并在相邻的信息之间标记，以此来对不同的信息进行区分，从而能够快速对关键词进行提取和搜索，有利用后续对不动产权证中的信息进行计算。利用后续对不动产权证中的信息进行计算。

全部详细技术资料下载

【技术实现步骤摘要】
一种不动产权证关键信息的提取算法

[0001]本专利技术涉及不动产权证关键信息
，具体为一种不动产权证关键信息的提取算法。

技术介绍

[0002]不动产权证，是权利人享有该不动产物权的证明。当不动产登记机构完成登记后，依法向申请人核发不动产权属证书。当事人持有不动产权属证书，就能够证明自己是不动产权属证书登记的物权的权利人，权属证书是证明物权的凭证。权属证书也可以作为权利存在的证据，但它不是确权的主要依据。即使将权属证书移转给他人占有，如果登记的内容中没有记载物权变动的，物权本身也不发生变动，权属证书是证明物权的凭证。权属证书也可以作为权利存在的证据，但它不是确权的主要依据。即使将权属证书移转给他人占有，如果登记的内容中没有记载物权变动的，物权本身也不发生变动。信息，指音讯、消息、通讯系统传输和处理的对象，泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物，得以认识和改造世界。在一切通讯和控制系统中，信息是一种普遍联系的形式。1948年，数学家香农在题为“通讯的数学理论”的论文中指出：“信息是用来消除随机不定性的东西，信息是对客观世界中各种事物的运动状态和变化的反映，是客观事物之间相互联系和相互作用的表征，表现的是客观事物运动状态和变化的实质内容。
[0003]目前现有的不动产权证关键信息的提取算法，准确度底，容易导致提取的信息内容有误差，同时对信息的提取算法效率低下，存在缺陷。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技...

【技术保护点】

【技术特征摘要】
1.一种不动产权证关键信息的提取算法，其特征在于，包括以下步骤：S1、关键词提取将不动产权证中的信息转化为结构化的信息，用于定位文本中突出的特定信息，并去除无效标记，提取一定的关键词信息，且关键词一定是简洁明了，并是包含整个语法中的涵义；S2、关键词搜索将提取后的关键词通过搜索引擎来对信息进行查找，此时与关键词相互对应的大量信息会被显示，可通过筛选信息的日期、主体内容等，来对信息进行进一步细致的筛分选取，并在相邻的信息之间标记，以此来对不同的信息进行区分；S3、关键词提取算法在OCR领域中深度学习模型，采用基于栅格(grid
‑
based)的提取方算法，使其每一个字符栅格采用one
‑
hot编码表示，向量表示为\tilde{g}\in\mathbb{R}^{H
×
W
×
N_{c}}g～∈RH
×
W
×
Nc，随后随后该向量表示作为chargrid
‑
net的输入，基于encoder
‑
decoder的CNN网络结构，进行关键信息的文本框检测和语义分割。整个网络由分割损失、边框分类和边框坐标回归三个部分组成的损失函数优化学习：{\mathcal{L}}_{total}＝{\mathcal{L}}_{seg}+{\mathcal{L}}_{boxmask}+{\mathcal{L}}_{boxcoord}Ltotal＝Lseg+Lboxmask+Lboxcoord。关键信息内容通过将分割类别属于同一类别的字符整合得到；S4、信息算法系统分类利用提取出来的信息与所有信息的比，就是召回率，且利用提取出的信息中的正确数量与全部数量的比，就是准确率，对其进行演算，通常采用的另一个度量就是F值，它的计算公式如下：(B2+1)PRF＝βP+R其中参数β表示recall和preci...

【专利技术属性】
技术研发人员：王敏，金佳，陈蕊，
申请(专利权)人：四川工商学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人