一种登记文件中风险要素提取方法技术

技术编号:39002083 阅读:6 留言:0更新日期:2023-10-07 10:33
本发明专利技术涉及电子信息技术领域,具体涉及一种登记文件中风险要素提取方法,包括从登记文件中获取待识别文本;通过OCR技术将所述待识别文本转换为文本数据;通过要素提取算法从所述文本数据中提取关键要素信息,得到提取数据。本发明专利技术通过要素提取算法提高了关键要素信息提取的准确性,从而提高了语义计算效果,解决了现有的风险要素提取方法的语义计算效果较差的问题。较差的问题。较差的问题。

【技术实现步骤摘要】
一种登记文件中风险要素提取方法


[0001]本专利技术涉及电子信息
,尤其涉及一种登记文件中风险要素提取方法。

技术介绍

[0002]风险要素提取旨在从业务登记文件中提取出一组具有风险可能性的内容以提高审核人员对登记文件的审核效率,是一项基本的自然语言处理任务。常见的关键词提取算法包括TF

IDF、TextRank、Yake、AutoPhrase、KeyBert等。
[0003]TF

IDF是通过统计语料库中词的逆文档频率(IDF)和词在句子中的频率(TF)来对关键词进行排序。TextRank通过构建词图,然后利用PageRank算法对关键词进行排序、Yake是一种综合多种统计指标的关键词提取算法,AutoPhrase利用知识库进行远程监督学习。TF

IDF、TextRank、Yake等算法从一定程度上能够快速提取出相对可靠的关键词,但是这些算法往往存在大量的噪音词(非关键词错误识别为了关键词),问题在于它们都忽略了文本的语义特征。KeyBert等基于语义的关键词提取算法通过计算N

Gram的方式生成候选词,但是这种做法的计算效率非常低,由于BERT各向异性的特点导致语义计算效果较差。

技术实现思路

[0004]本专利技术的目的在于提供一种登记文件中风险要素提取方法,旨在解决现有的风险要素提取方法的语义计算效果较差的问题。
[0005]为实现上述目的,本专利技术提供了一种登记文件中风险要素提取方法,包括以下步骤:
[0006]从登记文件中获取待识别文本;
[0007]通过OCR技术将所述待识别文本转换为文本数据;
[0008]通过要素提取算法从所述文本数据中提取关键要素信息,得到提取数据。
[0009]其中,在步骤通过要素提取算法从所述文本数据中提取关键要素信息,得到提取数据之后,所述方法还包括:
[0010]将基础数据与所述提取数据进行对比,通过模糊匹配算法判断所述基础数据中是否有重复内容,得到判断结果;
[0011]将所述提取数据和所述判断结果输入风险判定模型,输出数据重复度和数据风险评级。
[0012]其中,所述关键要素信息包括目标发票号、合同编号、合同名称和项目公司名称等存在于上述业务场景中的相关要素。
[0013]其中,所述对文本数据进行发票号提取,包括:
[0014]判断发票描述形式在文本数据中;
[0015]使用正则表达式从所述文本数据中提取所述发票描述形式,得到目标发票号。
[0016]其中,所述发票描述形式包括发票号、发票编号和发票信息中的任意一种。
[0017]其中,所述对文本数据进行合同编号提取,包括:
[0018]使用正则表达式从所述文本数据中提取合同编号。
[0019]其中,所述对文本数据进行合同名称提取,包括:
[0020]判断合同描述形式在所述文本数据中;
[0021]使用正则表达式从所述文本数据中提取所述合同描述形式,得到合同名称。
[0022]其中,所述合同描述形式包括合同、施工项目和协议中的任意一种。
[0023]其中,对文本数据进行项目公司名称提取,包括:
[0024]判断项目公司名称在所述登记文件中;
[0025]使用正则表达式从所述文本数据中提取所述项目公司名称。
[0026]其中,所述模糊匹配算法包括公共子串算法、编辑距离算法和阈值规则。
[0027]本专利技术的一种登记文件中风险要素提取方法,通过从登记文件中获取待识别文本;通过OCR技术将所述待识别文本转换为文本数据;通过要素提取算法从所述文本数据中提取关键要素信息,得到提取数据。本专利技术通过要素提取算法提高了关键要素信息提取的准确性,从而提高了语义计算效果,解决了现有的风险要素提取方法的语义计算效果较差的问题。
附图说明
[0028]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1是本专利技术提供的一种业务登记文件中风险要素提取方法的流程图。
具体实施方式
[0030]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0031]请参阅图1,本专利技术提供一种应收账款的质押及转让业务、融资租赁业务的业务登记文件中风险要素提取方法,包括以下步骤:
[0032]S1从登记文件中获取待识别文本;
[0033]获取待识别文本,所述待识别文本包括文本数据的描述和附件。具体的,本实施例采用文本数据的描述和附件作为待识别文本,进行文本数据的风险要素提取。其中,附件为中登网数据库中返回的附件,描述为中登网登记证明中的描述。
[0034]S2通过OCR技术将所述待识别文本转换为文本数据;
[0035]S3通过要素提取算法从所述文本数据中提取关键要素信息,得到提取数据。
[0036]具体的,所述关键要素信息包括目标发票号、合同编号、合同名称和项目公司名称。
[0037]所述对文本数据进行发票号提取,包括:
[0038]判断发票描述形式在文本数据中;使用正则表达式从所述文本数据中提取所述发票描述形式,得到目标发票号。所述发票描述形式包括发票号、发票编号和发票信息中的任
意一种。
[0039]所述对文本数据进行合同编号提取,包括:
[0040]使用正则表达式从所述文本数据中提取合同编号。
[0041]所述对文本数据进行合同名称提取,包括:
[0042]判断合同描述形式在所述文本数据中;使用正则表达式从所述文本数据中提取所述合同描述形式,得到合同名称。所述合同描述形式包括合同、施工项目和协议中的任意一种。
[0043]所述对文本数据进行项目公司名称提取,包括:
[0044]判断项目公司名称在所述登记文件中;使用正则表达式从所述文本数据中提取所述项目公司名称。
[0045]S4将基础数据与所述提取数据进行对比,通过模糊匹配算法判断所述基础数据中是否有重复内容,得到判断结果;
[0046]具体的,所述模糊匹配算法包括公共子串算法、编辑距离算法和阈值规则。
[0047]模糊匹配算法主要用到了公共子串算法+编辑距离算法,只有当两个算法同时满足模糊度才算是相似字符串。
[0048]所述公共子串算法具体方法为:
[0049]1、构建一个矩阵,行数为字符串1的长度+1,列数为字符串2的长度+1
[0050]2、这里+1,是为了计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种登记文件中风险要素提取方法,其特征在于,包括以下步骤:从登记文件中获取待识别文本;通过OCR技术将所述待识别文本转换为文本数据;通过要素提取算法从所述文本数据中提取关键要素信息,得到提取数据。2.如权利要求1所述的登记文件中风险要素提取方法,其特征在于,在步骤通过要素提取算法从所述文本数据中提取关键要素信息,得到提取数据之后,所述方法还包括:将基础数据与所述提取数据进行对比,通过模糊匹配算法判断所述基础数据中是否有重复内容,得到判断结果;将所述提取数据和所述判断结果输入风险判定模型,输出数据重复度和数据风险评级。3.如权利要求2所述的登记文件中风险要素提取方法,其特征在于,所述关键要素信息包括目标发票号、合同编号、合同名称和项目公司名称。4.如权利要求3所述的登记文件中风险要素提取方法,其特征在于,所述对文本数据进行发票号提取,包括:判断发票描述形式在文本数据中;使用正则表达式从所述文本数据中提取所述发票描述形式,得到目标发票号。5.如权利要求4所述的登记...

【专利技术属性】
技术研发人员:黄维那
申请(专利权)人:四川蜀地智能中登科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1