一种登记文件中风险要素提取方法技术

技术编号：39002083 阅读：6 留言：0更新日期：2023-10-07 10:33

本发明专利技术涉及电子信息技术领域，具体涉及一种登记文件中风险要素提取方法，包括从登记文件中获取待识别文本；通过OCR技术将所述待识别文本转换为文本数据；通过要素提取算法从所述文本数据中提取关键要素信息，得到提取数据。本发明专利技术通过要素提取算法提高了关键要素信息提取的准确性，从而提高了语义计算效果，解决了现有的风险要素提取方法的语义计算效果较差的问题。较差的问题。较差的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种登记文件中风险要素提取方法

[0001]本专利技术涉及电子信息
，尤其涉及一种登记文件中风险要素提取方法。

技术介绍

[0002]风险要素提取旨在从业务登记文件中提取出一组具有风险可能性的内容以提高审核人员对登记文件的审核效率，是一项基本的自然语言处理任务。常见的关键词提取算法包括TF
‑
IDF、TextRank、Yake、AutoPhrase、KeyBert等。
[0003]TF
‑
IDF是通过统计语料库中词的逆文档频率(IDF)和词在句子中的频率(TF)来对关键词进行排序。TextRank通过构建词图，然后利用PageRank算法对关键词进行排序、Yake是一种综合多种统计指标的关键词提取算法，AutoPhrase利用知识库进行远程监督学习。TF
‑
IDF、TextRank、Yake等算法从一定程度上能够快速提取出相对可靠的关键词，但是这些算法往往存在大量的噪音词(非关键词错误识别为了关键词)，问题在于它们都忽略了文本的语义特征。KeyBert等基于语义的关键词提取算法通过计算N
‑
Gram的方式生成候选词，但是这种做法的计算效率非常低，由于BERT各向异性的特点导致语义计算效果较差。

技术实现思路

[0004]本专利技术的目的在于提供一种登记文件中风险要素提取方法，旨在解决现有的风险要素提取方法的语义计算效果较差的问题。
[0005]为实现上述目的，本专利技术提供了一种登记文件中风险要素提取方法，包...

【技术保护点】

【技术特征摘要】
1.一种登记文件中风险要素提取方法，其特征在于，包括以下步骤：从登记文件中获取待识别文本；通过OCR技术将所述待识别文本转换为文本数据；通过要素提取算法从所述文本数据中提取关键要素信息，得到提取数据。2.如权利要求1所述的登记文件中风险要素提取方法，其特征在于，在步骤通过要素提取算法从所述文本数据中提取关键要素信息，得到提取数据之后，所述方法还包括：将基础数据与所述提取数据进行对比，通过模糊匹配算法判断所述基础数据中是否有重复内容，得到判断结果；将所述提取数据和所述判断结果输入风险判定模型，输出数据重复度和数据风险评级。3.如权利要求2所述的登记文件中风险要素提取方法，其特征在于，所述关键要素信息包括目标发票号、合同编号、合同名称和项目公司名称。4.如权利要求3所述的登记文件中风险要素提取方法，其特征在于，所述对文本数据进行发票号提取，包括：判断发票描述形式在文本数据中；使用正则表达式从所述文本数据中提取所述发票描述形式，得到目标发票号。5.如权利要求4所述的登记...

【专利技术属性】
技术研发人员：黄维那，
申请(专利权)人：四川蜀地智能中登科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人