一种基于查询识别和关系抽取的合同文档结构化处理方法技术

技术编号:38686581 阅读:11 留言:0更新日期:2023-09-02 23:00
本发明专利技术属于文本分析工具的优化技术领域,具体涉及一种基于查询识别和关系抽取的合同文档结构化处理方法。本发明专利技术具体包括使用OCR技术进行图片或文本文档预识别,在图片或文本文档预识别的基础上,对预识别文档进行基于语义查询识别与关系识别的再次识别,在再次识别文档中进行非结构化与非模板化的文档文本查询工作。本发明专利技术采用所述语义关联通过采用语义查询识别与关系识别方法,用以将非结构化与非模板化的数据进行拆分与针对查询结构的重组,从而无需过多的人工参与用以进一步提高文本信息查询的针对性与准确性。信息查询的针对性与准确性。信息查询的针对性与准确性。

【技术实现步骤摘要】
一种基于查询识别和关系抽取的合同文档结构化处理方法


[0001]本专利技术属于文本分析工具的优化
,具体涉及一种基于查询识别和关系抽取的合同文档结构化处理方法。

技术介绍

[0002]现阶段在合同管理等多种图像文本的处理与分析过程中,通常采用OCR文本识别技术进行文本内容的识别与提取,从而简化人工文本内容录入所带来的录入效率与录入准确率较低的问题,OCR文本识别技术可广泛应用于各领域信息提取工作中,但是却不适用于文本信息的检索于查询工作中,在对识别到的文本内容进行进一步的查询利用时,由于无法识别指定字符所代表的语义信息,将无法自动定位出待查询的语义结构,从而无法帮助用户进行特定需求的文本内容查询,同时由于图像文本中不仅有类似于合同文本的结构化模板,同时也存在针对非结构化同时无固定版式的图像文本模板的识别准确率较低,应用场景有限的问题。
[0003]公开号为CN109994102A的中国专利,提供了一种基于情绪识别的智能外呼系统,此专利中通过将音频维度分析模块以及用户视频记录模块与文本语义分析模块相互连通,用以进一步获取用户沟通过程中的情感语义,从而智能识别双方的情绪变换,但是专利中所述语义识别模块中并未具体说明语义识别方式,以及在语义识别方式中所涉及的情感识别方式。公开号为CN111241849A的中国专利,提供了一种文本语义分析方法及系统,此专利中通过将文本语义向量在包含有TextCNN与FastCNN中的网络结构进行指定特征的训练,用以进一步提高文本向量的分类效率,但是此专利中所涉及的文本向量是通过分类后计算各类别概率后进行指定特征文本的提取的,但是此种方式中得到的特征文本为估计值,相比于直接进行文本字符定位,可能会存在查询到的文本信息不准确的问题。
[0004]因此,针对现有的文本分析和查询过程中存在的问题,本专利技术中提供了一种基于查询识别和关系抽取的合同文档结构化处理方法。

技术实现思路

[0005]针对上述存在的问题,本专利技术中提供了一种基于查询识别和关系抽取的合同文档结构化处理方法,具体包括使用OCR技术进行图片或文本文档预识别,在图片或文本文档预识别的基础上,对预识别文档进行基于语义查询识别与关系识别的再次识别,在再次识别文档中进行非结构化与非模板化的文档文本查询工作。
[0006]优选的,所述OCR技术,使用开源OCR引擎对合同文档进行OCR解析,并根据解析结果生成预识别文档。
[0007]优选的,在所述语义查询识别中,建立基于NER的语义查询模型;通过所述语义查询模型首先对预识别文档中初始字符片段定位并建立坐标信息。
[0008]优选的,所述文档文本查询工作中,建立查询识别模型,通过所述查询识别模型对预识别文档中单个字符进行重新组合,并生成新字符片段。
[0009]优选的,所述查询识别模型中,通过建立查询抽取方法对初始字符片段进行分片,并根据分片结果重新组合后生成新字符片段。
[0010]优选的,将所述新字符片段使用transformer下的layout

xlm预训练模型进行训练,并得到查询分类模型进行文本语义分类。
[0011]优选的,所述文本语义分类中,对查询抽取的新字符片段根据对应的标签类别赋标签。
[0012]优选的,所述文本语义分类中,对查询抽取的新字符片段进行关系识别,其中所述关系识别中对查询抽取的新字符片段进行ID编码。
[0013]优选的,所述文本语义分类中,将新字符片段的标签类别与ID编码进行关系标注并生成列表格式,使用列表格式表示新字符片段中字符文本信息的关系链。
[0014]优选的,所述新字符片段中字符文本信息的关系链,使用layout

xlm预训练模型进行文档文本查询工作中的字符片段坐标信息,字符片段文本信息以及关系标注信息的识别偏差调整。
[0015]与现有技术相比,本专利技术的有益效果在于:
[0016](1)本专利技术中所述一种基于查询识别和关系抽取的合同文档结构化处理方法,首先通过OCR技术进行图片或文本文档预识别,用以快速获取图像文本中的文本信息,在获取文本信息的基础上进行文本信息的语义关联,其中所述语义关联通过采用语义查询识别与关系识别方法,用以将非结构化与非模板化的数据进行拆分与针对查询结构的重组,从而无需过多的人工参与用以进一步提高文本信息查询的针对性与准确性。
[0017](2)在(1)的基础上,本专利技术中所述语义查询识别与关系识别方法中,将新字符片段的标签类别与ID编码进行关系标注并生成列表格式,使用列表格式表示新字符片段中字符文本信息的关系链,从而在进行图片或文本文档的查询工作中,通过依次执行以及关系标注定位、字符片段文本定位以及字符片段坐标定位,用以根据用户需求建立查询结构,根据查询结构快速识别出图片或文本文档中相关文本内容的语义信息,并根据语义信息进行文本内容与查询结构的匹配,最终快速准确的识别出用户所要查询的文本内容。
附图说明
[0018]图1为基于查询识别和关系抽取的合同文档结构化处理方法流程图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]本专利技术中提供了一种基于查询识别和关系抽取的合同文档结构化处理方法,其特征在于,具体包括使用OCR技术进行图片或文本文档预识别,在图片或文本文档预识别的基础上,对预识别文档进行基于语义查询识别与关系识别的再次识别,在再次识别文档中进行非结构化与非模板化的文档文本查询工作,其中具体处理流程如下:
[0021]S1、所述OCR技术,使用开源OCR引擎对合同文本进行OCR解析,提取初始字符片段
中的基于字符粒度的文本识别结果。
[0022]S2、所述语义查询识别中,建立了基于NER的语义查询模型;
[0023]S3、通过所述语义查询模型对预识别文档中初始字符片段定位并建立坐标信息,同时识别初始字符片段中所对应的单个字符文本信息;
[0024]S4、在进行所述文档文本查询工作时,建立查询识别模型,使用查询识别模型对所述初始字符片段与初始字符片段中所对应的单个字符及其文本信息按查询结构重新组合出带有字符文本信息的新字符片段,其中所述查询结构为人工标注查询关系标签,并定位出新字符片段的坐标信息;具体的,所述查询识别模型使用pyhanlp。
[0025]S4.1在所述查询识别模型中,建立查询抽取方法;
[0026]所述查询抽取用一个具体案例进行说明:其中所述初始字符片段结构为“甲方:XXX有限公司”,采用查询抽取方法对此初始字符片段进行抽取,待抽取之后将初始字符片段分为3段,分别是“甲方”,“:”,以及“XXX有限公司”;
[0027]S5、在进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于查询识别和关系抽取的合同文档结构化处理方法,其特征在于,具体包括使用OCR技术进行图片或文本文档预识别,在图片或文本文档预识别的基础上,对预识别文档进行基于语义查询识别与关系识别的再次识别,在再次识别文档中进行非结构化与非模板化的文档文本查询工作。2.根据权利要求1所述一种基于查询识别和关系抽取的合同文档结构化处理方法,其特征在于,所述OCR技术,使用开源OCR引擎对合同文档进行OCR解析,并根据解析结果生成预识别文档。3.根据权利要求1所述一种基于查询识别和关系抽取的合同文档结构化处理方法,其特征在于,在所述语义查询识别中,建立基于NER的语义查询模型;通过所述语义查询模型首先对预识别文档中初始字符片段定位并建立坐标信息。4.根据权利要求3所述一种基于查询识别和关系抽取的合同文档结构化处理方法,其特征在于,所述文档文本查询工作中,建立查询识别模型,通过所述查询识别模型对预识别文档中单个字符进行重新组合,并生成新字符片段。5.根据权利要求3所述一种基于查询识别和关系抽取的合同文档结构化处理方法,其特征在于,所述查询识别模型中,通过建立查询抽取方法对初始字符片段进行分片,并根据分片结果重新组合后生成新字符片段。6.根据权利要求5所述一种基...

【专利技术属性】
技术研发人员:崔鹏飞宋志刚李振军李朝阳王滢琼
申请(专利权)人:上海聚均科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1