一种基于查询识别和关系抽取的合同文档结构化处理方法技术

技术编号：38686581 阅读：11 留言：0更新日期：2023-09-02 23:00

本发明专利技术属于文本分析工具的优化技术领域，具体涉及一种基于查询识别和关系抽取的合同文档结构化处理方法。本发明专利技术具体包括使用OCR技术进行图片或文本文档预识别，在图片或文本文档预识别的基础上，对预识别文档进行基于语义查询识别与关系识别的再次识别，在再次识别文档中进行非结构化与非模板化的文档文本查询工作。本发明专利技术采用所述语义关联通过采用语义查询识别与关系识别方法，用以将非结构化与非模板化的数据进行拆分与针对查询结构的重组，从而无需过多的人工参与用以进一步提高文本信息查询的针对性与准确性。信息查询的针对性与准确性。信息查询的针对性与准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于查询识别和关系抽取的合同文档结构化处理方法

[0001]本专利技术属于文本分析工具的优化
，具体涉及一种基于查询识别和关系抽取的合同文档结构化处理方法。

技术介绍

[0002]现阶段在合同管理等多种图像文本的处理与分析过程中，通常采用OCR文本识别技术进行文本内容的识别与提取，从而简化人工文本内容录入所带来的录入效率与录入准确率较低的问题，OCR文本识别技术可广泛应用于各领域信息提取工作中，但是却不适用于文本信息的检索于查询工作中，在对识别到的文本内容进行进一步的查询利用时，由于无法识别指定字符所代表的语义信息，将无法自动定位出待查询的语义结构，从而无法帮助用户进行特定需求的文本内容查询，同时由于图像文本中不仅有类似于合同文本的结构化模板，同时也存在针对非结构化同时无固定版式的图像文本模板的识别准确率较低，应用场景有限的问题。
[0003]公开号为CN109994102A的中国专利，提供了一种基于情绪识别的智能外呼系统，此专利中通过将音频维度分析模块以及用户视频记录模块与文本语义分析模块相互连通，用以进一步获取用户沟通过程中的情感语义，从而智能识别双方的情绪变换，但是专利中所述语义识别模块中并未具体说明语义识别方式，以及在语义识别方式中所涉及的情感识别方式。公开号为CN111241849A的中国专利，提供了一种文本语义分析方法及系统，此专利中通过将文本语义向量在包含有TextCNN与FastCNN中的网络结构进行指定特征的训练，用以进一步提高文本向量的分类效率，但是此专利中所涉及的文本向量是通过...

【技术保护点】

【技术特征摘要】
1.一种基于查询识别和关系抽取的合同文档结构化处理方法，其特征在于，具体包括使用OCR技术进行图片或文本文档预识别，在图片或文本文档预识别的基础上，对预识别文档进行基于语义查询识别与关系识别的再次识别，在再次识别文档中进行非结构化与非模板化的文档文本查询工作。2.根据权利要求1所述一种基于查询识别和关系抽取的合同文档结构化处理方法，其特征在于，所述OCR技术，使用开源OCR引擎对合同文档进行OCR解析，并根据解析结果生成预识别文档。3.根据权利要求1所述一种基于查询识别和关系抽取的合同文档结构化处理方法，其特征在于，在所述语义查询识别中，建立基于NER的语义查询模型；通过所述语义查询模型首先对预识别文档中初始字符片段定位并建立坐标信息。4.根据权利要求3所述一种基于查询识别和关系抽取的合同文档结构化处理方法，其特征在于，所述文档文本查询工作中，建立查询识别模型，通过所述查询识别模型对预识别文档中单个字符进行重新组合，并生成新字符片段。5.根据权利要求3所述一种基于查询识别和关系抽取的合同文档结构化处理方法，其特征在于，所述查询识别模型中，通过建立查询抽取方法对初始字符片段进行分片，并根据分片结果重新组合后生成新字符片段。6.根据权利要求5所述一种基...

【专利技术属性】
技术研发人员：崔鹏飞，宋志刚，李振军，李朝阳，王滢琼，
申请(专利权)人：上海聚均科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人