结构化信息提取及模型构建方法、设备及存储介质技术

技术编号：30366824 阅读：16 留言：0更新日期：2021-10-16 17:37

本申请涉及一种结构化信息提取及模型构建方法、设备及存储介质，涉及文本处理技术领域。该结构化信息提取模型构建方法包括：获取样本集合，其中，样本集合包括每个语句类别对应的正样本语句和负样本语句，正样本语句的真实语句类别为正样本语句对应的语句类别，负样本语句的真实语句类别和负样本语句对应的语句类别不同，且负样本语句被初始结构化信息提取模型识别为正样本语句对应的语句类别；提取样本集合中每条样本的语句表示特征和字表示特征；将样本集合中每条样本的语句表示特征和字表示特征，输入至初始结构化信息提取模型，进行训练，获得结构化信息提取模型。本申请用以解决相似度高但属于不同类别的句子分类准确性差的问题。确性差的问题。确性差的问题。

全部详细技术资料下载

【技术实现步骤摘要】
结构化信息提取及模型构建方法、设备及存储介质

[0001]本申请涉及文本处理
，尤其涉及一种结构化信息提取及模型构建方法、设备及存储介质。

技术介绍

[0002]随着现代化信息科技技术的发展，各行各业都在进行信息数字化的建设。当前，在各个公司和企业的合同管理系统存有很多的各种类型的文件。合同文档是每个公司的财务审核，法务审核等审核校验的重中之重。其中，对文档信息进行结构化可以方便进行项目信息的校验以及存储，而且结构化信息也是行业知识图谱构建的基础。
[0003]提取合同文档的结构化信息，主要是提取合同文档中业务人员关注的句子的语句类别、句子中包含的实体以及实体对应的类别。例如：甲方转给乙方10％的股权，语句类别为股权转让，实体为甲方、乙方和10％，实体对应的类别为甲方为转让方、乙方为受让方以及10％为股权占比。
[0004]现有的模型是针对不同类别的句子，先进行分类，再识别实体，对于相似度高但属于不同类别的句子，容易分类错误，进而导致结构化信息提取错误。

技术实现思路

[0005]本申请提供了一种结构化信息提取及模型构建方法、设备及存储介质，用以解决相似度高但属于不同类别的句子分类准确性差的问题。
[0006]第一方面，本申请实施例提供了一种结构化信息提取模型构建方法，包括：
[0007]获取样本集合，其中，所述样本集合包括每个语句类别对应的正样本语句和负样本语句，所述正样本语句的真实语句类别为所述正样本语句对应的语句类别，所述负样本语句的真实语句类别和所述负样本...

【技术保护点】

【技术特征摘要】
1.一种结构化信息提取模型构建方法，其特征在于，包括：获取样本集合，其中，所述样本集合包括每个语句类别对应的正样本语句和负样本语句，所述正样本语句的真实语句类别为所述正样本语句对应的语句类别，所述负样本语句的真实语句类别和所述负样本语句对应的语句类别不同，且所述负样本语句被初始结构化信息提取模型识别为所述正样本语句对应的语句类别；提取所述样本集合中每条样本的语句表示特征和字表示特征；将所述样本集合中每条样本的所述语句表示特征和所述字表示特征，输入至所述初始结构化信息提取模型，进行训练，获得结构化信息提取模型。2.根据权利要求1所述的结构化信息提取模型构建方法，其特征在于，所述获取样本集合，包括：获取初始样本集合，所述初始样本集合包括初始样本语句和所述初始样本语句的真实语句类别；提取所述初始样本集合中每条样本的语句表示特征；将所述初始样本集合中每条样本的所述语句表示特征，输入至所述初始结构化信息提取模型，获得所述初始结构化信息提取模型输出的所述初始样本语句对应的预测语句类别；比较所述初始样本语句的真实语句类别和所述初始样本语句对应的预测语句类别，获得比较结果；若所述比较结果为所述真实语句类别和所述预测语句类别相同，则将所述初始样本语句作为所述预测语句类别对应的所述正样本语句；若所述比较结果为所述真实语句类别和所述预测语句类别不同，则将所述初始样本语句作为所述预测语句类别对应的所述负样本语句。3.根据权利要求2所述的结构化信息提取模型构建方法，其特征在于，所述获取初始样本集合，包括：获取原始文本；将所述原始文本按照标点符号划分为至少两个原始语句；从至少两个所述原始语句中，通过文本匹配，查找到至少两个初始语句；将至少两个所述初始语句的文本格式统一，获得所述初始样本语句；获取所述初始样本语句的真实语句类别。4.根据权利要求3所述的结构化信息提取模型构建方法，其特征在于，所述从至少两个所述原始语句中，通过文本匹配，查找到至少两个初始语句，包括：从至少两个所述原始语句中，查找数字文本，包含所述数字文本的所述原始语句作为所述初始语句；和/或从至少两个所述原始语句中，查找特殊符号，包含所述特殊符号的所述原始语句作为所述初始语句；和/或从至少两个所述原始语句中，查找预设句式，包含所述预设句式的所述原始语句作为所述初始语句。
5.根据权利要求1至4任一项所述的结构化信息提取模型构建方法，其特征在于，所述将所述样本集合中每条样本的所述语句表示特征和所述字表示特征，输入至初始结构化信息提取模型，进行训练，获得结构化信息提取模型，包括：根据所述样本集合中每条样本的所述语句表示特征和所述字表示特征，获取损失，其中，所述损失包括正负样本距离，所述损失和所述正负样本距离成正相关；根...

【专利技术属性】
技术研发人员：王宝岩，杨悦，
申请(专利权)人：万翼科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人