结构化信息提取及模型构建方法、设备及存储介质技术

技术编号:30366824 阅读:16 留言:0更新日期:2021-10-16 17:37
本申请涉及一种结构化信息提取及模型构建方法、设备及存储介质,涉及文本处理技术领域。该结构化信息提取模型构建方法包括:获取样本集合,其中,样本集合包括每个语句类别对应的正样本语句和负样本语句,正样本语句的真实语句类别为正样本语句对应的语句类别,负样本语句的真实语句类别和负样本语句对应的语句类别不同,且负样本语句被初始结构化信息提取模型识别为正样本语句对应的语句类别;提取样本集合中每条样本的语句表示特征和字表示特征;将样本集合中每条样本的语句表示特征和字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型。本申请用以解决相似度高但属于不同类别的句子分类准确性差的问题。确性差的问题。确性差的问题。

【技术实现步骤摘要】
结构化信息提取及模型构建方法、设备及存储介质


[0001]本申请涉及文本处理
,尤其涉及一种结构化信息提取及模型构建方法、设备及存储介质。

技术介绍

[0002]随着现代化信息科技技术的发展,各行各业都在进行信息数字化的建设。当前,在各个公司和企业的合同管理系统存有很多的各种类型的文件。合同文档是每个公司的财务审核,法务审核等审核校验的重中之重。其中,对文档信息进行结构化可以方便进行项目信息的校验以及存储,而且结构化信息也是行业知识图谱构建的基础。
[0003]提取合同文档的结构化信息,主要是提取合同文档中业务人员关注的句子的语句类别、句子中包含的实体以及实体对应的类别。例如:甲方转给乙方10%的股权,语句类别为股权转让,实体为甲方、乙方和10%,实体对应的类别为甲方为转让方、乙方为受让方以及10%为股权占比。
[0004]现有的模型是针对不同类别的句子,先进行分类,再识别实体,对于相似度高但属于不同类别的句子,容易分类错误,进而导致结构化信息提取错误。

技术实现思路

[0005]本申请提供了一种结构化信息提取及模型构建方法、设备及存储介质,用以解决相似度高但属于不同类别的句子分类准确性差的问题。
[0006]第一方面,本申请实施例提供了一种结构化信息提取模型构建方法,包括:
[0007]获取样本集合,其中,所述样本集合包括每个语句类别对应的正样本语句和负样本语句,所述正样本语句的真实语句类别为所述正样本语句对应的语句类别,所述负样本语句的真实语句类别和所述负样本语句对应的语句类别不同,且所述负样本语句被初始结构化信息提取模型识别为所述正样本语句对应的语句类别;
[0008]提取所述样本集合中每条样本的语句表示特征和字表示特征;
[0009]将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至所述初始结构化信息提取模型,进行训练,获得结构化信息提取模型。
[0010]可选地,所述获取样本集合,包括:
[0011]获取初始样本集合,所述初始样本集合包括初始样本语句和所述初始样本语句的真实语句类别;
[0012]提取所述初始样本集合中每条样本的语句表示特征;
[0013]将所述初始样本集合中每条样本的所述语句表示特征,输入至所述初始结构化信息提取模型,获得所述初始结构化信息提取模型输出的所述初始样本语句对应的预测语句类别;
[0014]比较所述初始样本语句的真实语句类别和所述初始样本语句对应的预测语句类别,获得比较结果;
[0015]若所述比较结果为所述真实语句类别和所述预测语句类别相同,则将所述初始样本语句作为所述预测语句类别对应的所述正样本语句;
[0016]若所述比较结果为所述真实语句类别和所述预测语句类别不同,则将所述初始样本语句作为所述预测语句类别对应的所述负样本语句。
[0017]可选地,所述获取初始样本集合,包括:
[0018]获取原始文本;
[0019]将所述原始文本按照标点符号划分为至少两个原始语句;
[0020]从至少两个所述原始语句中,通过文本匹配,查找到至少两个初始语句;
[0021]将至少两个所述初始语句的文本格式统一,获得所述初始样本语句;
[0022]获取所述初始样本语句的真实语句类别。
[0023]可选地,所述从至少两个所述原始语句中,通过文本匹配,查找到至少两个初始语句,包括:
[0024]从至少两个所述原始语句中,查找数字文本,包含所述数字文本的所述原始语句作为所述初始语句;
[0025]和/或
[0026]从至少两个所述原始语句中,查找特殊符号,包含所述特殊符号的所述原始语句作为所述初始语句;
[0027]和/或
[0028]从至少两个所述原始语句中,查找预设句式,包含所述预设句式的所述原始语句作为所述初始语句。
[0029]可选地,所述将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型,包括:
[0030]根据所述样本集合中每条样本的所述语句表示特征和所述字表示特征,获取损失,其中,所述损失包括正负样本距离,所述损失和所述正负样本距离成正相关;
[0031]根据所述损失,优化所述初始结构化信息提取模型的参数后,返回执行所述将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至初始结构化信息提取模型的步骤,直至所述损失趋于稳定时,将所述初始结构化信息提取模型作为最终的所述结构化信息提取模型。
[0032]可选地,所述正负样本距离的获取过程包括:
[0033]获取所述正样本语句的语句表示特征和所述负样本语句的语句表示特征之间的相似度;
[0034]将所述相似度作为所述正负样本距离。
[0035]第二方面,本申请实施例提供了一种结构化信息提取方法,包括:
[0036]获取待结构化语句;
[0037]提取所述待结构化语句的语句表示特征和字表示特征;
[0038]将所述待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得所述结构化信息提取模型输出的结构化信息,其中,所述结构化信息包括所述待结构化语句对应的预测语句类别、所述待结构化语句中包含的实体和所述实体对应的预测实体类别;
[0039]其中,所述结构化信息提取模型为采用第一方面所述的方法构建得到。
[0040]可选地,所述将所述待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型,获得所述结构化信息提取模型输出的结构化信息,包括:
[0041]将所述待结构化语句的语句表示特征和字表示特征,输入至预先训练的结构化信息提取模型;
[0042]所述结构化信息提取模型根据所述待结构化语句的语句表示特征,计算所述待结构化语句属于每个语句类别的概率;
[0043]所述结构化信息提取模型根据所述待结构化语句属于每个语句类别的概率,确定所述待结构化语句对应的预测语句类别;
[0044]所述结构化信息提取模型根据所述待结构化语句的字表示特征,通过BIO标注,获得所述待结构化语句中包含的实体;
[0045]所述结构化信息提取模型根据所述实体对应的字表示特征,计算所述实体属于每个实体类别的概率;
[0046]所述结构化信息提取模型根据所述实体属于每个实体类别的概率,确定所述实体对应的预测实体类别;
[0047]所述结构化信息提取模型将所述待结构化语句对应的预测语句类别、所述待结构化语句中包含的实体和所述实体对应的预测实体类别输出。
[0048]第三方面,本申请实施例提供了一种结构化信息提取模型构建装置,包括:
[0049]第一获取模块,用于获取样本集合,其中,所述样本集合包括每个语句类别对应的正样本语句和负样本语句,所述正样本语句的真实语句类别为所述正样本语句对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构化信息提取模型构建方法,其特征在于,包括:获取样本集合,其中,所述样本集合包括每个语句类别对应的正样本语句和负样本语句,所述正样本语句的真实语句类别为所述正样本语句对应的语句类别,所述负样本语句的真实语句类别和所述负样本语句对应的语句类别不同,且所述负样本语句被初始结构化信息提取模型识别为所述正样本语句对应的语句类别;提取所述样本集合中每条样本的语句表示特征和字表示特征;将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至所述初始结构化信息提取模型,进行训练,获得结构化信息提取模型。2.根据权利要求1所述的结构化信息提取模型构建方法,其特征在于,所述获取样本集合,包括:获取初始样本集合,所述初始样本集合包括初始样本语句和所述初始样本语句的真实语句类别;提取所述初始样本集合中每条样本的语句表示特征;将所述初始样本集合中每条样本的所述语句表示特征,输入至所述初始结构化信息提取模型,获得所述初始结构化信息提取模型输出的所述初始样本语句对应的预测语句类别;比较所述初始样本语句的真实语句类别和所述初始样本语句对应的预测语句类别,获得比较结果;若所述比较结果为所述真实语句类别和所述预测语句类别相同,则将所述初始样本语句作为所述预测语句类别对应的所述正样本语句;若所述比较结果为所述真实语句类别和所述预测语句类别不同,则将所述初始样本语句作为所述预测语句类别对应的所述负样本语句。3.根据权利要求2所述的结构化信息提取模型构建方法,其特征在于,所述获取初始样本集合,包括:获取原始文本;将所述原始文本按照标点符号划分为至少两个原始语句;从至少两个所述原始语句中,通过文本匹配,查找到至少两个初始语句;将至少两个所述初始语句的文本格式统一,获得所述初始样本语句;获取所述初始样本语句的真实语句类别。4.根据权利要求3所述的结构化信息提取模型构建方法,其特征在于,所述从至少两个所述原始语句中,通过文本匹配,查找到至少两个初始语句,包括:从至少两个所述原始语句中,查找数字文本,包含所述数字文本的所述原始语句作为所述初始语句;和/或从至少两个所述原始语句中,查找特殊符号,包含所述特殊符号的所述原始语句作为所述初始语句;和/或从至少两个所述原始语句中,查找预设句式,包含所述预设句式的所述原始语句作为所述初始语句。
5.根据权利要求1至4任一项所述的结构化信息提取模型构建方法,其特征在于,所述将所述样本集合中每条样本的所述语句表示特征和所述字表示特征,输入至初始结构化信息提取模型,进行训练,获得结构化信息提取模型,包括:根据所述样本集合中每条样本的所述语句表示特征和所述字表示特征,获取损失,其中,所述损失包括正负样本距离,所述损失和所述正负样本距离成正相关;根...

【专利技术属性】
技术研发人员:王宝岩杨悦
申请(专利权)人:万翼科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1