模型训练方法、信息抽取方法、装置、电子设备及介质制造方法及图纸

技术编号:38162744 阅读:6 留言:0更新日期:2023-07-13 09:36
本发明专利技术提供了一种模型训练方法、信息抽取方法、装置、电子设备及介质,涉及信息处理技术领域。方法包括:获取由多个样本电子卷宗构成的样本数据集,确定每个样本电子卷宗对应的关键要素表,并确定每个样本电子卷宗的对应的文本格式数据。根据关键要素表,对样本电子卷宗的文本格式数据进行标注,获得携带标签信息的样本电子卷宗的文本格式数据,并根据携带标签信息的样本电子卷宗的文本格式数据,构建样本数据库。根据样本数据库,对初始信息抽取模型进行训练,以获得目标信息抽取模型。在本申请中,通过具有较高抽取准确率的目标信息抽取模型,来对含有大量文本信息的电子卷宗进行信息抽取,进而减少人工工作量,并提高信息抽取的准确率。准确率。准确率。

【技术实现步骤摘要】
模型训练方法、信息抽取方法、装置、电子设备及介质


[0001]本专利技术涉及信息处理
,尤其涉及一种模型训练方法、信息抽取方法、模型训练装置、信息抽取装置、电子设备及计算机存储介质。

技术介绍

[0002]随着多媒体技术的发展,电子卷宗数据的呈现方式已包括图像、文本、视频和音频等多种媒体格式,信息抽取其实在知识图谱领域就是知识抽取,形式如输入一个句子,通过实体识别和关系抽取联合模型,直接得到有关系的实体三元组,而对于信息抽取的方法,随着深度学习的发展,以深度学习的联合抽取方法得到极大发展,总体上分为两类:基于共享参数的联合抽取模型和基于联合解码的联合抽取模型。
[0003]相关技术中,基于共享参数的联合抽取模型和基于联合解码的联合抽取模型的准确率直接与要素信息抽取结果相关,同时信息抽取模型直接用于整个文本信息抽取效果低,并且关系抽取、事件抽取中信息冗余也对信息抽取造成负面影响,因此对含有大量信息的文本信息抽取效果较差。

技术实现思路

[0004]本专利技术实施例提供一种模型训练方法、信息抽取方法、装置、电子设备及介质,旨在解决或者部分解决
技术介绍
中存在的问题。
[0005]为了解决上述技术问题,本专利技术是这样实现的:
[0006]第一方面,本专利技术实施例提供了一种模型训练方法,方法包括:
[0007]获取由多个样本电子卷宗构成的样本数据集;
[0008]确定每个所述样本电子卷宗对应的关键要素表,并确定每个所述样本电子卷宗的对应的文本格式数据;
[0009]根据所述关键要素表,对样本电子卷宗的文本格式数据进行标注,获得携带标签信息的样本电子卷宗的文本格式数据;
[0010]根据所述携带标签信息的样本电子卷宗的文本格式数据,构建样本数据库;
[0011]根据所述样本数据库,对初始信息抽取模型进行训练,以获得目标信息抽取模型。
[0012]可选地,所述确定每个所述样本电子卷宗的对应的文本格式数据的步骤,包括:
[0013]确定所述样本电子卷宗的对应的文件格式;
[0014]根据所述样本电子卷宗的对应的文件格式,对所述样本电子卷宗进行格式转换处理,生成所述样本电子卷宗的文本格式数据,并确定所述文本格式数据的字符储存位置。
[0015]可选地,所述关键要素表包含多个关键要素,所述根据所述关键要素表,对样本电子卷宗的文本格式数据进行标注,获得携带标签信息的样本电子卷宗的文本格式数据的步骤,包括:
[0016]根据每个所述关键要素对应的要素信息的字符储存位置,在所述样本电子卷宗的文本格式数据进行自动标注,以生成对应的标注框和注释内容。
[0017]可选地,根据所述携带标签信息的样本电子卷宗的文本格式数据,构建样本数据库的步骤,包括:
[0018]对所述携带标签信息的样本电子卷宗的文本格式数据,按句进行信息抽取,以获得至少一个待选信息抽取结果;
[0019]根据所述信息抽取结果中含有的信息量的大小,对所述待选信息抽取结果进行筛选,以获得目标信息结果;
[0020]确定所述样本数据库中样本示例对应的组织和结构,并将所述目标信息结果以及所述目标信息结果对应的文本格式数据,按照所述样本示例对应的组织和结构进行整合,生成所述样本数据库的样本示例。
[0021]可选地,所述根据所述样本数据库,对初始信息抽取模型进行训练,以获得目标信息抽取模型步骤,包括:
[0022]将所述样本数据库中的样本示例划分为训练数据集和验证数据集;
[0023]根据所述训练数据集,对初始信息抽取模型进行训练,以对所述初始信息抽取模型进行调整,以获得所述优化后的信息抽取模型;
[0024]根据所述验证数据集,评估所述优化后的信息抽取模型的信息提取准确率;
[0025]根据所述信息提取准确率与预设阈值的大小关系,确定所述目标信息抽取模型。
[0026]可选地,所述根据所述信息提取准确率与预设阈值的大小关系,确定所述目标信息抽取模型的步骤,包括:
[0027]在所述优化后的信息抽取模型的信息提取准确率大于或等于预设阈值的情况下,将所述优化后的信息抽取模型确定为所述目标信息抽取模型;
[0028]在所述优化后的信息抽取模型的信息提取准确率小于预设阈值的情况下,继续执行所述根据所述训练数据集,对初始信息抽取模型进行训练,以对所述初始信息抽取模型进行调整,以获得所述优化后的信息抽取模型的步骤。
[0029]第二方面,本专利技术实施例提供了一种信息抽取方法,方法包括:
[0030]获取待处理的电子卷宗,并确定所述待处理的电子卷宗对应的关键要素表;
[0031]将所述待处理的电子卷宗和所述关键要素表输入到目标信息抽取模型中,得到待处理的电子卷宗对应的信息抽取结果,所述目标信息抽取模型根据本申请第一方面任意一项所述的模型训练方法训练得到。
[0032]第三方面,本专利技术实施例提供了一种模型训练装置,装置包括:
[0033]获取模块,用于获取由多个样本电子卷宗构成的样本数据集;
[0034]确定模块,用于确定每个所述样本电子卷宗对应的关键要素表,并确定每个所述样本电子卷宗的对应的文本格式数据;
[0035]标注模块,用于根据所述关键要素表,对样本电子卷宗的文本格式数据进行标注,获得携带标签信息的样本电子卷宗的文本格式数据;
[0036]数据库构建模块,根据所述携带标签信息的样本电子卷宗的文本格式数据,构建样本数据库;
[0037]训练模块,根据所述样本数据库,对初始信息抽取模型进行训练,以获得目标信息抽取模型。
[0038]可选的,确定模块包括:
[0039]文件格式确定子模块,用于确定所述样本电子卷宗的对应的文件格式;
[0040]文件格式转换子模块,用于根据所述样本电子卷宗的对应的文件格式,对所述样本电子卷宗进行格式转换处理,生成所述样本电子卷宗的文本格式数据,并确定所述文本格式数据的字符储存位置。
[0041]可选的,标注模块包括:
[0042]自动标注子模块,用于根据每个所述关键要素对应的要素信息的字符储存位置,在所述样本电子卷宗的文本格式数据进行自动标注,以生成对应的标注框和注释内容。
[0043]可选的,数据库构建模块包括:
[0044]信息抽取子模块,用于对所述携带标签信息的样本电子卷宗的文本格式数据,按句进行信息抽取,以获得至少一个待选信息抽取结果;
[0045]信息筛选子模块,用于根据所述信息抽取结果中含有的信息量的大小,对所述待选信息抽取结果进行筛选,以获得目标信息结果;
[0046]样本示例生成子模块,用于确定所述样本数据库中样本示例对应的组织和结构,并将所述目标信息结果以及所述目标信息结果对应的文本格式数据,按照所述样本示例对应的组织和结构进行整合,生成所述样本数据库的样本示例。
[0047]可选的,训练模块,包括:
[0048]数据集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取由多个样本电子卷宗构成的样本数据集;确定每个所述样本电子卷宗对应的关键要素表,并确定每个所述样本电子卷宗的对应的文本格式数据;根据所述关键要素表,对样本电子卷宗的文本格式数据进行标注,获得携带标签信息的样本电子卷宗的文本格式数据;根据所述携带标签信息的样本电子卷宗的文本格式数据,构建样本数据库;根据所述样本数据库,对初始信息抽取模型进行训练,以获得目标信息抽取模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述确定每个所述样本电子卷宗的对应的文本格式数据的步骤,包括:确定所述样本电子卷宗的对应的文件格式;根据所述样本电子卷宗的对应的文件格式,对所述样本电子卷宗进行格式转换处理,生成所述样本电子卷宗的文本格式数据,并确定所述文本格式数据的字符储存位置。3.根据权利要求1所述的模型训练方法,其特征在于,所述关键要素表包含多个关键要素,根据所述关键要素表,对样本电子卷宗的文本格式数据进行标注,获得携带标签信息的样本电子卷宗的文本格式数据的步骤,包括:根据每个所述关键要素对应的要素信息的字符储存位置,在所述样本电子卷宗的文本格式数据进行自动标注,以生成对应的标注框和注释内容。4.根据权利要求1所述的模型训练方法,其特征在于,根据所述携带标签信息的样本电子卷宗的文本格式数据,构建样本数据库的步骤,包括:对所述携带标签信息的样本电子卷宗的文本格式数据,按句进行信息抽取,以获得至少一个待选信息抽取结果;根据所述信息抽取结果中含有的信息量的大小,对所述待选信息抽取结果进行筛选,以获得目标信息结果;确定所述样本数据库中样本示例对应的组织和结构,并将所述目标信息结果以及所述目标信息结果对应的文本格式数据,按照所述样本示例对应的组织和结构进行整合,生成所述样本数据库的样本示例。5.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述样本数据库,对初始信息抽取模型进行训练,以获得目标信息抽取模型步骤,包括:将所述样本数据库中的样本示例划分为训练数据集和验证数据集;根据所述训练数据集,对初始信息抽取模型进行训练,以对所述初始信息抽取模型进行调整,以获得所述优化后的信息抽取模型;根据所述验证数据集,评估所述优化后的信息...

【专利技术属性】
技术研发人员:冯喆林谢福进喻波王志海刘继通
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1