模型训练方法、信息抽取方法、装置、电子设备及介质制造方法及图纸

技术编号：38162744 阅读：6 留言：0更新日期：2023-07-13 09:36

本发明专利技术提供了一种模型训练方法、信息抽取方法、装置、电子设备及介质，涉及信息处理技术领域。方法包括：获取由多个样本电子卷宗构成的样本数据集，确定每个样本电子卷宗对应的关键要素表，并确定每个样本电子卷宗的对应的文本格式数据。根据关键要素表，对样本电子卷宗的文本格式数据进行标注，获得携带标签信息的样本电子卷宗的文本格式数据，并根据携带标签信息的样本电子卷宗的文本格式数据，构建样本数据库。根据样本数据库，对初始信息抽取模型进行训练，以获得目标信息抽取模型。在本申请中，通过具有较高抽取准确率的目标信息抽取模型，来对含有大量文本信息的电子卷宗进行信息抽取，进而减少人工工作量，并提高信息抽取的准确率。准确率。准确率。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、信息抽取方法、装置、电子设备及介质

[0001]本专利技术涉及信息处理
，尤其涉及一种模型训练方法、信息抽取方法、模型训练装置、信息抽取装置、电子设备及计算机存储介质。

技术介绍

[0002]随着多媒体技术的发展，电子卷宗数据的呈现方式已包括图像、文本、视频和音频等多种媒体格式，信息抽取其实在知识图谱领域就是知识抽取，形式如输入一个句子，通过实体识别和关系抽取联合模型，直接得到有关系的实体三元组，而对于信息抽取的方法，随着深度学习的发展，以深度学习的联合抽取方法得到极大发展，总体上分为两类：基于共享参数的联合抽取模型和基于联合解码的联合抽取模型。
[0003]相关技术中，基于共享参数的联合抽取模型和基于联合解码的联合抽取模型的准确率直接与要素信息抽取结果相关，同时信息抽取模型直接用于整个文本信息抽取效果低，并且关系抽取、事件抽取中信息冗余也对信息抽取造成负面影响，因此对含有大量信息的文本信息抽取效果较差。

技术实现思路

[0004]本专利技术实施例提供一种模型训练方法、信息抽取方法、装置、电子设备及介质，旨在解决或者部分解决
技术介绍
中存在的问题。
[0005]为了解决上述技术问题，本专利技术是这样实现的：
[0006]第一方面，本专利技术实施例提供了一种模型训练方法，方法包括：
[0007]获取由多个样本电子卷宗构成的样本数据集；
[0008]确定每个所述样本电子卷宗对应的关键要素表，并确定每个所述样本电子卷宗的对应的文本格式数据；
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取由多个样本电子卷宗构成的样本数据集；确定每个所述样本电子卷宗对应的关键要素表，并确定每个所述样本电子卷宗的对应的文本格式数据；根据所述关键要素表，对样本电子卷宗的文本格式数据进行标注，获得携带标签信息的样本电子卷宗的文本格式数据；根据所述携带标签信息的样本电子卷宗的文本格式数据，构建样本数据库；根据所述样本数据库，对初始信息抽取模型进行训练，以获得目标信息抽取模型。2.根据权利要求1所述的模型训练方法，其特征在于，所述确定每个所述样本电子卷宗的对应的文本格式数据的步骤，包括：确定所述样本电子卷宗的对应的文件格式；根据所述样本电子卷宗的对应的文件格式，对所述样本电子卷宗进行格式转换处理，生成所述样本电子卷宗的文本格式数据，并确定所述文本格式数据的字符储存位置。3.根据权利要求1所述的模型训练方法，其特征在于，所述关键要素表包含多个关键要素，根据所述关键要素表，对样本电子卷宗的文本格式数据进行标注，获得携带标签信息的样本电子卷宗的文本格式数据的步骤，包括：根据每个所述关键要素对应的要素信息的字符储存位置，在所述样本电子卷宗的文本格式数据进行自动标注，以生成对应的标注框和注释内容。4.根据权利要求1所述的模型训练方法，其特征在于，根据所述携带标签信息的样本电子卷宗的文本格式数据，构建样本数据库的步骤，包括：对所述携带标签信息的样本电子卷宗的文本格式数据，按句进行信息抽取，以获得至少一个待选信息抽取结果；根据所述信息抽取结果中含有的信息量的大小，对所述待选信息抽取结果进行筛选，以获得目标信息结果；确定所述样本数据库中样本示例对应的组织和结构，并将所述目标信息结果以及所述目标信息结果对应的文本格式数据，按照所述样本示例对应的组织和结构进行整合，生成所述样本数据库的样本示例。5.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述样本数据库，对初始信息抽取模型进行训练，以获得目标信息抽取模型步骤，包括：将所述样本数据库中的样本示例划分为训练数据集和验证数据集；根据所述训练数据集，对初始信息抽取模型进行训练，以对所述初始信息抽取模型进行调整，以获得所述优化后的信息抽取模型；根据所述验证数据集，评估所述优化后的信息...

【专利技术属性】
技术研发人员：冯喆林，谢福进，喻波，王志海，刘继通，
申请(专利权)人：北京明朝万达科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人