信息抽取模型的训练方法及装置制造方法及图纸

技术编号:33508739 阅读:15 留言:0更新日期:2022-05-19 01:17
本申请提供信息抽取模型的训练方法及装置,其中所述信息抽取模型的训练方法包括:获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;若否,根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。继续训练信息抽取模型。继续训练信息抽取模型。

【技术实现步骤摘要】
信息抽取模型的训练方法及装置


[0001]本申请涉及机器学习
,特别涉及信息抽取模型的训练方法及装置。

技术介绍

[0002]在现有技术中,对于不同事件或同一事件不同维度的信息抽取难度是不同的,对于一些简单类别的信息抽取往往只需要一小部分数据,就可以训练出很高准确率的信息抽取模型,然而,对于一些复杂事件或同一事件的复杂维度的信息抽取难度较高,并且为了使得信息抽取模型在复杂事件的信息抽取上能够达到很高的准确率,往往需要标注大量的数据,另外标注大量的数据不仅耗费人力和物力,还需要较长的时间才能够完成,因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种信息抽取模型的训练方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种信息抽取模型的训练装置,一种知识图谱构建方法,一种知识图谱构建装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种信息抽取模型的训练方法,包括:
[0005]获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;
[0006]根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;
[0007]将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;
[0008]若否,根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。
[0009]可选地,所述获取与目标维度匹配的训练文本信息和验证文本信息,包括:
[0010]在预设的文本数据库中提取设定数量与所述目标维度匹配的初始文本信息;
[0011]基于设定数量的所述初始文本信息,生成设定数量携带有类别标签的初始文本信息;
[0012]将设定数量携带有类别标签的初始文本信息划分为携带有类别标签的所述训练文本信息,以及携带有类别标签的验证文本信息。
[0013]可选地,所述根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,包括:
[0014]根据比较结果确定所述验证类别标签和所述验证文本信息携带的类别标签二者之间的区别类别标签;
[0015]对所述区别类别标签进行归类处理,根据归类处理结果选择目标类别标签;
[0016]将所述目标类别标签所属的识别维度确定为所述待调整识别维度。
[0017]可选地,所述对所述区别类别标签进行归类处理,根据归类处理结果选择目标类别标签,包括:
[0018]对所述区别类别标签进行归类处理,获得多个类别标签集合;
[0019]确定各个类别标签集合中包含的类别标签的标签数量,并选择标签数量大于预设数量阈值的类别标签集合确定所述目标类别标签。
[0020]可选地,所述训练文本信息为训练政务文本信息,所述训练政务文本信息包括下述至少一项子信息:
[0021]主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;
[0022]相应的,所述验证文本子信息为验证政务文本信息,所述验证政务文本信息包括下述至少一项子信息:
[0023]主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;
[0024]相应的,所述类别标签包括下述至少一项:姓名标签、性别标签、年龄标签、职位标签、会议名称标签。
[0025]可选地,所述根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,包括:
[0026]将所述训练文本信息转换为第一特征向量,作为所述信息抽取模型的输入,以及将所述训练文本信息携带的类别标签作为所述信息抽取模型的输出;
[0027]基于所述第一特征向量和所述训练文本信息携带的类别标签对所述信息抽取模型进行训练,获得验证信息抽取模型。
[0028]可选地,所述利用信息抽取模型处理所述验证文本信息,获得验证类别标签,包括:
[0029]将所述验证文本信息转换为第二特征向量,并将所述第二特征向量输入至所述验证信息抽取模型进行处理,获得所述验证文本信息对应的验证类别标签。
[0030]可选地,若所述根据比对结果判断信息抽取模型是否满足停止训练条件的判断结果为是,则执行如下步骤:
[0031]将信息抽取模型确定为目标信息抽取模型,并存储所述目标信息抽取模型。
[0032]可选地,所述将信息抽取模型确定为目标信息抽取模型,并存储所述目标信息抽取模型步骤执行之后,还包括:
[0033]获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
[0034]将结构化的文本信息输入至所述目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
[0035]基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
[0036]可选地,还包括:
[0037]将所述知识图谱以属性图的形式存储至图数据库,其中所述图数据库配置有调用接口。
[0038]可选地,还包括:
[0039]接收用户针对所述目标领域提交的查询信息;
[0040]确定所述查询信息对应的查询实体,以及与所述查询实体对应的查询关系;
[0041]基于所述查询实体和所述查询关系在所述知识图谱中确定目标实体,并将所述目标作为所述查询信息的反馈发送至所述用户。
[0042]根据本申请实施例的第二方面,提供了一种信息抽取模型的训练装置,包括:
[0043]获取模块,被配置为获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;
[0044]训练模块,被配置为根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;
[0045]比对模块,被配置为将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;
[0046]若否,运行确定模块,所述确定模块,被配置为根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。
[0047]根据本申请实施例的第三方面,提供了一种知识图谱构建方法,包括:
[0048]获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
[0049]将结构化的文本信息输入至满足训练停止条件的目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
[0050]基于所述文本信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息抽取模型的训练方法,其特征在于,包括:获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;若否,根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。2.根据权利要求1所述的信息抽取模型的训练方法,其特征在于,所述获取与目标维度匹配的训练文本信息和验证文本信息,包括:在预设的文本数据库中提取设定数量与所述目标维度匹配的初始文本信息;基于设定数量的所述初始文本信息,生成设定数量携带有类别标签的初始文本信息;将设定数量携带有类别标签的初始文本信息划分为携带有类别标签的所述训练文本信息,以及携带有类别标签的验证文本信息。3.根据权利要求1所述的信息抽取模型的训练方法,其特征在于,所述根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,包括:根据比较结果确定所述验证类别标签和所述验证文本信息携带的类别标签二者之间的区别类别标签;对所述区别类别标签进行归类处理,根据归类处理结果选择目标类别标签;将所述目标类别标签所属的识别维度确定为所述待调整识别维度。4.根据权利要求3所述的信息抽取模型的训练方法,其特征在于,所述对所述区别类别标签进行归类处理,根据归类处理结果选择目标类别标签,包括:对所述区别类别标签进行归类处理,获得多个类别标签集合;确定各个类别标签集合中包含的类别标签的标签数量,并选择标签数量大于预设数量阈值的类别标签集合确定所述目标类别标签。5.根据权利要求1所述的信息抽取模型的训练方法,其特征在于,所述训练文本信息为训练政务文本信息,所述训练政务文本信息包括下述至少一项子信息:主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;相应的,所述验证文本子信息为验证政务文本信息,所述验证政务文本信息包括下述至少一项子信息:主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;相应的,所述类别标签包括下述至少一项:姓名标签、性别标签、年龄标签、职位标签、会议名称标签。6.根据权利要求1所述的信息抽取模型的训练方法,其特征在于,所述根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,包括:将所述训练文本信息转换为第一特征向量,作为所述信息抽取模型的输入,以及将所
述训练文本信息携带的类别标签作为所述信息抽取模型的输出;基于所述第一特征向量和所述训练文本信息携带的类别标签对所述信息抽取模型进行训练,获得验证信息抽取模型。7.根据权利要求6所述的信息抽取模型的训练方法,其特征在于,所述利用信息抽取模型处理所述验证文本信息,获得验证类别标签,包括:将所述验证文本信息转换为第二特征向量,并将所述第二特征向量输入至所述验证信息抽取模型进行处理,获得所述验证文本信息对应的验证类别标签。8.根据权利要求1所述的信息抽取模型的训练方法,其特征在于,若所述根据比对结果判断信息抽取模型是否满足停止训练条件的判断结果为是,则执行如下步骤:将信息抽取模型确定为目标信息抽取模型,并存储所述目标信息抽取模型。9.根据权利要求8所述的信息抽取模型的训练方法,其特征在于,所述将信息抽取模型确定为目标信息抽...

【专利技术属性】
技术研发人员:朱自强李长亮汪美玲
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1