文书的语义标签抽取、装置、电子设备及可读存储介质制造方法及图纸

技术编号:25637856 阅读:10 留言:0更新日期:2020-09-15 21:30
本申请公开了文书的语义标签抽取、装置、电子设备及可读存储介质,涉及知识图谱、自然语言处理、深度学习领域。具体实现方案为:获取待抽取语义标签的目标文书;将所述目标文书输入目标抽取模型中,得到所述目标文书的语义标签,所述目标抽取模型通过对初始抽取模型进行训练得到,所述初始抽取模型用于执行语义标签识别任务以及角色信息识别任务,所述语义标签识别任务的结果和所述角色信息识别任务的结果用于调整所述初始抽取模型的参数;输出所述目标文书的语义标签。该方法能够使得语义标签的准确率高。

【技术实现步骤摘要】
文书的语义标签抽取、装置、电子设备及可读存储介质
本申请实施例涉及计算机领域中的深度学习技术,尤其涉及一种文书的语义标签抽取、装置、电子设备及可读存储介质。
技术介绍
法律文书中蕴含着丰富的知识,通过对法律文书的知识进行正确的归纳和抽取,能够加深对法律文书的理解,从而在检索相关性、推荐及辅助庭审等应用场景中发挥重要的作用。其中,归纳法律文书的语义标签,是一种重要的法律文书知识归纳和抽取方式。示例性的,对于“张三驾驶车辆A在路口发生交通事故”,可以将其归纳为“侵权人驾驶机动车”这一语义标签。现有技术中,可以通过多分类的方式抽取法律文书的语义标签。具体的,将每个语义标签作为分类目标,通过机器学习计算原文分类到每个语义标签的概率,所有语义标签的概率之和为1,将概率最高的一个或多个语义标签作为原文的语义标签。但是,使用现有技术的方法可能导致所抽取出的语义标签的准确率较低。
技术实现思路
本申请提供了一种文书的语义标签抽取、装置、电子设备及可读存储介质。根据本申请的一方面,提供了一种文书的语义标签抽取方法,包括:获取待抽取语义标签的目标文书;将所述目标文书输入目标抽取模型中,得到所述目标文书的语义标签,所述目标抽取模型通过对初始抽取模型进行训练得到,所述初始抽取模型用于执行语义标签识别任务以及角色信息识别任务,所述语义标签识别任务的结果和所述角色信息识别任务的结果用于调整所述初始抽取模型的参数;输出所述目标文书的语义标签。根据本申请的另一方面,提供了一种文书的语义标签抽取装置,包括:获取模块,用于获取待抽取语义标签的目标文书;处理模块,用于将所述目标文书输入目标抽取模型中,得到所述目标文书的语义标签,所述目标抽取模型通过对初始抽取模型进行训练得到,所述初始抽取模型用于执行语义标签识别任务以及角色信息识别任务,所述语义标签识别任务的结果和所述角色信息识别任务的结果用于调整所述初始抽取模型的参数;输出模块,用于输出所述目标文书的语义标签。根据本申请的另一方面,提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的方法。根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。根据本申请的技术,将目标文书输入目标抽取模型后,可以得到目标文书的语义标签,该目标抽取模型是由初始抽取模型训练得到的,该初始抽取模型包括语义标签识别任务和角色信息识别任务,这两个任务的执行结果能够用来调整初始抽取模型的参数,而语义标签识别任务和角色信息识别任务是基于模型的参数执行的。因此,由于加入了角色信息识别这一任务,使得角色识别任务对模型的参数产生影响,进而,对基于该模型的参数执行的语义标签识别任务的执行结果产生影响,即使得模型在识别文书的语义标签时能够结合角色信息来识别。因此,训练得到的目标抽取模型抽取输入的目标文书的语义标签时,能够结合角色信息来识别,因此,能够使得语义标签的准确率高。另外,本实施例仅需要使用一个目标抽取模型即可完成对特定领域的所有语义标签的抽取,因此,相比于现有技术,还能够极大降低计算和存储的成本。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请实施例提供的文书的语义标签抽取方法的一种示例性的系统架构图;图2为本申请实施例提供的文书的语义标签抽取方法的流程示意图;图3为本申请实施例提供的文书的语义标签抽取方法的流程示意图;图4为本申请实施例提供的文书的语义标签抽取方法的流程示意图;图5为将训练文书输入初始抽取模型后得到语义标签识别任务的结果以及角色信息识别任务的结果的处理示意图;图6为本申请实施例提供的一种文书的语义标签抽取装置的模块结构图;图7是根据本申请实施例的文书的语义标签抽取的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。现有技术中可以通过多分类的方式抽取法律文书的语义标签。具体是将每个语义标签作为分类目标,通过机器学习计算原文分类到每个语义标签的概率,所有语义标签的概率之和为1,将概率最高的一个或多个语义标签作为原文的语义标签。现有技术的方法至少存在如下两个问题。第一,在抽取语义标签时,未考虑角色信息,可能会导致所抽取出的语义标签不准确。因此,使用现有技术的方法可能导致语义标签的准确率较低。例如,某个法律文书的原文为“张三驾驶车辆A在路口发生交通事故”,现有技术中未考虑“张三”的角色信息,因此抽取到的语义标签为“侵权人驾驶机动车”,但实际上“张三”的角色为受害人,即原文的正确语义标签应该为“受害人驾驶机动车”,因此,现有技术抽取的语义标签可能不准确。第二,可能导致存储和计算成本过高。现有技术将每个语义标签作为分类目标,因此,每个语义标签均需要一个模型进行判断。例如,对于100个语义标签,需要训练100个模型,每个模型用于识别特定的一个语义标签。实际应用中,语义标签的数量可能较多。语义标签的数量越多,则需要的模型越多,相应的,模型的计算和存储的成本越高。因此,使用现有技术的方法还可能导致模型的计算和存储成本过高。考虑到现有技术中通过多分类方式抽取法律文书的语义标签所导致的语义标签准确率低以及计算和存储成本过高的问题,本申请实施例通过构建支持多任务的目标抽取模型,使得模型在识别文书的语义标签时能够结合角色信息,即将角色信息纳入语义标签识别过程中的影响因素,从而极大提升语义标签的准确率。同时,仅需要一个模型即可实现对所有语义标签的识别,因此,还可以极大降低模型的计算和存储成本。图1为本申请实施例提供的文书的语义标签抽取方法的一种示例性的系统架构图,如图1所示,本申请实施例的方法涉及初始抽取模型和目标抽取模型。这两个模型的关系为:首先构建初始抽取模型,利用预先标注的数据训练该初始抽取模型,在初始抽取模型中执行语义标签识别任务和角色信息识别任务,根据两个任务的执行结果更新初始抽取模型的参数。当初始抽取模型训练完成后,将训练后的初始抽取模型作为上述目标抽取模型。该目标抽取模型进而可以用于本申请实施例的语义标签抽取的方法中。在具体实施过程中,上述初始抽取模型和目标抽取模型可以运行在同一电子设备上,例如,训练上述初始抽取模型以得到上述目标抽取本文档来自技高网...

【技术保护点】
1.一种文书的语义标签抽取方法,包括:/n获取待抽取语义标签的目标文书;/n将所述目标文书输入目标抽取模型中,得到所述目标文书的语义标签,所述目标抽取模型通过对初始抽取模型进行训练得到,所述初始抽取模型用于执行语义标签识别任务以及角色信息识别任务,所述语义标签识别任务的结果和所述角色信息识别任务的结果用于调整所述初始抽取模型的参数;/n输出所述目标文书的语义标签。/n

【技术特征摘要】
1.一种文书的语义标签抽取方法,包括:
获取待抽取语义标签的目标文书;
将所述目标文书输入目标抽取模型中,得到所述目标文书的语义标签,所述目标抽取模型通过对初始抽取模型进行训练得到,所述初始抽取模型用于执行语义标签识别任务以及角色信息识别任务,所述语义标签识别任务的结果和所述角色信息识别任务的结果用于调整所述初始抽取模型的参数;
输出所述目标文书的语义标签。


2.根据权利要求1所述的方法,所述将所述目标文书输入目标抽取模型中,得到所述目标文书的语义标签之前,还包括:
将预先标注的训练文书输入所述初始抽取模型,得到初始抽取模型的语义标签识别任务的结果以及所述角色信息识别任务的结果;
根据所述训练文书的标注信息、所述初始抽取模型当前的参数、所述语义标签识别任务的结果以及所述角色信息识别任务的结果,调整所述初始抽取模型当前的参数。


3.根据权利要求2所述的方法,其中,所述根据所述训练文书的标注信息、所述初始抽取模型当前的参数、所述语义标签识别任务的结果以及所述角色信息识别任务的结果,调整所述初始抽取模型当前的参数,包括:
根据所述训练文书的标注信息、所述初始抽取模型当前的参数以及所述语义标签识别任务的结果,确定所述语义标签识别任务的损失信息;
根据所述训练文书的标注信息、所述初始抽取模型当前的参数以及所述角色信息识别任务的结果,确定所述角色信息识别任务的损失信息;
根据所述语义标签识别任务的损失信息以及所述角色信息识别任务的损失信息,调整所述初始抽取模型当前的参数。


4.根据权利要求3所述的方法,其中,所述根据所述语义标签识别任务的损失信息以及所述角色信息识别任务的损失信息,调整所述初始抽取模型当前的参数,包括:
将所述语义标签识别任务的损失信息与角色损失信息相加,得到所述初始抽取模型的损失信息,所述角色损失信息为所述角色信息识别任务的损失信息与预设权重值的乘积;
使用所述初始抽取模型的损失信息,调整所述初始抽取模型当前的参数。


5.根据权利要求4所述的方法,其特征在于,所述预设权重值为大于0且小于1的数值。


6.根据权利要求2-5任一项所述的方法,其中,所述将预先标注的训练文书输入所述初始抽取模型,得到初始抽取模型的语义标签识别任务的结果以及所述角色信息识别任务的结果,包括:
将所述训练文书输入所述初始抽取模型,由所述初始抽取模型生成所述初始抽取模型待学习的参数个数以及表征所述训练文书的向量,并以所述训练文书的向量和基于所述参数个数所得到的所述初始抽取模型当前的参数,分别作为所述语义标签识别任务的输入信息以及所述角色信息识别任务的输入信息,执行所述语义标签识别任务以及所述角色信息识别任务,得到所述语义标签识别任务的结果以及所述角色信息识别任务的结果。


7.根据权利要求6所述的方法,其中,所述由所述初始抽取模型生成所述初始抽取模型待学习的参数个数以及表征所述训练文书的向量,包括:
由所述初始抽取模型使用第一网络生成所述待学习的参数个数以及表征所述训练文书的向量集合,所述向量集合包括至少一个向量,每个向量对应至少一个子参数,各向量的子参数之和为所述待学习的参数个数。


8.根据权利要求7所述的方法,其中,所述第一网络为长短期记忆网络LSTM。

【专利技术属性】
技术研发人员:杨天行彭彬杨晨张一麟宋勋超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1