信息抽取装置、电子设备、存储介质和相关方法制造方法及图纸

技术编号:37183123 阅读:20 留言:0更新日期:2023-04-20 22:48
本申请实施例提供了一种信息抽取装置、电子设备、存储介质和相关方法,信息抽取方法包括:对输入文本进行编码,获得特征序列,其中,所述特征序列用于指示所述输入文本中至少一个文本片段所属的文本片段类型;获取抽取框架,其中,所述抽取框架包括至少一个用于指示文本片段类型的类型信息;根据所述抽取框架对所述特征序列进行解码,获得所述抽取框架对应的信息抽取结果。本方案能够提高信息抽取的效率。率。率。

【技术实现步骤摘要】
信息抽取装置、电子设备、存储介质和相关方法


[0001]本申请实施例涉及数据处理
,尤其涉及一种信息抽取装置、电子设备、存储介质和相关方法。

技术介绍

[0002]通用信息抽取(Universal Information Extraction,UIE)是一种按照特定的抽取框架(schema),从给定的一组自由文本中抽取出符合抽取需求的信息结构的技术,所抽取出的信息结构包括实体、关系、事件和观点等。对于同一输入文本,按照不同的抽取框架进行信息抽取会抽取到不同的信息结构。
[0003]目前,针对不同的信息抽取任务对输入文本分别进行编码,进而对编码结果进行解码获得与信息抽取任务相对应的信息结构。比如,针对同一输入文本执行实体抽取任务、关系抽取任务和事件抽取任务时,需要分别针对实体抽取任务、关系抽取任务和事件抽取任务对该输入文本进行编码,然后对针对实体抽取任务的编码结果进行解码获得实体,对针对关系抽取任务的编码结果进行解码获得关系,对针对事件抽取任务的编码结果进行解码获得事件。
[0004]然而,针对同一输入文本执行不同的信息抽取任务时,需要反复对输入文本进行编码,导致信息抽取的效率较低。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种信息抽取装置、电子设备、存储介质和相关方法,以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面,提供了一种信息抽取方法,包括:对输入文本进行编码,获得特征序列,其中,所述特征序列用于指示所述输入文本中至少一个文本片段所属的文本片段类型;获取抽取框架,其中,所述抽取框架包括至少一个用于指示文本片段类型的类型信息;根据所述抽取框架,对所述特征序列进行解码,获得所述抽取框架对应的信息抽取结果。
[0007]根据本申请实施例的第二方面,提供了一种信息抽取装置,包括:编码器,用于对输入文本进行编码,获得特征序列,其中,所述特征序列用于指示所述输入文本中至少一个文本片段所属的文本片段类型;解码器,用于获取抽取框架,并根据所述抽取框架对所述特征序列进行解码,获得所述抽取框架对应的信息抽取结果,其中,所述抽取框架包括至少一个用于指示文本片段类型的类型信息。
[0008]根据本申请实施例的第三方面,提供了一种模型训练方法,用于对信息抽取模型进行训练,所述信息抽取模型包括编码器和解码器,所述编码器用于对输入文本进行编码获得特征序列,所述特征序列用于指示所述输入文本中至少一个文本片段所属的文本片段类型,所述解码器用于获取抽取框架,并根据所述抽取框架对所述特征序列进行解码,获得所述抽取框架对应的信息抽取结果,所述抽取框架包括至少一个用于指示文本片段类型的
类型信息,所述模型训练方法包括:通过所述编码器对样本文本进行编码,获得样本特征序列;通过所述解码器根据所述样本文本对应的抽取框架,对所述样本特征序列进行解码,获得样本信息抽取结果,其中,所述样本信息抽取结果包括来自所述样本文本的文本片段,及用于指示文本片段所属的文本片段类型的类型信息;根据所述样本信息抽取结果包括的文本片段,计算损失值;根据所述损失值对所述编码器和所述解码器的模型参数进行调整。
[0009]根据本申请实施例的第四方面,提供了一种信息抽取方法,应用于信息抽取系统包括的服务端,所述信息抽取方法包括:接收所述信息抽取系统包括的客户端发送的输入文本;通过编码器对所述输入文本进行编码获得特征序列,其中,所述特征序列用于指示所述输入文本中至少一个文本片段所属的文本片段类型;通过解码器根据获取到的抽取框架对所述特征序列进行解码,获得所述抽取框架对应的信息抽取结果,其中,所述抽取框架包括至少一个用于指示文本片段类型的类型信息;将所述抽取结果发送给所述客户端,以供所述客户端对所述抽取结果进行显示。
[0010]根据本申请实施例的第五方面,提供了一种信息抽取方法,应用于信息抽取系统包括的客户端,所述信息抽取方法包括:将待进行信息抽取的输入文本发送给所述信息抽取系统包括的服务端,以使所述服务端通过编码器对所述输入文本进行编码获得特征序列、并通过解码器根据获取到的抽取框架对所述特征序列进行解码、获得所述抽取框架对应的信息抽取结果,其中,所述特征序列用于指示所述输入文本中至少一个文本片段所属的文本片段类型,所述抽取框架包括至少一个用于指示文本片段类型的类型信息;接收所述服务端发送的所述抽取结果;对所述抽取结果进行显示。
[0011]根据本申请实施例的第六方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行上述第一方面、第三方面、第四方面或第五方面所述方法对应的操作。
[0012]根据本申请实施例的第七方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面、第三方面、第四方面或第五方面所述的方法。
[0013]由上述技术方案可知,对输入文本进行编码,获得可以指示输入文本中文本片段所属文本片段类型的特征序列,然后可以根据不同的抽取框架分别对特征序列进行解码,获得不同抽取框架对应的信息抽取结果。由此可见,不同的抽取框架对应不同的信息抽取任务,根据不同的抽取框架分别对编码结果进行解码,即将提示前缀放在解码过程中,执行不同的信息抽取任务时可以统一对输入文本进行编码,减少了对输入文本进行编码的次数,从而可以提高信息抽取的效率。
附图说明
[0014]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0015]图1是本申请一个实施例所应用示例性系统的示意图;
[0016]图2是本申请一个实施例的信息抽取方法的流程图;
[0017]图3是本申请一个实施例的抽取框架的示意图;
[0018]图4是本申请另一个实施例的抽取框架的示意图;
[0019]图5是本申请一个实施例的信息抽取过程的示意图;
[0020]图6是本申请一个实施例的信息抽取装置的示意图;
[0021]图7是本申请一个实施例的模型训练方法的流程图;
[0022]图8是本申请一个实施例的信息抽取系统的示意图;
[0023]图9是本申请一个实施例的应用于服务端的信息抽取方法的流程图;
[0024]图10是本申请一个实施例的应用于客户端的信息抽取方法的流程图;
[0025]图11是本申请一个实施例的电子设备的示意图。
具体实施方式
[0026]以下基于实施例对本申请进行描述,但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质,公知的方法、过程、流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法,包括:对输入文本进行编码,获得特征序列,其中,所述特征序列用于指示所述输入文本中至少一个文本片段所属的文本片段类型;获取抽取框架,其中,所述抽取框架包括至少一个用于指示文本片段类型的类型信息;根据所述抽取框架,对所述特征序列进行解码,获得所述抽取框架对应的信息抽取结果。2.根据权利要求1所述的方法,其中,所述抽取框架为树状结构,所述树状结构包括一个根节点和至少一个叶子节点,所述叶子节点与所述根节点之间包括至少一个子节点,所述根节点为序列开始标识符,所述叶子节点为序列结束标识符,所述子节点包括所述类型信息。3.根据权利要求2所述的方法,其中,所述根据所述抽取框架,对所述特征序列进行解码,获得所述抽取框架对应的信息抽取结果,包括:根据所述抽取框架中第1级子节点包括的所述类型信息,对所述特征序列进行解码,从所述输入文本中抽取该第1级子节点对应的文本片段;根据所述抽取框架中第i级子节点包括的所述类型信息,及该第i级子节点的至少一个上级子节点对应的文本片段,对所述特征序列进行解码,从所述输入文本中抽取所述第i级子节点对应的文本片段,其中,i为大于或等于2的正整数;根据所述抽取框架中所述子节点的连接关系及对应的文本片段,生成所述抽取框架对应的信息抽取结果。4.根据权利要求3所述的方法,其中,所述方法还包括:若所述输入文本中未包括属于第1级子节点包括的所述类型信息指示的文本片段类型的文本片段,则确定所述第1级子节点对应的文本片段为空;若根据第i级子节点的至少一个上级子节点对应的文本片段,确定所述输入文本中未包括属于所述第i级子节点包括的所述类型信息指示的文本片段类型的文本片段,则确定所述第i级子节点对应的文本片段为空。5.根据权利要求4所述的方法,其中,所述方法还包括:若与所述第i级子节点相连接的第i

1级子节点对应的文本片段被确定为空,则确定所述第i级子节点对应的文本片段为空。6.根据权利要求5所述的方法,其中,所述根据所述抽取框架中所述子节点的连接关系及对应的文本片段,生成所述抽取框架对应的信息抽取结果,包括:从所述子节点中确定对应的文本片段不为空的目标子节点;根据所述抽取框架中所述子节点的连接关系,若所述叶子节点与所述根节点之间存在至少一个所述目标子节点,则根据该叶子节点与所述根节点之间所述目标子节点对应的文本片段,生成该叶子节点对应的信息结构;生成包括所述信息结构的所述信息抽取结果。7.根据权利要求6所述的方法,其中,所述根据该叶子节点与所述根节点之间所述目标子节点对应的文本片段,生成该叶子节点对应的信息结构,包括:对该叶子节点与所述根节点之间至少一个所述目标子节点包括的所述类型信息,及该叶子节点与所述根节点之间的所述目标子节点对应的文本片段进行组合,获得该叶子节点
对应的信息结构。8.一种信息抽取装置,包括:编码器,用于对输入文本进行编码,获得特征序列,其中,所述特征序列用于指示所述输入文本中至少一个文本片段所属的文本片段类型;解码器,用于获取抽取框架,并根...

【专利技术属性】
技术研发人员:赵富邦康杨杨孙常龙
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1