语义角色标注方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:31228359 阅读:11 留言:0更新日期:2021-12-08 09:39
本公开的实施例公开了语义角色标注方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:提取目标文本对应的词集中每个词在该目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集;提取该第一词向量集中每个第一词向量的该目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集;对该第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。该实施方式通过多次提取文本中各个词的上下文信息,可以提高文本语义标注的准确率。高文本语义标注的准确率。高文本语义标注的准确率。

【技术实现步骤摘要】
语义角色标注方法、装置、电子设备和计算机可读介质


[0001]本公开的实施例涉及计算机
,具体涉及语义角色标注方法、装置、电子设备和计算机可读介质。

技术介绍

[0002]目前,语义角色标注(Semantic Role Labeling,SRL)可以是以句子的谓词为中心,不对句子所包含的语义信息进行深入分析,而是对分析句子中各成分与谓词之间的关系。即句子的谓词(Predicate)-论元(Argument)结构,并用语义角色来描述这些结构关系,是许多自然语言理解任务(如信息抽取,篇章分析,深度问答等)的一个重要中间步骤。目前,在对文本进行语义角色标注时,通常采用的方式为:利用深度学习获取文本的特征,然后将特征结果输入至条件随机场中,通过条件随机场输出概率最大标签序列。
[0003]然而,当采用上述方式对文本进行语义角色标注时,经常会存在如下技术问题:
[0004]第一,在利用深度学习获取文本的特征时,不能很好的保留文本上下文信息。进而,影响了语义标注的结果。提取的文本上下文信息中存在部分冗余信息。
[0005]第二,不能有效的去除文本上下文信息中包含的很多冗余的信息,这些冗余的信息的存在会对文本处理的下游任务造成干扰。

技术实现思路

[0006]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0007]本公开的一些实施例提出了语义角色标注方法、装置、设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题。
[0008]第一方面,本公开的一些实施例提供了一种语义角色标注方法,该方法包括:提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集;提取上述第一词向量集中每个第一词向量的上述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集;对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。
[0009]可选的,提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集,包括:对上述目标文本对应词集中目标词进行遮挡操作,得到遮挡操作后的词集;对上述遮挡操作后的词集中的每个词进行词嵌入,以生成第三词向量,得到第三词向量集;对上述第三词向量集中的各个第三词向量进行编码,得到上述第一词向量集。
[0010]可选的,对上述第三词向量集中的各个第三词向量进行编码,得到上述第一词向量集,包括:将上述第三词向量集中各个第三词向量输入至预先训练的编码网络,得到上述第一词向量集,其中,上述编码网络包括至少一层编码层。
[0011]可选的,提取上述第一词向量集中每个第一词向量的上述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集,包括:将上述第一词向量集中的各个词向量输入至预先训练的双向门控循环单元网络,得到上述第二词向量集。
[0012]可选的,对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集,包括:将上述第二词向量集中各个词向量输入至预先训练的条件随机场,得到上述标注语义角色的词集。
[0013]可选的,编码层是通过以下步骤生成:将第四词向量集中各个第四词向量输入至自注意力层,得到第五词向量集;将上述第五词向量集输入至丢弃层,得到第六词向量集;将上述第四向量集中的每个第四向量与上述第六词向量集中对应的第六词向量输入至相加层以进行相加,以生成第七向量,得到第七向量集;将上述第七向量集输入至归一化层以进行归一化处理,得到第八向量集;将上述第八向量集输入至线性变换层,得到第九向量集;将上述第九词向量集输入至上述丢弃层,得到第十词向量集;将上述第八向量集中的每个第八向量与上述第十词向量集中对应的第十词向量输入至相加层以进行相加,以生成第十一向量,得到第十一向量集;将上述第十一向量集输入至上述归一化层以进行归一化处理,得到第十二向量集作为上述编码层的输出。
[0014]第二方面,本公开的一些实施例提供了一种语义角色标注装置,装置包括:第一提取单元,被配置成提取目标文本对应的词集中每个词在上述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集;第二提取单元,被配置成进一步提取上述第一词向量集中每个第一词向量对应的词在上述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集;语义角色标注单元,被配置成对上述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。
[0015]可选的,第一提取单元进一步被配置成:对上述目标文本对应词集中目标词进行遮挡操作,得到遮挡操作后的词集;对上述遮挡操作后的词集中的每个词进行词嵌入,以生成第三词向量,得到第三词向量集;对上述第三词向量集中的各个第三词向量进行编码,得到上述第一词向量集。
[0016]可选的,第一提取单元进一步被配置成:将上述第三词向量集中各个第三词向量输入至预先训练的编码网络,得到上述第一词向量集,其中,上述编码网络包括至少一层编码层。
[0017]可选的,第二提取单元进一步被配置成:将上述第一词向量集中的各个词向量输入至预先训练的双向门控循环单元网络,得到上述第二词向量集。
[0018]可选的,语义角色标注单元进一步被配置成:将上述第二词向量集中各个词向量输入至预先训练的条件随机场,得到上述标注语义角色的词集。
[0019]可选的,上述编码层是通过以下步骤生成:将第四词向量集中各个第四词向量输入至自注意力层,得到第五词向量集;将上述第五词向量集输入至丢弃层,得到第六词向量集;将上述第四向量集中的每个第四向量与上述第六词向量集中对应的第六词向量输入至相加层以进行相加,以生成第七向量,得到第七向量集;将上述第七向量集输入至归一化层以进行归一化处理,得到第八向量集;将上述第八向量集输入至线性变换层,得到第九向量集;将上述第九词向量集输入至上述丢弃层,得到第十词向量集;将上述第八向量集中的每个第八向量与上述第十词向量集中对应的第十词向量输入至相加层以进行相加,以生成第
十一向量,得到第十一向量集;将上述第十一向量集输入至上述归一化层以进行归一化处理,得到第十二向量集作为上述编码层的输出。
[0020]第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
[0021]第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
[0022]本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的语义角色标注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义角色标注方法,包括:提取目标文本对应的词集中每个词在所述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集;提取所述第一词向量集中每个第一词向量的所述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集;对所述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集。2.根据权利要求1所述的方法,其中,所述提取目标文本对应的词集中每个词在所述目标文本的上下文关联信息,以生成第一词向量,得到第一词向量集,包括:对所述目标文本对应词集中目标词进行遮挡操作,得到遮挡操作后的词集;对所述遮挡操作后的词集中的每个词进行词嵌入,以生成第三词向量,得到第三词向量集;对所述第三词向量集中的各个第三词向量进行编码,得到所述第一词向量集。3.根据权利要求2所述的方法,其中,所述对所述第三词向量集中的各个第三词向量进行编码,得到所述第一词向量集,包括:将所述第三词向量集中各个第三词向量输入至预先训练的编码网络,得到所述第一词向量集,其中,所述编码网络包括预定数目层编码层。4.根据权利要求1所述的方法,其中,所述提取所述第一词向量集中每个第一词向量的所述目标文本的上下文关联信息,以生成第二词向量,得到第二词向量集,包括:将所述第一词向量集中的各个词向量输入至预先训练的双向门控循环单元网络,得到所述第二词向量集。5.根据权利要求1所述的方法,其中,所述对所述第二词向量集中的每个第二词向量对应的词进行语义角色标注,以生成标注语义角色的词,得到标注语义角色的词集,包括:将所述第二词向量集中各个词向量输入至预先训练的条件随机场,得到所述标注语义角色的词集。6.根据权利要...

【专利技术属性】
技术研发人员:钱叶
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1