共指消解方法及电子设备技术

技术编号:29758832 阅读:12 留言:0更新日期:2021-08-20 21:12
本申请提供一种共指消解方法及电子设备,该方法包括:将目标语句输入已训练的字向量模型,获得所述字向量模型输出的所述目标语句中每一汉字对应的字向量;针对所述目标语句中的每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;针对每个词对,根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体。本申请方案充分利用了已训练的字向量模型的语义理解能力,实现了对语句中指示同一实体的不同词汇的准确识别。

【技术实现步骤摘要】
共指消解方法及电子设备
本申请涉及自然语言处理
,特别涉及一种共指消解方法及电子设备。
技术介绍
共指消解任务(CoreferenceResolution)是指对文本中同一实体的不同表述形式进行识别。比如:“有些这样的‘洋人’就站在大众之间,如同鹤立鸡群,毫不掩饰自己的优越感。”这句话中“洋人”与“自己”表述的是同一个实体。再如:“我的护理员根本不可能是我的敌人。我已经喜欢上他了。这位门后窥视者一跨进我的房间,我就向他讲述我一生中的事件。”这里,“护理员”与“窥视者”表述的是同一个实体。共指消解任务存在一种特殊情况,即在判断文本中两个词是否指示同一实体时,其中一个词为指代词,如“他”、“它们”,另一个普通名称可称为先行词,此时,共指消解任务可称为指代消解任务。在指代消解任务中,需要识别文本中的指代词是否指代先行词。
技术实现思路
本申请实施例的目的在于提供一种共指消解方法及电子设备,用于识别语句中指代同一实体的不同词汇。一方面,本申请提供了一种共指消解方法,包括:将目标语句输入已训练的字向量模型,获得所述字向量模型输出的所述目标语句中每一汉字对应的字向量;针对所述目标语句中的每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;针对每个词对,根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体。在一实施例中,所述目标语句已标注每个指定词汇的起始位置和结束位置;所述根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量,包括:根据所述指定词汇的起始位置和结束位置,确定与所述起始位置对应汉字和所述汉字对应的字向量、以及与所述结束位置对应的汉字和所述汉字对应的字向量;确定所述起始位置对应的字向量和所述结束位置对应的字向量的均值,获得所述指定词汇对应的词向量。在一实施例中,所述目标语句已标注每个指定词汇的起始位置和结束位置;所述根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量,包括:根据所述指定词汇的起始位置和结束位置,确定所述起始位置和所述结束位置之间的所有汉字和每个汉字对应的字向量;确定每个汉字对应的字向量的均值,获得所述指定词汇对应的词向量。在一实施例中,所述基于指定词汇构建若干词对,包括:将所述目标语句中不同的指定词汇两两组合,获得若干词对。在一实施例中,所述指定词汇包括指代词和先行词;所述基于指定词汇构建若干词对,包括:将每个指代词分别与每个先行词进行组合,获得若干词对。在一实施例中,所述依据每个词对的两个词向量确定所述词对的相关度分值,包括:确定所述词对的两个词向量之间的余弦相似度;确定所述余弦相似度对应的差异参数;其中,所述差异参数与所述余弦相似度之和为一;根据所述余弦相似度和所述差异参数确定所述词对的相关度分值。在一实施例中,所述相关度分值包括正向分值;所述根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体,包括:判断所述词对的正向分值是否达到预设正向分值阈值;若是,确定所述词对中两个指定词汇指代同一实体;若否,确定所述词对中两个指定词汇不指代同一实体。在一实施例中,所述字向量模型通过如下方式训练得到:将训练集中的样本语句输入预训练的字向量模型,获得所述字向量模型输出的所述样本语句中每一汉字对应的字向量;针对所述样本语句中每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;根据所述相关度分值与对应于每一词对的相关度标签之间的差异,调整所述字向量模型的模型权重,获得已训练的字向量模型。在一实施例中,在所述将训练集中的样本语句输入预训练的字向量模型之前,所述方法还包括:检查所述训练集内是否存在相同的多个样本语句;如果存在,在保留多个样本语句的标注信息的情况下,将相同的多个样本语句合并为唯一的样本语句;其中,所述标注信息包括指定词汇的起始位置和结束位置,以及构成词对的两个指定词汇的相关度标签。进一步的,本申请还提供了一种电子设备,所述电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述共指消解方法。本申请方案,通过已训练的字向量模型输出目标语句中每个汉字对应的字向量之后,依据目标语句中指定词汇所包含的汉字以及汉字对应的字向量,可以确定每个指定词汇对应的词向量;基于指定词汇构建词对,并依据词对的两个词向量计算相关度分值后,可以以相关度分值确定词对中两个指定词汇是否指示同一实体。本申请充分利用了已训练的字向量模型的语义理解能力,实现了对语句中指示同一实体的不同词汇的准确识别,此外,可以高效地对同一相同语句中多个词对执行共指消解任务。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。图1为本申请一实施例提供的共指消解方法的应用场景示意图;图2为本申请一实施例提供的电子设备的结构示意图;图3为本申请一实施例提供的共指消解方法的流程示意图;图4为本申请一实施例提供的相关度分值的计算方法的流程示意图;图5为本申请一实施例提供的字向量模型的训练方法的流程示意图;图6为本申请一实施例提供的字向量模型的训练示意图;图7为本申请一实施例提供的共指消解装置的框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。相关技术将预训练的字向量模型连接孪生神经网络,利用字向量模型计算出语句中汉字对应的字向量之后,将字向量输入孪生神经网络,通过孪生神经网络的输出结果执行指代消解任务。然而,该方案在训练过程中仅仅调整孪生神经网络的模型权重,而未调整字向量模型的模型权重,因此在执行指代消解任务时并不能充分利用字向量模型的语义理解能力,识别能力有限。另一处理指定消解任务的相关方案,将语句中的指代词和先行词分别进行标注,进而将已标注唯一先行词和唯一指代词的语句输入预训练模型,并通过预训练模型的输出层做二分类任务。其中,指代词可以包括你、我、他、它们等人称代词、以及这、那、此、其、这些、那些等指示代词。先行词可以是除了指代词以外的其它名词。二分类结果本文档来自技高网...

【技术保护点】
1.一种共指消解方法,其特征在于,包括:/n将目标语句输入已训练的字向量模型,获得所述字向量模型输出的所述目标语句中每一汉字对应的字向量;/n针对所述目标语句中的每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;/n基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;/n针对每个词对,根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体。/n

【技术特征摘要】
1.一种共指消解方法,其特征在于,包括:
将目标语句输入已训练的字向量模型,获得所述字向量模型输出的所述目标语句中每一汉字对应的字向量;
针对所述目标语句中的每个指定词汇,根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量;
基于指定词汇构建若干词对,并分别依据每个词对的两个词向量确定所述词对的相关度分值;
针对每个词对,根据所述词对的相关度分值确定所述词对中两个指定词汇是否指代同一实体。


2.根据权利要求1所述的方法,其特征在于,所述目标语句已标注每个指定词汇的起始位置和结束位置;
所述根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量,包括:
根据所述指定词汇的起始位置和结束位置,确定与所述起始位置对应汉字和所述汉字对应的字向量、以及与所述结束位置对应的汉字和所述汉字对应的字向量;
确定所述起始位置对应的字向量和所述结束位置对应的字向量的均值,获得所述指定词汇对应的词向量。


3.根据权利要求1所述的方法,其特征在于,所述目标语句已标注每个指定词汇的起始位置和结束位置;
所述根据所述指定词汇包含的汉字以及所述汉字对应的字向量,得到所述指定词汇对应的词向量,包括:
根据所述指定词汇的起始位置和结束位置,确定所述起始位置和所述结束位置之间的所有汉字和每个汉字对应的字向量;
确定每个汉字对应的字向量的均值,获得所述指定词汇对应的词向量。


4.根据权利要求1所述的方法,其特征在于,所述基于指定词汇构建若干词对,包括:
将所述目标语句中不同的指定词汇两两组合,获得若干词对。


5.根据权利要求1所述的方法,其特征在于,所述指定词汇包括指代词和先行词;
所述基于指定词汇构建若干词对,包括:
将每个指代词分别与每个先行词进行组合,获得若干词对。


6.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:简仁贤马永宁李龙威汤潘
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1