【技术实现步骤摘要】
指代消解方法及装置
本申请涉及计算机
,具体而言,涉及一种指代消解方法及装置。
技术介绍
指代是指在语篇中用一个照应语回指某个之前提到过的语言单位,一般将指代语称为照应语,指代的对象或内容称为先行语。通常先行语可以在照应语之前,也可以在之后。例如,如果先行语可以在照应语之前,那么照应语与先行语之间的关系称为照应关系;如果先行语可以在照应语之后,则称为逆照应关系。指代消解就是确定照应语与先行语的对应关系,相同的照应语也可以指代不同的先行语,确定照应语的先行语的过程就是指代消解的过程。当前的指代消解方案,无法对照应语的上下文语义关系进行充分利用,导致难以有效识别先行语和照应语之间的语义关系,从而导致指代消解的准确率和召回率较低。
技术实现思路
基于现有设计的不足,本申请提供一种指代消解方法及装置,能够对照应语的上下文语义关系进行充分利用,从而便于后续有效识别先行语和照应语之间的语义关系,提高指代消解的准确率和召回率。根据本申请的第一方面,提供一种指代消解方法,应用于计算机设备,所 ...
【技术保护点】
1.一种指代消解方法,其特征在于,应用于计算机设备,所述方法包括:/n获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集,所述训练样本包括对具有指照应语和先行语的训练分句进行预处理后得到的分句特征信息;/n确定每个训练样本对应的先行语候选集,并根据每个训练样本中的代词类别,为所述先行语候选集中的每个元素构建特征向量,其中,所述特征向量用于反映照应语和先行语之间的语义关系;/n将所述先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练,得到指代消解模型,其中,所述指代消解模型用于对待指代消解的语句进行指代消解。/n
【技术特征摘要】 【专利技术属性】
1.一种指代消解方法,其特征在于,应用于计算机设备,所述方法包括:
获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集,所述训练样本包括对具有指照应语和先行语的训练分句进行预处理后得到的分句特征信息;
确定每个训练样本对应的先行语候选集,并根据每个训练样本中的代词类别,为所述先行语候选集中的每个元素构建特征向量,其中,所述特征向量用于反映照应语和先行语之间的语义关系;
将所述先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练,得到指代消解模型,其中,所述指代消解模型用于对待指代消解的语句进行指代消解。
2.根据权利要求1所述的指代消解方法,其特征在于,所述获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集的步骤,包括:
获取待处理文本并对所述待处理文本进行分段,将分段获得的多个分段文本进行分句,得到多个分句;
对每个分句进行分词获得分词序列,并提取所述分词序列的句法分析特征、词性标注特征和命名实体识别特征,作为每个分句的训练样本;
获取每个分句的训练样本对应的指代消解标签,并将所述指代消解标签关联到对应分句的训练样本,以获得训练样本集。
3.根据权利要求1所述的指代消解方法,其特征在于,所述根据每个训练样本中的代词类别,为所述先行语候选集中的每个元素构建特征向量的步骤,包括:
针对每个训练样本,当该训练样本中的代词类别为第三人称代词时,根据第三人称代词特征向量提取策略为所述先行语候选集中的每个元素构建第一特征向量;以及
当该训练样本中的代词类别为指示代词时,根据指示代词特征向量提取策略为所述先行语候选集中的每个元素构建第二特征向量。
4.根据权利要求3所述的指代消解方法,其特征在于,根据第三人称代词特征向量提取策略为所述先行语候选集中的每个元素构建第一特征向量的步骤,包括:
基于第一设定规则提取所述先行语候选集中的每个元素对应的第一规则特征向量,所述第一规则特征向量包括单复数一致特征向量、性别一致特征向量、词频特征向量、距离特征向量中的至少一种,其中,所述单复数一致特征向量用于表征先行语与对应的第三人称代词的单复数属性一致性,所述性别一致特征向量用于表征在先行语与对应的第三人称代词都代指人的情况下的性别属性一致性,所述词频特征向量用于表征在先行语的词频特征,所述距离特征向量用于表征先行语与对应的第三人称代词之间的距离特征;
提取所述先行语候选集中的每个元素对应的句法特征向量,其中,所述句法特征向量用于表征每个元素在对应的分句中的句法关系特征;以及
提取所述先行语候选集中的每个元素对应的相似性特征向量;
将所述第一规则特征向量、句法特征向量以及相似性特征向量构建为第一特征向量。
5.根据权利要求4所述的指代消解方法,其特征在于,提取所述先行语候选集中的每个元素对应的相似性特征向量的步骤,包括:
针对所述先行语候选集中的每个元素,获取该元素的第三人称代词出现后的第一个动词,作为第一动词;
获取在所述第三人称代词出现之前所有的动词,作为第二动词;
计算所述第一动词和每个所述第二动词之间的相似度,并将相似度值最高的动词所对应的主语作为先行语;
若在所述先行语与对应的元素的先行语匹配,则确定该元素对应的相似性特征向量为第一预设特征向量,若在所述先行语与对应的元素的先行语不匹配,则确定该元素对应的相似性特征向量为第二预设特征向量。
技术研发人员:李巧,伍文成,朱永强,
申请(专利权)人:成都网安科技发展有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。