构造零指代消解语料的方法及装置制造方法及图纸

技术编号:22467652 阅读:20 留言:0更新日期:2019-11-06 11:28
本说明书实施例提供了一种构造零指代消解语料的方法及装置,方法包括:首先获取待处理句子对应的词序列,并标注该词序列包含的各个词的词性。然后确定出该词序列包含的各个词中,词性为名词的各个词分别在词序列中的出现频次。当该词序列中存在词性为名词、出现频次不小于2的一个或多个候选词时,即可选择一个候选词作为目标词,以及从该目标词在待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个目标位置的目标词删除,得到一个包含零指代项的标定句子。之后,即可将标定句子、目标词以及各个目标位置组合,得到用于对待分析句子进行零指代消解的零指代消解语料。

The method and device of constructing zero anaphora resolution corpus

【技术实现步骤摘要】
构造零指代消解语料的方法及装置
本说明书一个或多个实施例涉及计算机领域,尤其涉及构造零指代消解语料的方法及装置。
技术介绍
零指代项是指句子中被省略的指代词,被省略的指代词本应在句子中承担相应的语法成分,且用户通常能够根据句子本身推断出被省略的指代词。比如,示例性句子为“王老师为了辅导小明学习,将小明带到了办公室”,其对应的语法完整的句子应当为“王老师为了辅导小明学习,[他]将小明带回了办公室”,被省略的指代词[他]即为一个零指代项,该零指代项指代的对象为“王老师”。零指代消解是一项被广泛应用的自然语言处理任务,其主要目的在于发现句子中包含的零指代项,并确定出该零指代项指代的对象。为了实现对句子进行零指代消解,通常需要预先构造大规模的零指代消解语料。目前,主要通过人工标注的方式构造零指代消解语料,无法快速获得大规模的零指代消解语料。有鉴于此,希望有改进的方案,能够有利于快速获得大规模的零指代消解语料。
技术实现思路
本说明书一个或多个实施例提供了一种构造零指代消解语料的方法及装置,有利于快速获得大规模的零指代消解语料。第一方面,提供了一种构造零指代消解语料的方法,所述方法包括:获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次;检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2;在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子;将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。在一种可能的实施方式中,所述零指代消解语料为用于训练语言模型的正样本;其中,所述语言模型,用于预测对应输入的句子中包含的零指代项的位置,以及预测该零指代项指代的对象。在一种可能的实施方式中,所述方法还包括:在不存在至少一个所述候选词的情况下,检测已经得到的多个所述标定句子中,是否存在与所述待处理句子相同的标定句子;在不存在与所述待处理句子相同的标定句子的情况下,将所述待处理句子确定为用于训练所述语言模型的负样本。在一种可能的实施方式中,在所述获取待处理句子对应的词序列之前,还包括:从网页中采集文本数据;对所述文本数据进行数据清洗及预处理,得到待处理文本;对所述待处理文本进行分句处理,得到至少一个所述待处理句子。在一种可能的实施方式中,所述目标词在所述待处理句子中的多个出现位置,通过所述目标词在所述词序列中对应的多个顺序编号来表示。在一种可能的实施方式中,从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,包括:从所述目标词在所述待处理句子中的多个出现位置中,随机选择至少一个目标位置。在一种可能的实施方式中,所述从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,包括:根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率;根据各个出现位置分别对应的条件概率,从多个出现位置中选择至少一个目标位置,其中,各个目标位置分别对应的条件概率,均不小于未被选择的各个出现位置分别对应的条件概率。在一种可能的实施方式中,根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率,包括:从包含多个样本句子的数据集中确定出至少一个目标句子,其中,每个所述目标句子中均包含至少一个所述目标词;针对每个所述目标句子,获取指代所述目标词的零指代项在所述目标句子中的第一位置,以及获取所述目标词在所述目标句子中的第二位置;确定所述至少一个目标句子中,第一位置位于其对应的第二位置之前的第一频次、第一位置位于其对应的第二位置之后的第二频次;根据所述第一频次及所述第二频次,计算所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率。第二方面,提供了一种构造零指代消解语料的装置,所述装置包括:分词处理模块,配置为获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;词频统计模块,配置为确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次;第一检测模块,配置为检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2;句子处理模块,配置为在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子;语料构造模块,配置为将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。在一种可能的实施方式中,所述零指代消解语料为用于训练语言模型的正样本;其中,所述语言模型,用于预测对应输入的句子中包含的零指代项的位置,以及预测该零指代项指代的对象。在一种可能的实施方式中,所述装置还包括:第二检测模块,配置为在不存在至少一个所述候选词的情况下,检测已经得到的多个所述标定句子中,是否存在与所述待处理句子相同的标定句子;负样本确定模块,配置为在不存在与所述待处理句子相同的标定句子的情况下,将所述待处理句子确定为用于训练所述语言模型的负样本。在一种可能的实施方式中,所述装置还包括:数据采集模块,配置为从网页中采集文本数据;预处理模块,配置为对所述文本数据进行数据清洗及预处理,得到待处理文本;分句处理模块,配置为对所述待处理文本进行分句处理,得到至少一个所述待处理句子。在一种可能的实施方式中,所述目标词在所述待处理句子中的多个出现位置,通过所述目标词在所述词序列中对应的多个顺序编号来表示。在一种可能的实施方式中,所述句子处理模块,具体配置为从所述目标词在所述待处理句子中的多个出现位置中,随机选择至少一个目标位置。在一种可能的实施方式中,所述句子处理模块,包括:条件概率确定单元,配置为根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率;句子处理单元,配置为根据各个出现位置分别对应的条件概率,从多个出现位置中选择至少一个目标位置,其中,各个目标位置分别对应的条件概率,均不小于未被选择的各个出现位置分别对应的条件概率。在一种可能的实施方式中,所述条件概率确定单元,具体配置为:从包含多个样本句子的数据集中确定出至少一个目标句子,其中,每个所述目标句子中均包含至少一个所述目标词;针对每个所述目标句子,获取指代所述目标词的零指代项在所述目标句子中的第一位置,以及获取所述目标词在所述目标句子中的第二位置;确定所述至少一个目标句子中,第一位置位于其对应的第二位置之前的第一频次、第一位置位于其对应的第二位置之后的第二频次;根据所述第一频次及所述第二频次,计算所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率。第三方面,提供了一种计算机可读存储介质,其上存储有计本文档来自技高网...

【技术保护点】
1.一种构造零指代消解语料的方法,所述方法包括:获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次;检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2;在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子;将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。

【技术特征摘要】
1.一种构造零指代消解语料的方法,所述方法包括:获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;确定所述词序列包含的各个词中,词性为名词的各个词分别在所述词序列中的出现频次;检测所述词序列包含的各个词中是否存在至少一个候选词,其中,所述候选词的词性为名词,且对应的出现频次不小于2;在存在至少一个所述候选词的情况下,选择一个所述候选词作为目标词,以及从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,并将各个所述目标位置的所述目标词删除,得到标定句子;将所述标定句子、所述目标词以及各个所述目标位置组合,得到零指代消解语料,所述零指代消解语料用于对待分析句子进行零指代消解。2.根据权利要求1所述的方法,其中,所述零指代消解语料为用于训练语言模型的正样本;其中,所述语言模型,用于预测对应输入的句子中包含的零指代项的位置,以及预测该零指代项指代的对象。3.根据权利要求2所述的方法,其中,所述方法还包括:在不存在至少一个所述候选词的情况下,检测已经得到的多个所述标定句子中,是否存在与所述待处理句子相同的标定句子;在不存在与所述待处理句子相同的标定句子的情况下,将所述待处理句子确定为用于训练所述语言模型的负样本。4.根据权利要求1所述的方法,其中,在所述获取待处理句子对应的词序列之前,还包括:从网页中采集文本数据;对所述文本数据进行数据清洗及预处理,得到待处理文本;对所述待处理文本进行分句处理,得到至少一个所述待处理句子。5.根据权利要求1所述的方法,其中,所述目标词在所述待处理句子中的多个出现位置,通过所述目标词在所述词序列中对应的多个顺序编号来表示。6.根据权利要求1至5中任一所述的方法,其中,从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,包括:从所述目标词在所述待处理句子中的多个出现位置中,随机选择至少一个目标位置。7.根据权利要求1至5中任一所述的方法,其中,所述从所述目标词在所述待处理句子中的多个出现位置中,选择至少一个目标位置,包括:根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率;根据各个出现位置分别对应的条件概率,从多个出现位置中选择至少一个目标位置,其中,各个目标位置分别对应的条件概率,均不小于未被选择的各个出现位置分别对应的条件概率。8.根据权利要求7所述的方法,其中,所述根据包含多个样本句子的数据集,确定所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率,包括:从包含多个样本句子的数据集中确定出至少一个目标句子,其中,每个所述目标句子中均包含至少一个所述目标词;针对每个所述目标句子,获取指代所述目标词的零指代项在所述目标句子中的第一位置,以及获取所述目标词在所述目标句子中的第二位置;确定所述至少一个目标句子中,第一位置位于其对应的第二位置之前的第一频次、第一位置位于其对应的第二位置之后的第二频次;根据所述第一频次及所述第二频次,计算所述目标词在所述待处理句子中的多个出现位置分别被零指代项指代的条件概率。9.一种构造零指代消解语料的装置,所述装置包括:分词处理模块,配置为获取待处理句子对应的词序列,并标注所述词序列包含的各个词的词性;词频统计模块,配置为确定所述...

【专利技术属性】
技术研发人员:梁忠平温祖杰蒋亮张家兴李小龙
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1