【技术实现步骤摘要】
先行词的确定方法和装置
本专利技术涉及信息处理领域,具体而言,涉及一种先行词的确定方法和装置。
技术介绍
在人机对话中需机器准确理解语句中的上下文信息,如果机器无法准确理解语句中的上下文信息,会造成对话信息模糊,指代问题是造成信息模糊的主要问题。广义上讲,指代消解是在篇章中确定代词指向哪个名词短语的问题。现有技术中存在如下几种指代消解算法:(1)自左向右先广搜索,层次遍历句法树达到消解工作,该算法需要遍历待识别的信息,遍历工作量很大;(2)在句法知识基础上加入语义约束,该方式在英文代词指代消解效果还行,但是中文词汇处理难度大,该方法不适用于汉语的指代消解;(3)把语义信息加入到LRC(left-rightcentering)算法中实现对候选先行词的过滤,但是该算法所利用的语义信息需要事先手工定义,测试语料同样进行了手工清洗掉不流利的成分。由于中文浅层词汇处理难度比较大,在消解工作中要进行分词,并且对于名词没有明确的单复数、性别的特征,代词也没有明确的主格和宾格特征,口语会话中省略话语很常见。这些难点都使得上述的指代消解方案无法适用于中文的代词指代消解,目前的代词指 ...
【技术保护点】
一种先行词的确定方法,其特征在于,包括:获取待识别的语句信息;在识别出所述语句信息中存在代词的情况下,从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征;基于所述多个候选先行词的词语特征,从所述多个候选先行词中确定所述代词所指代的目标先行词。
【技术特征摘要】
1.一种先行词的确定方法,其特征在于,包括:获取待识别的语句信息;在识别出所述语句信息中存在代词的情况下,从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征;基于所述多个候选先行词的词语特征,从所述多个候选先行词中确定所述代词所指代的目标先行词。2.根据权利要求1所述的方法,其特征在于,基于所述多个候选先行词的词语特征,从所述多个候选先行词中确定所述代词所指代的目标先行词包括:基于每个所述候选先行词的词语特征,确定每个所述候选先行词的指代权重值;将指代权重值最大的候选先行词选取为所述代词所指代的目标先行词。3.根据权利要求2所述的方法,其特征在于,所述多个候选先行词中的每个候选先行词包括一个或多个所述词语特征,基于每个所述候选先行词的词语特征,确定每个所述候选先行词的指代权重值包括:将提取到的词语特征转换为特征值;利用预先设置的一个或多个所述词语特征的特征系数,对每个所述候选先行词的所述特征值进行线性加权计算,得到每个所述候选先行词的指代权重值。4.根据权利要求2所述的方法,其特征在于,所述多个候选先行词中的每个候选先行词包括一个或多个所述词语特征,所述词语特征包括下述至少之一:所述候选先行词的单复数特征、所述候选先行词与所述代词之间的距离、所述候选先行词是否出现在介词短语中、以及所述代词和所述候选先行词的语义关联性。5.根据权利要求1所述的方法,其特征在于,从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征包括:查找所述语句信息中代词的临近词;在所述临近词的词性不为名词的情况下,从所述语句信息中提取多个候选先行词和所述多个候选先行词的词语特征。6.根据权利要求1或5所述的方法,其特征在于,从语句信息中提取多个候选先行词包括:获取所述语句信息中与所述代词的距离在预设距离内的名词短语;判断所述名词短语与所述代词之间是否相互指代;若所述名词短语与所述代词之间相互指代,则将所述名词短语作为所述候选先行词。7.根据权利要求6所述的方法,其特征在于,判断所述名词短语与所述代词之间是否相互指代包括:判断所述名词短语和所述代词之间的连接词的词性是否为谓词;若所述名词短语和所述代词之间的连接词的词性不为谓词,则判断出所述名词短语与所述代词之间能够相互指代;若所述名词短语和所述代词之间的连接词的词性为谓词,则判断出所述名词短语与所述代词...
【专利技术属性】
技术研发人员:杨月奎,陈雨杰,赵琳,黄玉兰,刘莉,王迪,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。