一种文本信息的处理方法及相关装置制造方法及图纸

技术编号:23149848 阅读:41 留言:0更新日期:2020-01-18 13:45
本申请公开了一种文本信息的处理方法及相关装置,用于提高代词指代消解效果。本申请方法包括:确定待处理文本中的第一代词和第一先行词;确定待处理文本的第一向量表示值,第一向量表示值用于表示待处理文本的语义信息;确定第一代词和第一先行词对应的第一语义特征向量;通过指代预测模型获取第一向量表示值以及第一语义特征向量对应的指代预测结果;若指代预测结果为第一代词与第一先行词之间具有指代关系,则将待处理文本中的第一代词替换为第一先行词,得到处理后的文本。本申请中在考虑到了代词和先行词之间的语义特征的基础上,还融入了代词的上下文语义信息,能够有效地提高指代代词的识别率,从而提高代词指代消解效果。

A text information processing method and related devices

【技术实现步骤摘要】
一种文本信息的处理方法及相关装置
本申请涉及计算机
,尤其涉及一种文本信息的处理方法及相关装置。
技术介绍
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确处理的需求促进了自然语言处理技术的发展。对于大部分的文本信息来说,文本信息中通常会存在有采用大量代词来指代文本信息主体的现象。其中,指代是自然语言普遍存在的一种表达方式,人们为了避免重复,习惯用代词、称谓和缩略语等来指代前面提到的主体,以使得语言简洁连贯。然而,大量的指代增加了自然语言处理的难度,因此,需要对文本信息中的代词进行识别并且消解掉。代词指代消解就是识别文本中同一实体不同的表达式,并且将这些不同的表达式替换为统一的主体名称。目前的代词指代消解方法主要是在对文章进行分词处理以及词性标注,获得文章中的先行词以及代词,基于先行词和代词之间的特征来判断这两个词是否具有指代关系。然而,仅仅从两个独立的词中抽取特征信息来进行指代消解的效果较差,尤其是当先行词实体表达缺乏有效信息描述时指代消解效果更差,因此目前的代词指代消解方法往往难以获得较好的消解效本文档来自技高网...

【技术保护点】
1.一种文本信息的处理方法,其特征在于,包括:/n确定待处理文本中的第一代词和第一先行词,所述待处理文本包括至少一个所述第一代词和至少一个所述第一先行词;/n确定所述待处理文本的第一向量表示值,所述第二向量表示值用于表示所述待处理文本的语义信息;/n确定所述第一代词和所述第一先行词对应的第一语义特征向量;/n通过指代预测模型获取所述第一向量表示值以及所述第一语义特征向量对应的指代预测结果;/n若所述指代预测结果为所述第一代词与所述第一先行词之间具有指代关系,则将所述待处理文本中的所述第一代词替换为所述第一先行词,得到处理后的文本。/n

【技术特征摘要】
1.一种文本信息的处理方法,其特征在于,包括:
确定待处理文本中的第一代词和第一先行词,所述待处理文本包括至少一个所述第一代词和至少一个所述第一先行词;
确定所述待处理文本的第一向量表示值,所述第二向量表示值用于表示所述待处理文本的语义信息;
确定所述第一代词和所述第一先行词对应的第一语义特征向量;
通过指代预测模型获取所述第一向量表示值以及所述第一语义特征向量对应的指代预测结果;
若所述指代预测结果为所述第一代词与所述第一先行词之间具有指代关系,则将所述待处理文本中的所述第一代词替换为所述第一先行词,得到处理后的文本。


2.根据权利要求1所述的文本信息的处理方法,其特征在于,所述将所述第一向量表示值以及所述第一语义特征向量输入指代预测模型中之前,所述方法还包括:
获取待训练文本,所述待训练文本包括至少一个第二代词和至少一个第二先行词;
确定所述待训练文本的第二向量表示值,以及所述第二代词和所述第二先行词对应的第二语义特征向量;
根据所述待训练文本生成训练样本,所述训练样本包括所述第二向量表示值、所述第二语义特征向量以及所述第二代词与所述第二先行词对应的指代标签,所述指代标签为所述第二代词与所述第二先行词具有指代关系或所述第二代词与所述第二先行词不具有指代关系;
通过所述训练样本对分类模型进行训练,得到所述指代预测模型。


3.根据权利要求1或2所述的文本信息的处理方法,其特征在于,所述确定所述待处理文本的第一向量表示值,包括:
确定所述待处理文本中的待处理语句,所述待处理语句包括有所述第一代词;
将所述待处理语句输入至句向量模型,得到所述待处理语句对应的第一向量表示值。


4.根据权利要求1所述的文本信息的处理方法,其特征在于,所述确定所述第一代词和所述第一先行词对应的第一语义特征向量,包括:
确定所述第一代词对应的第一子语义特征向量、所述第一先行词对应的第二子语义特征向量以及所述第一代词和所述第一先行词之间的第三子语义特征向量;
根据所述第一子语义特征向量、第二子语义特征向量以及所述第三子语义特征向量,确定所述第一代词和所述第一先行词对应的第一语义特征向量。


5.根据权利要求4所述的文本信息的处理方法,其特征在于,所述确定所述第一代词对应的第一子语义特征向量、所述第一先行词对应的第二子语义特征向量以及所述第一代词和所述第一先行词之间的第三子语义特征向量,包括:
根据所述第一代词的类型、词频以及所述第一代词在所述待处理文本中的位置确定所述第一子语义特征向量;
根据所述第一先行词的类型、词频以及所述第一先行词在所述待处理文本中的...

【专利技术属性】
技术研发人员:邓文超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1