【技术实现步骤摘要】
文本消岐方法、电子设备、存储介质
[0001]本申请涉及人工智能
,尤其是涉及一种文本消岐方法、电子设备、存储介质。
技术介绍
[0002]文本消歧任务是自然语言处理的研究领域之一,其中,文本消歧任务旨在把文本中的命名实体(例如地址、组织、人物、事件等)与预设数据库中的特定条目绑定,从而实现同一命名实体在不同场景下的消歧,例如区分出“笔记本”在当前场景下具体指的是笔记本电脑,还是书写用的笔记本。
[0003]相关技术中,往往利用预先训练的自然语言模型来处理目标文本信息,将目标文本信息转化成对应的隐向量,进一步基于分类函数处理隐向量即可得到目标文本信息的识别结果,达到消岐的目的。然而,这种消岐方法高度依赖于自然语言模型的性能,实际应用场景下命名实体往往会存在非常多的表示方式,例如简称、别称等。对此,目前的自然语言模型尚未具备执行消岐任务的优良性能,如何进一步提升文本消岐方法的准确性,已经成为业内亟待解决的一个问题。
技术实现思路
[0004]本申请旨在至少解决现有技术中存在的技术问题之一。为此,本 ...
【技术保护点】
【技术特征摘要】
1.一种文本消岐方法,其特征在于,包括:获取目标文本与预先训练的主题消岐模型,所述主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层;基于所述文本编码层对所述目标文本进行文本特征提取,得到文本特征向量;基于所述主题记忆网络对所述文本特征向量进行主题增强处理,得到主题特征向量,所述主题特征向量表征所述目标文本的主题信息;基于所述主题特征向量在所述特征重置层中对所述文本特征向量进行重置增强处理,得到文本增强向量;基于所述分类解码层对所述文本增强向量进行识别,得到消岐后的所述目标文本。2.根据权利要求1所述的方法,其特征在于,所述获取目标文本与预先训练的主题消岐模型之前,还包括对所述主题消岐模型进行预先训练,具体包括:获取训练数据集,所述训练数据集包括多个训练文本,每一所述训练文本配置有一一对应的训练标签;将所述训练数据集输入所述主题消岐模型进行迭代训练,每一轮所述迭代训练中,基于所述主题消岐模型对所述训练文本进行识别,得到训练识别结果,并将所述训练标签与所述训练识别结果进行比对,得到识别偏差数据,基于所述识别偏差数据更新所述主题消岐模型的模型参数;当所述识别偏差数据符合预设训练条件,得到预先训练的所述主题消岐模型。3.根据权利要求2所述的方法,其特征在于,所述模型参数包括所述主题记忆网络中的主题矩阵,所述基于所述主题记忆网络对所述文本特征向量进行主题增强处理,得到主题特征向量,包括:基于所述主题矩阵对所述文本特征向量进行主题增强处理,得到所述主题特征向量。4.根据权利要求3所述的方法,其特征在于,所述主题记忆网络包括键全连接层与值全连接层,所述基于所述主题矩阵对所述文本特征向量进行主题增强处理,得到所述主题特征向量,包括:对所述主题矩阵进行键特征转换,得到键矩阵;对所述主题矩阵进行值特征转换,得到值矩阵;基于所述键矩阵对所述文本特征向量进行归一化处理,得到所述文本特征向量对应的权重向量;基于所述权重向量与所述值矩阵进行点积处理,得到所述主题特征向量。5.根据权利要求2所述的方法,其特征在于,所述基于所述主题特征向量在所述特征重置层中对所述...
【专利技术属性】
技术研发人员:宋彦,王伟,田元贺,郑毅,
申请(专利权)人:华润数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。