【技术实现步骤摘要】
模型训练、命名实体识别方法及装置
本说明书一个或多个实施例涉及自然语言处理
,尤其涉及模型训练、命名实体识别方法及装置。
技术介绍
在自然语言处理
,对文本序列中的命名实体(Entity)进行分类,是研究的一个重要方向。命名实体,在词性中具有名词性质,包括人名、机构名、地名以及其他所有以名称为标识的实体类别。更广泛的命名实体还包括数字、日期、货币、地址等类别。对命名实体的类别进行准确识别,能够提高自然语言处理的准确性和有效性。通常,采用训练集训练用于识别命名实体的模型,在模型训练完成后,采用测试集对模型进行测试。命名实体识别中的一大挑战,是对集外词和低频词这些稀有实体的识别。集外词是指测试集中出现,但训练集中没有出现过的命名实体。低频词是指测试集中出现,而训练集中出现次数较低的命名实体。这种训练数据的稀疏性,给模型训练带来巨大挑战。因此,希望能有改进的方案,可以训练得到有效性更好、准确性更高的模型,使得模型在面临稀有实体时,能更好地对其进行识别。
技术实现思路
本说明书一个或多 ...
【技术保护点】
1.一种用于识别命名实体的模型训练方法,通过计算机执行,包括:/n获取包含多个分词的第一样本序列,多个分词包含命名实体和非命名实体;/n将所述第一样本序列中的第一命名实体替换为第一预设字符,得到第二样本序列,并从所述第二样本序列中确定包含所述第一预设字符的文本片段;/n采用第一递归神经网络,以预设隐向量作为初始隐向量,递归地确定所述第二样本序列中多个分词的隐向量;基于所述第二样本序列中多个分词的隐向量,确定所述文本片段的表征向量;/n通过变分自编码器,基于所述表征向量构建高斯分布,基于所述高斯分布确定针对所述文本片段的全局隐向量;/n采用所述第一递归神经网络,以所述全局隐向 ...
【技术特征摘要】
1.一种用于识别命名实体的模型训练方法,通过计算机执行,包括:
获取包含多个分词的第一样本序列,多个分词包含命名实体和非命名实体;
将所述第一样本序列中的第一命名实体替换为第一预设字符,得到第二样本序列,并从所述第二样本序列中确定包含所述第一预设字符的文本片段;
采用第一递归神经网络,以预设隐向量作为初始隐向量,递归地确定所述第二样本序列中多个分词的隐向量;基于所述第二样本序列中多个分词的隐向量,确定所述文本片段的表征向量;
通过变分自编码器,基于所述表征向量构建高斯分布,基于所述高斯分布确定针对所述文本片段的全局隐向量;
采用所述第一递归神经网络,以所述全局隐向量作为初始隐向量,递归地确定所述文本片段中分词的解码隐向量,并基于所述解码隐向量,确定所述文本片段中分词的预测值;
基于所述文本片段中分词与其预测值的差异,以及基于所述高斯分布确定的分布差异,确定预测损失值,向减小所述预测损失值的方向,更新所述第一递归神经网络和所述变分自编码器。
2.根据权利要求1所述的方法,所述将所述第一样本序列中的第一命名实体替换为第一预设字符的步骤,包括:
从所述第一样本序列中的至少一个命名实体中随机确定第一数量个命名实体,作为第一命名实体,将所述第一命名实体替换为第一预设字符。
3.根据权利要求1所述的方法,所述从所述第二样本序列中确定包含所述第一预设字符的文本片段的步骤,包括:
将所述第二样本序列中,从所述第一预设字符开始,以所述第一预设字符之后的第一个命名实体结尾的序列,确定为文本片段;或者,将所述第二样本序列中,以所述第一预设字符结尾,以所述第一预设字符之前的第一个命名实体开始的序列,确定为文本片段。
4.根据权利要求3所述的方法,所述基于所述第二样本序列中多个分词的隐向量,确定所述文本片段的表征向量的步骤,包括:
从所述第二样本序列的多个分词的隐向量中,确定所述文本片段的首分词的初始隐向量和尾分词的初始隐向量,基于所述尾分词的初始隐向量与所述首分词的初始隐向量的差值,确定所述文本片段的表征向量。
5.根据权利要求1所述的方法,所述基于所述表征向量构建高斯分布,基于所述高斯分布确定针对所述文本片段的全局隐向量的步骤,包括:
通过变分自编码器,基于所述表征向量,确定高斯分布的均值和方差,基于所述高斯分布的均值和方差确定针对所述文本片段的全局隐向量。
6.根据权利要求1所述的方法,所述递归地确定所述文本片段中分词的解码隐向量的步骤,包括:
通过所述第一递归神经网络,针对所述文本片段中首分词和尾分词之外的每个中间分词,基于上一分词的解码隐向量确定该中间分词的解码隐向量,其中,第一个中间分词的上一分词的解码隐向量为所述全局隐向量。
7.根据权利要求1所述的方法,所述第一递归神经网络包括双向递归神经网络;所述递归地确定所述第二样本序列中多个分词的隐向量;基于所述第二样本序列中多个分词的隐向量,确定所述文本片段的表征向量的步骤,包括:
采用第一递归神经网络,以预设隐向量作为初始隐向量,按照序列的前向顺序,递归地确定所述第二样本序列中多个分词的第一隐向量,按照序列的后向顺序,递归地确定所述第二样本序列中多个分词的第二隐向量;基于多个所述第一隐向量,确定所述文本片段的第一表征向量,基于多个所述第二隐向量,确定所述文本片段的第二表征向量;
所述基于所述表征向量构建高斯分布,基于所述高斯分布确定针对所述文本片段的全局隐向量的步骤,包括:
通过变分自编码器,基于所述第一表征向量构建第一高斯分布,基于所述第一高斯分布确定针对所述文本片段的第一全局隐向量,基于所述第二表征向量构建第二高斯分布,基于所述第二高斯分布确定针对所述文本片段的第二全局隐向量;
所述递归地确定所述文本片段中分词的解码隐向量,并基于所述解码隐向量,确定所述文本片段中分词的预测值的步骤,包括:
采用所述第一递归神经网络,以所述全局隐向量作为初始隐向量,按照序列的前向顺序,递归地确定所述文本片段中每个中间分词的第一解码隐向量,按照序列的后向顺序,递归地确定所述文本片段中每个中间分词的第二解码隐向量;并基于所述第一解码隐向量,确定所述文本片段中每个中间分词的第一预测值,基于所述第二解码隐向量,确定所述文本片段中每个中间分词的第二预测值;所述中间分词为所述文本片段中首分词和尾分词之外的分词;
所述确定预测损失值的步骤,包括:
基于所述文本片段中每个分词与其第一预测值的差异,以及基于所述第一高斯分布确定的第一分布差异,确定第一损失值;基于所述文本片段中每个分词与其第二预测值的差异,以及基于所述第二高斯分布确定的第二分布差异,确定第二损失值;基于所述第一损失值和第二损失值的和,确定预测损失值。
8.根据权利要求1所述的方法,所述第一递归神经网络包括循环神经网络RNN或长短期记忆LSTM。
9.一种使用模型对命名实体识别的方法,通过计算机执行,包括:
获取待识别的包含多个分词的第一分词序列,多个分词包含命名实体和非命名实体;
将所述第一分词序列输入训练好的第一递归神经网络,得到所述第一分词序列中多个分词的隐向量;所述第一递归神经网络采用权利要求1的方法训练得到;
基于所述第一分词序列的每个分词的隐向量,确定所述第一分词序列的每个分词在多个预设标签上的分布概率;
基于所述第一分词序列的每个分词的分布概率,确定每个分词对应的预设标签。
10.一种用于识别命名实体的模型训练装置,部署在计算机中,包括:
第一获取模块,配置为,获取包含多个分词的第一样本序列,多个分词包含命名...
【专利技术属性】
技术研发人员:李扬名,李小龙,姚开盛,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。