【技术实现步骤摘要】
实体识别模型训练方法、装置、设备以及存储介质
[0001]本专利技术涉及人工智能领域,特别涉及一种实体识别模型训练方法、装置、设备以及存储介质。
技术介绍
[0002]实体识别是自然语言处理中一项至关重要的任务。实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等等。从自然语言处理的流程来看,实体识别可以看作词法分析中未登录词识别的一种,是未登录词中数量最多、识别难度最大、对分词效果影响最大的问题。同时,实体识别也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多自然语言处理任务的基础。同英文实体识别任务相比,由于不采用空格等明显的标识符分开词语,中文实体识别任务需要确定词的边界。这也导致中文实体识别任务更加困难。
[0003]目前在中文实体识别上表现优良的模型都是基于深度学习或者统计学习的方法的模型。LSTM模型被证实有助于减少分词中的错误传播,可以提升对用词和词序信息的利用率,但是对于每个字和/或词的特征提取都是基于上一个提取的方案,这种方案不能解决长距离依赖的问题。
专 ...
【技术保护点】
【技术特征摘要】
1.一种实体识别模型训练方法,其特征在于,包括:获取由多个训练样本构成的训练集;其中,所述训练集包括多个训练句子以及对所述训练句子中的每个实体对应的字标注了实际标签的目标句子;对所述训练句子中的每个字进行拆分并进行向量化,得到由各个字对应的向量组成的第一序列;对所述训练句子进行分词处理,得到每个训练句子的词汇,并将各个词汇进行向量化,将得到的向量拼接在所述第一序列中,得到第二序列;根据所述训练句子中每个字的位置对每个字赋予对应的位置序号;根据所述位置序号获取所述第二序列中每个向量的首尾位置序号;其中,向量的所述首尾位置序号为对应向量的第一个字的位置序号与最后一个字的位置序号;基于所述第二序列中每个向量与其他向量的首尾位置序号,对每个向量进行相对位置的编码,形成编码向量;将所述第二序列和各个所述编码向量作为实体识别初始模型的输入,以及将所述目标句子作为所述实体识别初始模型的输出,训练得到所述实体识别模型。2.如权利要求1所述的实体识别模型训练方法,其特征在于,所述编码向量为矩阵向量,所述基于所述第二序列中每个向量与其他向量的首尾位置序号,对每个向量进行相对位置的编码,形成编码向量的步骤,包括:计算每个向量与其他向量的行向量其中其中head[i]为第i个向量的首位置序号,head[j]为第j个向量的首位置序号,tail[i]为第i个向量的尾位置序号,tail[j]为第j个向量的尾位置序号;将每个向量对应的多个行向量按照在所述第二序列中的位置排列,得到各个向量对应的所述编码向量。3.如权利要求1所述的实体识别模型训练方法,其特征在于,所述将所述第二序列和各个所述编码向量作为实体识别初始模型的输入,以及将所述目标句子作为所述实体识别初始模型的输出,训练得到所述实体识别模型的步骤,包括:将所述第二序列中的各个向量和对应的所述编码向量输入至所述实体识别初始模型的LSTM层;在所述LSTM层中,采取遮盖注意力机制对每个向量以及对应的编码向量进行特征提取,得到各自对应的特征向量;基于所述特征向量以及对应的所述实际标签对所述实体识别初始模型中各层训练层的参数进行训练,得到所述实体识别模型。4.如权利要求1所述的实体识别模型训练方法,其特征在于,所述将所述第二序列和各个所述编码向量作为实体识别初始模型的输入,以及将所述目标句子作为所述实体识别初始模型的输出,训练得到所述实体识别模型的步骤,还包括:基于所述第二序列中的每一个向量对应的实体预测结果与所述目标句子中的实际结
果确定训练过程中的第一损失;以及,对所述训练句子中的字生成的预测标签以及与所述实际标签,确定第二损失;将所述第一损失和所述第二损失之和作为本次训练过程中的损失值,并基于所述损失值调整所述实体识别初始模型中的模型参数;迭代多次后得到所述实体识别模型。5.如权利要求1所述的实体识别模型训练方法,其特征在于,所述实际标签包...
【专利技术属性】
技术研发人员:王健宗,李泽远,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。