意图识别任务和实体识别任务的联合训练方法及装置制造方法及图纸

技术编号:37536449 阅读:12 留言:0更新日期:2023-05-12 16:04
本发明专利技术公开了一种意图识别任务和实体识别任务的联合训练方法及装置,该方法包括:获取句子文本训练数据;通过所述句子文本训练数据对预设模型进行训练,直至所述预设模型训练完成,所述预设模型包括意图识别层和实体识别层,所述意图识别层用于基于所述句子文本训练数据训练意图识别任务,所述实体识别层用于基于所述句子文本训练数据训练实体识别任务;其中,在意图识别层和所述实体识别层的训练过程中,所述意图识别层和所述实体识别层之间共享所述预设模型的模型参数。可见,实施本发明专利技术能够提高意图识别的准确度和实体识别的准确度。够提高意图识别的准确度和实体识别的准确度。够提高意图识别的准确度和实体识别的准确度。

【技术实现步骤摘要】
意图识别任务和实体识别任务的联合训练方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种意图识别任务和实体识别任务的联合训练方法及装置。

技术介绍

[0002]日常业务中,意图识别和NER(Named Entity Recognition,命名实体识别)都是问答系统中比较重要的一环。比如用户提出问题:帮我预订10月1号的丽江的希尔顿酒店。这时候系统需要对问题作出意图识别和NER分析,识别意图为“预订酒店”后,并识别出问题中的实体分别为10月1号、丽江、希尔顿酒店。得到这些信息后更加有利于系统在数据库中查询,作出比较正确的回应。
[0003]然而,目前的意图识别的准确度和实体识别的准确度有待进一步提高。

技术实现思路

[0004]本专利技术所要解决的技术问题在于,目前的意图识别和实体识别的任务都是分开训练的,无法利用意图识别和实体识别之间的关联性,导致意图识别的准确度和实体识别的准确度都不够高。因此,本专利技术实施例提供一种意图识别任务和实体识别任务的联合训练方法及装置,能够有利于提高意图识别的准确度和实体识别的准确度。
[0005]为了解决上述技术问题,本专利技术第一方面公开了一种意图识别任务和实体识别任务的联合训练方法,所述方法包括:
[0006]获取句子文本训练数据;
[0007]通过所述句子文本训练数据对预设模型进行训练,直至所述预设模型训练完成,所述预设模型包括意图识别层和实体识别层,所述意图识别层用于基于所述句子文本训练数据训练意图识别任务,所述实体识别层用于基于所述句子文本训练数据训练实体识别任务;
[0008]其中,在意图识别层和所述实体识别层的训练过程中,所述意图识别层和所述实体识别层之间共享所述预设模型的模型参数。
[0009]作为一种可选的实施方式,在本专利技术第一方面中,所述句子文本训练数据包括训练句子文本对应的文本编码向量、所述训练句子文本对应的位置编码向量、所述训练句子文本对应的意图标签向量和所述训练句子文本对应的实体标签向量,所述预设模型还包括BERT层,所述通过所述句子文本训练数据对预设模型进行训练,包括:
[0010]将所述文本编码向量和所述位置编码向量输入至所述BERT层,得到CLS向量,所述CLS向量用于表示所述训练句子文本的语义特征;
[0011]将所述CLS向量和所述CLS向量对应的意图标签向量输入至所述意图识别层,以使所述意图识别层基于所述CLS向量和所述CLS向量对应的意图标签向量训练所述意图识别任务;
[0012]将所述CLS向量和所述CLS向量对应的实体标签向量输入至所述实体识别层,以使
所述实体识别层基于所述CLS向量和所述CLS向量对应的实体标签向量训练所述实体识别任务。
[0013]作为一种可选的实施方式,在本专利技术第一方面中,所述实体识别层包括BiLSTM层和CRF层中的至少一层,所述实体识别层基于所述CLS向量和所述CLS向量对应的实体标签向量训练所述实体识别任务,包括:
[0014]若所述实体识别层包括所述BiLSTM层,则通过所述BiLSTM层获取所述训练句子文本的上下文语义特征向量,以基于所述CLS向量、所述上下文语义特征向量和所述实体标签向量训练所述实体识别任务;
[0015]若所述实体识别层包括所述CRF层,则通过所述CRF层对所述位置编码向量进行校正,以基于所述CLS向量、校正后的所述位置编码向量和所述实体标签向量训练所述实体识别任务;
[0016]若所述实体识别层包括所述BiLSTM层和所述CRF层,则通过所述BiLSTM层获取所述训练句子文本的上下文语义特征向量,并通过所述CRF层对所述位置编码向量进行校正,以基于所述CLS向量、校正后的所述位置编码向量、所述上下文语义特征向量和所述实体标签向量训练所述实体识别任务。
[0017]作为一种可选的实施方式,在本专利技术第一方面中,所述意图识别层包括Dropout层、FC层和Softmax层,所述意图识别层基于所述CLS向量和所述CLS向量对应的意图标签向量训练所述意图识别任务,包括:
[0018]将同一所述CLS向量输入至所述Dropout层至少两次,得到同一所述CLS向量对应的至少两个目标CLS向量;
[0019]将至少两个所述目标CLS向量分别输入至FC层,得到各所述目标CLS向量对应的意图预测向量;
[0020]将各所述目标CLS向量对应的意图预测向量输入至所述Softmax层,得到各所述意图预测向量对应的意图预测损失,以根据同一所述CLS向量对应的不同所述意图预测损失更新所述模型参数,所述意图预测损失是所述Softmax层根据所述意图预测向量和所述意图标签向量得到的。
[0021]作为一种可选的实施方式,在本专利技术第一方面中,所述获取句子文本训练数据,包括:
[0022]获取训练集,所述训练集包括多种语言分别对应的训练句子文本、所述训练句子文本对应的意图标签和所述训练句子文本对应的实体标签;
[0023]针对各训练句子文本,对所述训练句子文本进行处理得到所述训练句子文本对应的句子文本训练数据;
[0024]所述对所述训练句子文本进行处理得到所述训练句子文本对应的句子文本训练数据,包括:
[0025]对所述训练句子文本进行分词处理,得到所述训练句子文本对应的词语文本;
[0026]对所述训练句子文本对应的词语文本、所述训练句子文本对应的意图标签和所述训练句子文本对应的实体标签进行编码处理,得到所述训练句子文本对应的文本编码向量、所述训练句子文本对应的位置编码向量、所述训练句子文本对应的意图标签向量和所述训练句子文本对应的实体标签向量。
[0027]作为一种可选的实施方式,在本专利技术第一方面中,所述方法还包括:
[0028]获取所述意图识别任务的第一训练损失、所述意图识别任务对应的第一权重、所述实体识别任务的第二训练损失和所述实体识别任务对应的第二权重;
[0029]根据所述第一训练损失、所述第一权重、所述第二训练损失和所述第二权重确定所述预设模型的目标训练损失,其中,所述目标训练损失分别与第一乘积和第二乘积正相关,所述第一乘积包括所述第一训练损失和所述第一权重之间的乘积,所述第二乘积包括所述第二训练损失和所述第二权重之间的乘积;
[0030]根据所述目标训练损失判断确定所述预设模型是否训练完成。
[0031]作为一种可选的实施方式,在本专利技术第一方面中,所述方法还包括:
[0032]在所述预设模型的训练过程中,确定所述意图识别任务的第一收敛速度以及所述实体识别任务的第二收敛速度;
[0033]根据所述第一收敛速度和所述第二收敛速度,确定所述第一权重和所述第二权重;
[0034]其中,在所述第一收敛速度大于所述第二收敛速度的情况下,所述第一权重小于所述第二权重;在所述第一收敛速度小于所述第二收敛速度的情况下,所述第一权重大于所述第二权重。
[0035]本专利技术第二方面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种意图识别任务和实体识别任务的联合训练方法,其特征在于,所述方法包括:获取句子文本训练数据;通过所述句子文本训练数据对预设模型进行训练,直至所述预设模型训练完成,所述预设模型包括意图识别层和实体识别层,所述意图识别层用于基于所述句子文本训练数据训练意图识别任务,所述实体识别层用于基于所述句子文本训练数据训练实体识别任务;其中,在意图识别层和所述实体识别层的训练过程中,所述意图识别层和所述实体识别层之间共享所述预设模型的模型参数。2.根据权利要求1所述的方法,其特征在于,所述句子文本训练数据包括训练句子文本对应的文本编码向量、所述训练句子文本对应的位置编码向量、所述训练句子文本对应的意图标签向量和所述训练句子文本对应的实体标签向量,所述预设模型还包括BERT层,所述通过所述句子文本训练数据对预设模型进行训练,包括:将所述文本编码向量和所述位置编码向量输入至所述BERT层,得到CLS向量,所述CLS向量用于表示所述训练句子文本的语义特征;将所述CLS向量和所述CLS向量对应的意图标签向量输入至所述意图识别层,以使所述意图识别层基于所述CLS向量和所述CLS向量对应的意图标签向量训练所述意图识别任务;将所述CLS向量和所述CLS向量对应的实体标签向量输入至所述实体识别层,以使所述实体识别层基于所述CLS向量和所述CLS向量对应的实体标签向量训练所述实体识别任务。3.根据权利要求2所述的方法,其特征在于,所述实体识别层包括BiLSTM层和CRF层中的至少一层,所述实体识别层基于所述CLS向量和所述CLS向量对应的实体标签向量训练所述实体识别任务,包括:若所述实体识别层包括所述BiLSTM层,则通过所述BiLSTM层获取所述训练句子文本的上下文语义特征向量,以基于所述CLS向量、所述上下文语义特征向量和所述实体标签向量训练所述实体识别任务;若所述实体识别层包括所述CRF层,则通过所述CRF层对所述位置编码向量进行校正,以基于所述CLS向量、校正后的所述位置编码向量和所述实体标签向量训练所述实体识别任务;若所述实体识别层包括所述BiLSTM层和所述CRF层,则通过所述BiLSTM层获取所述训练句子文本的上下文语义特征向量,并通过所述CRF层对所述位置编码向量进行校正,以基于所述CLS向量、校正后的所述位置编码向量、所述上下文语义特征向量和所述实体标签向量训练所述实体识别任务。4.根据权利要求2所述的方法,其特征在于,所述意图识别层包括Dropout层、FC层和Softmax层,所述意图识别层基于所述CLS向量和所述CLS向量对应的意图标签向量训练所述意图识别任务,包括:将同一所述CLS向量输入至所述Dropout层至少两次,得到同一所述CLS向量对应的至少两个目标CLS向量;将至少两个所述目标CLS向量分别输入至FC层,得到各所述目标CLS向量对应的意图预测向量;将各所述目标CLS向量对应的意图预测向量输入至所述Softmax层,得到各所述意图预测向量对应的意图预测损失,以根据同一所述CLS向量对应的不同所述意图预测损失更新
所述模型参数,所述意图预测损失是所述Softmax层根据所述意图预测向...

【专利技术属性】
技术研发人员:陈莹莹陈第
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1