一种基于小样本冷启动的意图识别方法、装置及可读介质制造方法及图纸

技术编号:31494464 阅读:42 留言:0更新日期:2021-12-18 12:33
本发明专利技术公开了一种基于小样本冷启动的意图识别方法、装置及可读介质,通过获取至少一个新增意图类别所对应的标注后的至少一个第一训练数据和意图识别模型中已标注的第二训练数据,第二训练数据的数据量为n;将第二训练数据分为num个第三训练数据;将第一训练数据分别与num个第三训练数据中的每一个第三训练数据进行拼接,得到num个分类数据集;分别对num个分类数据集中的每一个分类数据集训练一个分类模型,得到num个训练好的分类模型;接收到待识别的文本信息后,根据num个训练好的分类模型进行预测并投票,根据投票结果确定文本信息的意图类别。本发明专利技术避免原有的意图识别模型规模的扩大,减少样本标注的人工成本,提供识别速度和准确性。识别速度和准确性。识别速度和准确性。

【技术实现步骤摘要】
一种基于小样本冷启动的意图识别方法、装置及可读介质


[0001]本专利技术涉及自然语言处理领域,具体涉及一种基于小样本冷启动的意图识别方法、装置及可读介质。

技术介绍

[0002]随着深度学习和自然语言处理技术的发展,很多公司都在致力于发展人机对话系统,希望人和机器之间能够通过自然语言进行交互。意图识别作为自然语言处理领域中一个重要的研究方向,主要用于根据文本信息识别用户的行为意图。
[0003]现有的意图识别系统都是在事先训练好的意图识别模型上进行识别,也就是,意图识别系统的识别效果依赖于事先训练好的意图识别模型,而意图识别模型的生成又依赖于事先标注好的训练语料,事先标注的训练语料越多越全,意图识别系统识别效果就越好。大量平台用户在创建一个新的意图类别时,并没有大量标注数据能用于训练,每个意图类别往往只有几个或十几个样本,一方面很难通过少量标注样本对意图识别模型进行训练,得到识别结果准确的意图识别模型,另一方面,每次在创建一个新的意图类别时,需要对意图识别模型进行重新训练,导致意图识别模型比较大,难以在实际生产环境中部署。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小样本冷启动的意图识别方法,其特征在于,包括以下步骤:S1,获取至少一个新增意图类别所对应的标注后的至少一个第一训练数据和意图识别模型中已标注的第二训练数据,第二训练数据的数据量为n;S2,将所述第二训练数据分为num个第三训练数据,其中,每个第三训练数据的数据量为m,num为[]为取整符号,且num为奇数,所述第三训练数据中的意图类别比例与所述第二训练数据中的意图类别比例相同;S3,将所述第一训练数据分别与所述num个第三训练数据中的每一个第三训练数据进行拼接,得到num个分类数据集;S4,分别对所述num个分类数据集中的每一个分类数据集训练一个分类模型,得到num个训练好的分类模型;S5,接收到待识别的文本信息后,根据所述num个训练好的分类模型进行预测并投票,得到投票结果,根据所述投票结果确定所述文本信息的意图类别。2.根据权利要求1所述的基于小样本冷启动的意图识别方法,其特征在于,所述步骤S5中具体包括:S51,将所述文本信息分别输入训练好的所述num个分类模型进行预测,得到num个预测结果;S52,根据所述num个预测结果进行投票,确定投票结果;S53,根据所述投票结果判断所述文本信息是否属于新增意图类别,若是则所述文本信息的意图类别为新增意图类别,否则将所述文本信息输入所述意图识别模型进行意图识别,得到意图类别。3.根据权利要求1所述的基于小样本冷启动的意图识别方法,其特征在于,所述步骤S2具体包括:在所述第二训练数据中进行不放回抽取m个数据,得到一个所述第三训练数据;重复num次,得到num个所述第三训练数据。4.根据权利要求1所述的基于小样本冷启动的意图识别方法,其特征在于,当所述新增意图类别为1个,所述分类模型采用二分类模型,m为所述第一训练数据的数据量。5.根据权利要求1所述的基于小样本冷启动的意图识别方法,其特征在于,当所述新增意图类别为2个及2个以...

【专利技术属性】
技术研发人员:黄友福肖龙源李稀敏邹辉
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1