意图识别模型的训练方法、分析文本意图的方法及装置制造方法及图纸

技术编号：38083893 阅读：13 留言：0更新日期：2023-07-06 08:50

本申请提供一种意图识别模型的训练方法、分析文本意图的方法及装置，该方法包括，通过目标用户的多个意图文本从全部多元标签中召回部分多元标签，得到多个意图文本对应的部分多元标签，其中，意图文本表示目标用户具有意图表达的历史文本；从多个意图文本中筛选意图相同或者相似的文本，得到多个训练样本，其中，多个训练样本包括多个意图文本中的部分意图文本和部分意图文本对应的多个多元标签，多个多元标签为部分多元标签中的部分多元标签；通过多个训练样本对预训练语言模型进行训练，得到意图识别模型。通过该方法可以达到准确的通过文本意图对文本进行分类的效果。过文本意图对文本进行分类的效果。过文本意图对文本进行分类的效果。

全部详细技术资料下载

【技术实现步骤摘要】
意图识别模型的训练方法、分析文本意图的方法及装置

[0001]本申请涉及文本分类的领域，具体而言，涉及一种意图识别模型的训练方法、分析文本意图的方法及装置。

技术介绍

[0002]目前，传统对文本进行分类用到的分类模型在进行模型训练时需要人工来进行数据标注，并且选取的训练样本也是随机挑选。
[0003]上述基于人工标注训练样本的方法存在很大的局限性，会浪费大量的人工标注时间，并且由于人工标注的水准不同，最终进行分类模型训练时分类的效果也不同，导致通过意图对文本进行分类的结果不准确。
[0004]因此，如何准确的通过文本意图对文本进行分类，是一个需要解决的技术问题。

技术实现思路

[0005]本申请实施例的目的在于提供一种意图识别模型的训练方法，通过本申请的实施例的技术方案可以达到准确的通过文本意图对文本进行分类的效果。
[0006]第一方面，本申请实施例提供了一种意图识别模型的训练方法，包括，通过目标用户的多个意图文本从全部多元标签中召回部分多元标签，得到多个意图文本对应的部分多元标签，其中，意图文本表示目标用户具有意图表达的历史文本；从多个意图文本中筛选意图相同或者相似的文本，得到多个训练样本，其中，多个训练样本包括多个意图文本中的部分意图文本和部分意图文本对应的多个多元标签，多个多元标签为部分多元标签中的部分多元标签；通过多个训练样本对预训练语言模型进行训练，得到意图识别模型。
[0007]本申请在上述实施例中，通过目标用户的部分历史文本数据召回对应的多元标签，可以...

【技术保护点】

【技术特征摘要】
1.一种意图识别模型的训练方法，其特征在于，包括：通过目标用户的多个意图文本从全部多元标签中召回部分多元标签，得到所述多个意图文本对应的所述部分多元标签，其中，所述意图文本表示所述目标用户具有意图表达的历史文本；从所述多个意图文本中筛选意图相同或者相似的文本，得到多个训练样本，其中，多个训练样本包括所述多个意图文本中的部分意图文本和所述部分意图文本对应的多个多元标签，所述多个多元标签为所述部分多元标签中的部分多元标签；通过所述多个训练样本对预训练语言模型进行训练，得到意图识别模型。2.根据权利要求1所述的方法，其特征在于，所述通过目标用户的多个意图文本从全部多元标签中召回部分多元标签，得到所述多个意图对应的所述部分多元标签，包括：从所述目标用户的多个历史文本数据中筛选具有意图表达的历史文本，得到多个具有意图表达的历史文本；通过所述多个具有意图表达的历史文本从所述全部多元标签中召回部分多元标签，得到所述多个意图文本和所述多个意图文本对应的所述部分多元标签。3.根据权利要求2所述的方法，其特征在于，在所述从所述目标用户的多个历史文本数据中筛选具有意图表达的历史文本之前，所述方法还包括：获取所述目标用户的多个初始历史文本数据；对所述多个初始历史文本数据进行预处理，得到所述多个历史文本数据，其中，所述预处理的方法包括：清洗、删除特殊符号、常见标点归一和读法转换中的至少一种。4.根据权利要求1
‑
3任一项所述的方法，其特征在于，所述从所述多个意图文本中筛选意图相同或者相似的文本，得到多个训练样本，包括：将所述多个意图文本和所述部分多元标签转换成向量，得到多个意图文本向量和部分多元标签向量；将所述多个意图文本向量和所述部分多元标签向量转换成向量矩阵；通过所述向量矩阵从所述多个意图文本中筛选意图相同或者相似的意图文本，得到所述多个训练样本。5.根据权利要求4所述的方法，其特征在于，所述通过所述向量矩阵从所述多个意图文本中筛选意图相同或者相似的意图文本，得到所述多个训练样本，包括：计算所述向量矩阵中所述多个意图文本向量中任意两个意图文本向量的余弦相似度，得到多个相似度值；将所述多个相似度值大于预设阈值的相似度值对应的一个或多个文本和所述一个或多个文本对应的一个或多个多元标签作为所述训练样本。6.根据权利要求1
‑
3任一项所述的方法，其特征在于，在所述通过所述多个训练...

【专利技术属性】
技术研发人员：聂颖杰，纪诚，杜新凯，吕超，姚雷，陈慧琳，
申请(专利权)人：阳光保险集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人