多意图识别方法、装置、设备及介质制造方法及图纸

技术编号：27772274 阅读：15 留言：0更新日期：2021-03-23 12:53

本发明专利技术公开了一种多意图识别方法、装置、电子设备及计算机存储介质，涉及自然语言处理技术领域，旨在解决多意图识别的计算量大和时效性低的问题。该方法包含以下步骤：通过单意图标注数据训练生成文本分类识别模型，通过多意图标注数据训练生成多标签分类识别模型；将待识别文本分别输入文本分类识别模型和多标签分类识别模型，得到第一意图集和第二意图集，其中，第一意图集包括待识别文本中各意图的占比值，第二意图集包括待识别文本中各意图存在的概率值；根据第一意图集和第二意图集，将各意图存在的概率值与各意图的占比值对应进行分值计算后，形成待识别文本的意图候选集。

全部详细技术资料下载

【技术实现步骤摘要】
多意图识别方法、装置、设备及介质
本专利技术涉及自然语言处理
，尤其涉及一种多意图识别方法、装置、设备及介质。
技术介绍
意图识别是语义理解的重要组成部分，正确识别用户文本的意图，是执行正确决策或响应流程的关键。在意图识别的应用场景中，用户的文本内容往往是由多个意图组合而成，对该文本内容进行多意图识别的准确性，直接影响后续的决策或响应流程的准确性。在现有技术中，中国专利申请CN201811267991.4提出一种中文文本多意图识别方法及系统，根据预设的意图类别，计算每个意图类别对应的标准向量，将待识别文本的向量输入单意图识别模型中，输出待识别文本的主意图类别，并计算待识别文本的向量与每个意图类别对应的标准向量之间的马氏距离，以得到待识别文本的子意图类别。但是该专利采用无监督计算方法，其识别准确率完全取决于意图标准向量，然后意图标准向量的确定并未考虑每个样本的差异性，准确率较低。同时该专利在获取多意图时，需要计算待识别文本与每个意图类别的距离，当意图类别越多时，计算量和耗时也就越大。而中国专利申请CN201911421640.9也提出一种多意图识别训练和使用方法及装置，通过将原始的意图标注数据中的目标句、原始意图标注数据所包含的意图类别的代表句组成句子对进行编码，得到目标句向量和代表句向量，拼接向量后通过分类器判断句子对是否相似，对句向量编码器和分类器进行训练，通过训练后的向量编码将待检测文本转换为句向量，将得到句向量和意图类别的句向量进行一一拼接后，通过训练后的分类器判断是否相似。该专利的多意图识别需要...

【技术保护点】
1.一种多意图识别方法，其特征在于，包括以下步骤：/n获取单意图标注数据和多意图标注数据；/n通过所述单意图标注数据训练生成文本分类识别模型；/n通过所述多意图标注数据训练生成多标签分类识别模型；/n获取待识别文本；/n将所述待识别文本分别输入所述文本分类识别模型和所述多标签分类识别模型，得到第一意图集和第二意图集，其中，所述第一意图集包括所述待识别文本中各意图的占比值，所述第二意图集包括所述待识别文本中各意图存在的概率值；/n根据所述第一意图集和第二意图集，将所述各意图存在的概率值与所述各意图的占比值对应进行分值计算后，形成所述待识别文本的意图候选集。/n

【技术特征摘要】
1.一种多意图识别方法，其特征在于，包括以下步骤：
获取单意图标注数据和多意图标注数据；
通过所述单意图标注数据训练生成文本分类识别模型；
通过所述多意图标注数据训练生成多标签分类识别模型；
获取待识别文本；
将所述待识别文本分别输入所述文本分类识别模型和所述多标签分类识别模型，得到第一意图集和第二意图集，其中，所述第一意图集包括所述待识别文本中各意图的占比值，所述第二意图集包括所述待识别文本中各意图存在的概率值；
根据所述第一意图集和第二意图集，将所述各意图存在的概率值与所述各意图的占比值对应进行分值计算后，形成所述待识别文本的意图候选集。

2.如权利要求1所述的多意图识别方法，其特征在于，所述获取单意图标注数据和多意图标注数据，还包括：
获取单意图标注数据，根据所述单意图标注数据生成多意图标注数据。

3.如权利要求2所述的多意图识别方法，其特征在于，所述根据所述单意图标注数据生成多意图标注数据，包括：
将所述单意图标注数据进行排列组合，生成所述多意图标注数据；
或，
将所述单意图标注数据进行同义词替换和/或句式调整，生成所述多意图标注数据。

4.如权利要求1所述的多意图识别方法，其特征在于，所述将所述各意图存在的概率值与所述各意图的占比值对应进行分值计算后，形成所述待识别文本的意图候选集，包括：
将所述各意图存在的概率值与所述各意图的占比值对应进行分值的线性加权后，形成所述待识别文本的意图候选集；
其中，所述意图候选集包括所述各意图和所述各意图的加权值。

5.如权利要求1所述的多意图识别方法，其特征在于，所述将所述各意图存在的概率值与所述各意图的占比值对应进行分值计算后，形成所述待识别文本的意图候选集，包括：
将所述各意图存在的概率值与所述各意图的占比...

【专利技术属性】
技术研发人员：嵇望，王伟凯，钱艳，朱鹏飞，安毫亿，梁青，
申请(专利权)人：杭州远传新业科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人