基于特征匹配和领域自适应的对话意图识别方法及系统技术方案

技术编号：30912712 阅读：13 留言：0更新日期：2021-11-23 00:00

本发明专利技术提出了一种基于特征匹配和领域自适应的对话意图识别方法及系统，属于自然语言处理、意图识别技术领域。首先获取客服领域的预训练语言模型；利用对比学习对预训练语言模型进行二次训练，作为句子特征表示模型；针对不同领域，训练领域自适应的特征转换模块；获取由对话语句和目标意图组成的意图语料库，提取对话语句的领域自适应的句子特征并构建特征语料索引库；获取待识别的询问语句对应的领域自适应的句子特征，从特征语料索引库检索与其最匹配的句子特征对应的目标意图作为识别结果。本发明专利技术只需一个基础的句子特征表示模型和多个特征转换模块，解决了复杂的智能客服意图识别问题，提高了意图识别的准确性。提高了意图识别的准确性。提高了意图识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于特征匹配和领域自适应的对话意图识别方法及系统

[0001]本专利技术涉及属于自然语言处理、意图识别
，具体涉及一种基于特征匹配和领域自适应的对话意图识别方法及系统。

技术介绍

[0002]近年来，智能客服逐渐取代了传统的人工客服，智能对话系统作为最关键的前沿技术之一，一直受到学术界和工业界的高度关注。其中，对话意图识别作为智能对话系统的核心，是实现智能对话系统必不可少的模块，也是众多研究者的研究方向。
[0003]目前已有的意图识别算法主要分为基于规则的文本匹配算法和基于机器学习的深度学习算法。其中，基于规则的文本匹配算法在小样本数据上表现良好，且计算速度快，准确率较高。但是，该算法基于的字符规则需要大量人工编写，且缺乏语义理解能力，泛化性能较差，尤其对于比较复杂的意图识别问题，规则难以编写和维护。基于机器学习的深度学习算法能够通过大样本的学习，学习到很好的语义表示，但是，该算法对于小样本数据很容易过拟合，泛化性能较差，更重要的是，对于智能客服领域的千人千面需求，常规深度学习算法训练代价较大，成本较高。
[0004]众所周知，智能客服的意图识别存在两方面主要的业务特点，一方面，客服系统存在大量的客户，而不同客户的意图标签是不同的，即千人千面。另一方面，每个客户的意图训练数据量很少，无法针对每个用户去单独训练一个深度学习模型，这样成本极高且小样本数据无法克服过拟合问题。同样，基于规则的文本匹配算法不具备语义理解能力，无法解决复杂的智能客服的意图识别问题。

技术实现思路

[000...

【技术保护点】

【技术特征摘要】
1.一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，包括以下步骤：步骤一：获取客服领域的预训练语言模型；步骤二：利用对比学习，构建不同领域的正样本对和负样本对，对预训练语言模型进行二次训练，作为句子特征表示模型；步骤三：建立包含不同领域对话语句和目标意图标签的意图语料库，针对不同领域的对话语句，训练领域自适应的特征转换模块，每一个领域对应一个特征转换模块；步骤四：将意图语料库中的对话语句作为步骤二所述的句子特征表示模型的输入，提取到句子特征，再将句子特征作为步骤三得到的相对应领域下的特征转换模块的输入，生成对应领域下的句子特征，由所述的对应领域下的句子特征和目标意图标签构建特征语料索引库；步骤五：针对已知领域的待识别的询问语句，首先利用句子特征表示模型获取待识别询问语句的句子特征，再将得到的句子特征作为相对应领域下的特征转换模块的输入，生成对应领域下的句子特征；将生成的句子特征与特征语料索引库中的句子特征进行特征匹配，将特征语料索引库中最邻近的句子特征对应的意图标签作为意图识别结果。2.根据权利要求1所述的一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，所述的预训练语言模型采用中文BERT模型。3.根据权利要求1所述的一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，所述的正样本对和负样本对的构建方式为：获取不同领域的N个对话语句样本作为步骤一中的预训练语言模型的输入，得到N个句子特征；将N个句子特征中的随机一个或多个维度置为0，作为添加噪声后的N个句子特征；第i个句子特征与第i个添加噪声后的句子特征构成正样本对，第i个句子特征与第j个添加噪声后的句子特征构成负样本对，j≠i。4.根据权利要求3所述的一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，所述对比学习的训练目标函数为：其中，L表示训练损失值，sim(.)表示余弦相似度，τ为温度系数，h
i

【专利技术属性】
技术研发人员：姜兴华，李澳，周夏伟，
申请(专利权)人：杭州一知智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人