一种针对小语种的小样本意图识别方法技术

技术编号:34008673 阅读:11 留言:0更新日期:2022-07-02 14:02
本发明专利技术属于对话系统意图识别应用领域,提出了一种针对小语种的小样本意图识别方法。该方法通过数据预处理、方法设计、模型训练和模型测试和四个阶段,基于小样本学习意图识别,旨在针对小语种对话语句进行意图识别,从人类对话中理解其真实意图。本发明专利技术中的小样本学习可以在每类只有少量甚至个位数标记数据的情况下实现类别预测,因此能有效突破小语种语料不足的障碍。同时发现了用户意图表达多样化对意图识别的干扰,从多语义的角度对对话语句进行特征建模和关系建模,确保了语句语义特征更接近真实意图特征,提高了小语种意图识别的准确性。确性。确性。

【技术实现步骤摘要】
一种针对小语种的小样本意图识别方法


[0001]本专利技术涉及对话系统意图识别应用领域,尤其涉及一种针对小语种的小样本意图识别方法。

技术介绍

[0002]意图识别旨在从对话或自然语言中获取人类意图,是语句分析的重要技术手段,在商业上用途广泛。例如,在手机语音助手中,在与用户对话时,能够准确识别用户意图可以及时回复用户问题并给予帮助。现有的意图识别方法主要面向广泛使用的英语和汉语等大语种,并且要求每个意图具有海量标记的语料。这些方法通常利用深度学习技术,例如卷积神经网络、递归神经网络、Bert来学习整个句子的表示。但是由于小语种语料的缺乏,每个意图的标记数据都十分有限,因此基于传统监督学习的意图识别方法并不适用于小语种意图识别。
[0003](1)意图识别概述
[0004]早期的意图识别基于语句规则进行分类,由人工预先制定规则模板,支持的检测对象仅局限在高度符合模板的用户语句,无法适应自然对话。随着统计学方法以及机器学习方法的研究,大量比较成熟的分类模型,例如朴素贝叶模型,支持向量机模型等,都被用于意图识别领域,并取得了比较好的效果。2014年,陈浩辰在“基于微博的消费意图挖掘”中,针对消费意图检测任务使用朴素贝叶斯模型和支持向量机模型在微博语料分别进行了测试,两种方法均取得了出色的测试结果。为了应对标准分类模型对较复杂语句的识别错误情况,研究人员试图通过优化单词嵌入和预先提取特征来辅助进行意图识别。但是,这种基于统计的机器学习方法较为依赖人工经验确定的特征和训练数据集,并没有考虑到会话语句的上下文信息。
[0005]近年来,深度学习方法较多地被应用于意图识别领域。与传统机器学习方法相比,深度学习方法可以通过单词序列更好地提取对话语句特征。2014年,Kim等人提出将卷积神经网络应用于文本分类任务,随后,刘龙飞等人提出使用卷积神经网络提取文本特征,并用于用户情感分析。卷积神经网络(CNN)在图像检测领域已经得到了广泛应用,其并行性高,能够通过窗口的位置变化识别局部特征。但是卷积神经网络难以捕获长距离特征,而且卷积神经网络中的池化层非常不利于语言中重要序列信息的保留。
[0006]不同于卷积神经网络,循环神经网络(RNN)采用线性序列结构,能够在一定程度上捕获序列信息,也是一种在提取文本特征中取得较好效果的神经网络。但是由于循环神经网络的反向传播路径比较长,一方面,网络前期输入的信息对结果的影响可能微乎其微,另一方面也会随之产生梯度消失,梯度爆炸等问题。为了解决上述问题,Hochreiter等人对循环神经网络(RNN)进行了改进,提出了长短期记忆网络(LSTM),通过门机制给予信息选择性传输的能力,长短期记忆网络更加类似人类的记忆模式,在文本特征提取任务取得了比较好的效果。最近,在CNN与RNN(LSTM)的基础上,产生了很多变体,可以针对特定需求解决特征提取问题,例如门控循环单元(GRU)模型。
[0007]最近,

Bert:Pre

training of deep bidirectional transformers for language understanding.In Conference of the North American Chapter of the Association for Computational Linguistics

中,提出预训练模Bert,它可以解决众多自然语言处理问题,它是在Transformer架构基础上构建的一种优秀的深度模型。模型参数通过预测输入中的随机掩蔽词来进行训练。训练好的模型可以用于文本分类、单词嵌入表示学习、意图识别等任务。
[0008]神经网络模型的一个重要优点是解决特征工程问题。非神经网络的自然语言处理方法通常严重依赖离散的人工特征,然而神经网络通常利用低维且密集的向量表征语言的句法和语义特征。在特定的自然语言处理任务中,模型可以学习到不同的向量表示,因此,神经网络使得搭建不同的自然语言处理系统更加简单。
[0009](2)小样本意图识别概述
[0010]在传统的意图识别中,深度神经网络模型通常需要利用大量的训练数据来取得能够真实应用的效果。此外,深度神经网络的参数量是巨大的,因此它在小数据集上容易发生过拟合,在实践中不能具有良好的泛化能力。但在真实的应用场景下,大量的标注数据集是非常昂贵的并且不容易实现,同时,随着时间的推进,应用场景可能会出现变化,新的意图标签会出现。尤其在小语种语料获取的初期阶段,标注的数据是非常稀少的,并且会不断出现新的意图。模型如何适应数据量少并且不断出现新的类别是一个非常重要的研究方向。在数据量受限的情况下,数据驱动的传统深度学习技术难以解决过拟合以及泛化能力弱的问题。
[0011]现有研究中主要有以下几种方法可以解决标记数据稀缺的问题。数据扩充是一种比较直接的方式,它主要使用数据增强技术来缓解标记数据不足,提高数据的多样性。数据扩充的常见方法是利用无标签数据,使用半监督学习来对未标记数据进行标记,从而实现标记数据的扩充;或者采用对标记数据进行变换、加噪声,以及利用生成对抗网络(GAN)生成数据等方式进行标记数据扩充。模型微调是另一种借助其它领域的数据知识来缓解当前领域标记样本有限的方法。它主要是利用某一相关领域的数据训练一个模型,然后对训练好的模型参数在本领域上进行微调来获取新的训练模型。但是,这些方式都是在传统分类的基础上,通过弥补小样本数据量不足的缺点进行的局部改进,并不是从根本上直接适应小样本分类的方法。不同于上述方法,小样本学习受人类学习范式的启发,借助从以前的类别中学习到的先验知识,实现对少量标记的类别(意图)进行预测。
[0012]目前,在机器学习和人工智能领域,小样本学习技术逐渐兴起。小样本学习的优势在于它可以在每类只有少量甚至个位数标记数据的情况下实现类别预测,因此能有效突破小语种语料不足的障碍。目前的小样本学习方法主要基于元学习的思想,即在训练时模拟标记数据缺失的测试场景,将训练数据拆分成大量只包含很少标记数据的任务;然后利用这些任务训练模型,并将模型迁移到新类的预测中。这些方法根据类型可以划分为基于模型的方法和基于度量的方法。
[0013]基于模型的方法主要通过大量不同的任务训练学习器的模型,最后学习到一个较好的模型参数。例如,MANN提出使用记忆增强的方法来解决小样本学习任务。该方法基于神经网络图灵机的思想,因为神经网络图灵机的能通过外部存储进行短时记忆,并能通过缓慢权值更新来进行长时记忆,神经网络图灵机的可以学习将表达存入记忆的策略,以及如
何用这些表达来进行预测。MAML的核心思想是学习模型的初始化参数使得在一步或几步迭代后在新任务上的精度最大化。它学的不是模型参数的更新函数或是规则,它不局限于参数的规模和模型架构。它本质上也是学习一个好的特征使得可以适合很多任务(包括分类、回归、增强学习),并通过模型微调来获得好的效果。
[0014]基于度量的方法希望为所有任务学习一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对小语种的小样本意图识别方法,其特征在于,包括如下步骤,(一)、数据预处理;S1:选取小语种,进行小语种语料的收集;收集的小语种对话语句附加小语种意图标签的最终格式为“小语种意图#小语种对话语句”;S2:利用分词器对小语种对话语句分词,分离词性不同的相连单词;S3:收集无意图标签标记的小语种语料,预训练Bert模型,采用Bert模型通过双向循环神经网络模型建立学习单词嵌入表示矩阵;给定一具有T个单词的语句x={w1,w2,

,w
T
},其中,},其中,代表第t个单词的词向量,词向量由Bert预训练模型得到;每个单词的词向量使用一个双向循环神经网络模型进一步编码;经网络模型进一步编码;其中,LSTM
fw
和LSTM
bw
分别对应前向和后向LSTM,和分别对应单词w
t
从LSTM
fw
和LSTM
bw
学习到的隐藏状态;是单词w
t
‑1从LSTM
fw
学习到的隐藏状态,是单词w
t
‑1从LSTM
bw
学习到的隐藏状态;单词w
t
对应的总向量是该语句的隐藏状态矩阵即单词嵌入表示矩阵是S4:对步骤S1收集的由小语种意图标签标记的数据进行小样本任务划分;采用C

way K

shot任务划分方式对收集的对话语句进行小样本任务划分;在每个小样本任务中,数据由C类构成,每个类包含K个数据;(二)、方法设计;S5:通过自注意力机制和非线性激活函数构建单词重要性学习模型,输出单词重要性;通过自注意力机制和softmax非线性激活函数,从单词嵌入表示矩阵获取语句中单词的重要性权重:A=softmax(F2ReLu(F1H)),其中,和是分别自注意力机制的模型参数,是分别自注意力机制的模型参数,是权重分配矩阵;ReLu是线性整流函数;R代表语句包含的语义个数;当R=1时,单词重要性权重A由一个向量构成,表示单词在语句中的权重;当R>1时,会获得R个单词重要性权重向量,即把一个语句分解为R个语义表示,每个语义表示都对应一个单词重要性权重向量;S6:提出层次化的多语义特征提取模型,进行多语义学习;给定一个包含T个单词的句子,通过步骤S5获得其单词与语义间的权重分配矩阵A,A(r,i)代表第i个单词对于第r个语义的重要程度;根据单词与语义的权重分配矩阵获得句子的对话层面的多语义特征表示:M=HA
T

从对话层面的多语义特征表示中进一步抽取Z个意图层面的多语义特征表示;针对对话层面的多语义特征表示运用映射矩阵,获得映射后的对话层面的多语义特征表示;其中,为第z个意图语义空间的映射矩阵;第z个意图层面的多语义特征表示通过对R个映射后的对话层面的多语义特征表示进行加权求和:l
z
=M
z

z
)
T
,其中,l
z
为第z个意图层面的多语义特征表示;代表R个对话层面语义与第z个意图层面语义之间的权重向量;通过单头注意力机制自动计算第z个意图层面语义对应的权重向量;α
z
=softmax(a
z
tanh(G
z
M)),其中,是单头注意力机制的模型参数,tanh是非线性激活函数;重复Z次单头注意力机制,获取Z个意图层面的多语义特征表示;S7:构造语句和原型之间的关联网络,实现对测试语句的意图识别;每个小样本任务分为支持集和查询集;支持集指示类别的特有信息,查询集用于指导关联网络模型的意图预测;每个测试语句通过步骤S6获取多语义特征,每个小样本任务的支持集由多语义特征表示,支持集数据为每个类学习一个多语义原型,每类有K个由小语种意图标签标记的样本;根据支持集中语句的多语义特征表示获取每个类原型;构建学习测试语句与类原型间相关程度的关系网络;相关程度最大的类原型对应的类别为该测试语句的...

【专利技术属性】
技术研发人员:张晓彤刘晗相玖红
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1