一种针对小语种的小样本意图识别方法技术

技术编号：34008673 阅读：11 留言：0更新日期：2022-07-02 14:02

本发明专利技术属于对话系统意图识别应用领域，提出了一种针对小语种的小样本意图识别方法。该方法通过数据预处理、方法设计、模型训练和模型测试和四个阶段，基于小样本学习意图识别，旨在针对小语种对话语句进行意图识别，从人类对话中理解其真实意图。本发明专利技术中的小样本学习可以在每类只有少量甚至个位数标记数据的情况下实现类别预测，因此能有效突破小语种语料不足的障碍。同时发现了用户意图表达多样化对意图识别的干扰，从多语义的角度对对话语句进行特征建模和关系建模，确保了语句语义特征更接近真实意图特征，提高了小语种意图识别的准确性。确性。确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对小语种的小样本意图识别方法

[0001]本专利技术涉及对话系统意图识别应用领域，尤其涉及一种针对小语种的小样本意图识别方法。

技术介绍

[0002]意图识别旨在从对话或自然语言中获取人类意图，是语句分析的重要技术手段，在商业上用途广泛。例如，在手机语音助手中，在与用户对话时，能够准确识别用户意图可以及时回复用户问题并给予帮助。现有的意图识别方法主要面向广泛使用的英语和汉语等大语种，并且要求每个意图具有海量标记的语料。这些方法通常利用深度学习技术，例如卷积神经网络、递归神经网络、Bert来学习整个句子的表示。但是由于小语种语料的缺乏，每个意图的标记数据都十分有限，因此基于传统监督学习的意图识别方法并不适用于小语种意图识别。
[0003](1)意图识别概述
[0004]早期的意图识别基于语句规则进行分类，由人工预先制定规则模板，支持的检测对象仅局限在高度符合模板的用户语句，无法适应自然对话。随着统计学方法以及机器学习方法的研究，大量比较成熟的分类模型，例如朴素贝叶模型，支持向量机模型等，都被用于意图识别领域，并取得了比较好的效果。2014年，陈浩辰在“基于微博的消费意图挖掘”中，针对消费意图检测任务使用朴素贝叶斯模型和支持向量机模型在微博语料分别进行了测试，两种方法均取得了出色的测试结果。为了应对标准分类模型对较复杂语句的识别错误情况，研究人员试图通过优化单词嵌入和预先提取特征来辅助进行意图识别。但是，这种基于统计的机器学习方法较为依赖人工经验确定的特征和训练数据集，并没有考虑到会话语句的上下文信...

【技术保护点】

【技术特征摘要】
1.一种针对小语种的小样本意图识别方法，其特征在于，包括如下步骤，(一)、数据预处理；S1：选取小语种，进行小语种语料的收集；收集的小语种对话语句附加小语种意图标签的最终格式为“小语种意图#小语种对话语句”；S2：利用分词器对小语种对话语句分词，分离词性不同的相连单词；S3：收集无意图标签标记的小语种语料，预训练Bert模型，采用Bert模型通过双向循环神经网络模型建立学习单词嵌入表示矩阵；给定一具有T个单词的语句x＝{w1,w2,
…
,w
T
}，其中，}，其中，代表第t个单词的词向量，词向量由Bert预训练模型得到；每个单词的词向量使用一个双向循环神经网络模型进一步编码；经网络模型进一步编码；其中，LSTM
fw
和LSTM
bw
分别对应前向和后向LSTM，和分别对应单词w
t
从LSTM
fw
和LSTM
bw
学习到的隐藏状态；是单词w
t
‑1从LSTM
fw
学习到的隐藏状态，是单词w
t
‑1从LSTM
bw
学习到的隐藏状态；单词w
t
对应的总向量是该语句的隐藏状态矩阵即单词嵌入表示矩阵是S4：对步骤S1收集的由小语种意图标签标记的数据进行小样本任务划分；采用C
‑
way K
‑
shot任务划分方式对收集的对话语句进行小样本任务划分；在每个小样本任务中，数据由C类构成，每个类包含K个数据；(二)、方法设计；S5：通过自注意力机制和非线性激活函数构建单词重要性学习模型，输出单词重要性；通过自注意力机制和softmax非线性激活函数，从单词嵌入表示矩阵获取语句中单词的重要性权重：A＝softmax(F2ReLu(F1H))，其中，和是分别自注意力机制的模型参数，是分别自注意力机制的模型参数，是权重分配矩阵；ReLu是线性整流函数；R代表语句包含的语义个数；当R＝1时，单词重要性权重A由一个向量构成，表示单词在语句中的权重；当R>1时，会获得R个单词重要性权重向量，即把一个语句分解为R个语义表示，每个语义表示都对应一个单词重要性权重向量；S6：提出层次化的多语义特征提取模型，进行多语义学习；给定一个包含T个单词的句子，通过步骤S5获得其单词与语义间的权重分配矩阵A，A(r,i)代表第i个单词对于第r个语义的重要程度；根据单词与语义的权重分配矩阵获得句子的对话层面的多语义特征表示：M＝HA
T
，
从对话层面的多语义特征表示中进一步抽取Z个意图层面的多语义特征表示；针对对话层面的多语义特征表示运用映射矩阵，获得映射后的对话层面的多语义特征表示；其中，为第z个意图语义空间的映射矩阵；第z个意图层面的多语义特征表示通过对R个映射后的对话层面的多语义特征表示进行加权求和：l
z
＝M
z
(α
z
)
T
，其中，l
z
为第z个意图层面的多语义特征表示；代表R个对话层面语义与第z个意图层面语义之间的权重向量；通过单头注意力机制自动计算第z个意图层面语义对应的权重向量；α
z
＝softmax(a
z
tanh(G
z
M))，其中，是单头注意力机制的模型参数，tanh是非线性激活函数；重复Z次单头注意力机制，获取Z个意图层面的多语义特征表示；S7：构造语句和原型之间的关联网络，实现对测试语句的意图识别；每个小样本任务分为支持集和查询集；支持集指示类别的特有信息，查询集用于指导关联网络模型的意图预测；每个测试语句通过步骤S6获取多语义特征，每个小样本任务的支持集由多语义特征表示，支持集数据为每个类学习一个多语义原型，每类有K个由小语种意图标签标记的样本；根据支持集中语句的多语义特征表示获取每个类原型；构建学习测试语句与类原型间相关程度的关系网络；相关程度最大的类原型对应的类别为该测试语句的...

【专利技术属性】
技术研发人员：张晓彤，刘晗，相玖红，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人