基于embedding方法的意图识别算法技术

技术编号:21453979 阅读:44 留言:0更新日期:2019-06-26 04:47
本发明专利技术公开了一种基于embedding方法的意图识别算法,基于特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,将分类问题转化了排序问题;通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题;对论文中的损失函数进行修改,使得新的损失函数具有更好的稳定性和鲁棒性;本发明专利技术提供的基于embedding方法的意图识别算法,在通用数据集上预训练的词向量需要占用上GB的内存空间,而本申请方案提供的模型由于只是嵌入了所关心的词和意图,因此仅需100MB左右的内存空间,占用的内存空间更少。

【技术实现步骤摘要】
基于embedding方法的意图识别算法
本专利技术涉及机器学习算法类,尤其涉及一种基于embedding方法的意图识别算法。
技术介绍
目前智能客服中的意图识别算法一般是选用一个预训练好的词向量,对用户的输入文本转换映射为词向量,用预训练好的词向量对用户输入语句进行表示,然后选用传统机器学习算法或深度学习算法进行分类,将意图识别转换为一个多分类问题。现有技术的缺点主要有四个:意图识别的最终效果受词向量质量的影响非常大,与词向量的质量相比,选用何种分类算法对最终效果的影响不大;由于词向量的训练一般都是在通用数据集上进行,所以特定领域内词语可能未出现在词向量中或通用数据集中词的含义与特定领域内词的含义有可能不同,导致预训练的词向量中并未学习到特定领域内的词或学习的不准确;在通用数据集上预训练的词向量在处理特定领域内的问题时会有大量的词并未使用,导致内存空间的浪费;在对具有多个意图的句子进行分类时现有技术不能得到很好的结果。
技术实现思路
本专利技术为解决上述技术问题而采用的技术方案是提供一种基于embedding方法的意图识别算法,其中,具体技术方案为:基于特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,将分类问题转化了排序问题;通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题;对论文中的损失函数进行修改,使得新的损失函数具有更好的稳定性和鲁棒性。上述的基于embedding方法的意图识别算法,其中:首先,将语料库中的所有语句都通过神经网络映射到一个新的向量空间中,网络输入层的维度为语料中所有语句分词后词语的数量,隐藏层和输出层的维度为可调节的超参数;然后,将所有意图也都映射到与上步相同的向量空间,输入层的维度与意图的数量相同,输出层的维度与之前网络的输出层相同。上述的基于embedding方法的意图识别算法,其中:为了训练模型,需要在新的向量空间中对语句与意图进行比较,具体的是最小化如下损失函数:其中E+是正例集合,E-是负例集合,是从负例集合中采用负采样方法选出的负样本,该损失函数对负例样本采用了取最大运算操作,只考虑输入语句和所有负样本相似度的最大值,而原损失函数是考虑输入语句和所有负样本相似度的平均值。本专利技术相对于现有技术具有如下有益效果:在通用数据集上预训练的词向量需要占用上GB的内存空间,而本申请方案提供的模型由于只是嵌入了所关心的词和意图,因此仅需100MB左右的内存空间,占用的内存空间更少;此方法的准确性也比使用预训练词向量配合分类器的方法更具优势,特别是在多意图分类的数据中,传统方法的F1-score为0.31,本方法的F1-score为0.88。附图说明图1为基于embedding方法的意图识别算法的示意图。图2为基于embedding方法的意图识别算法的示意图。具体实施方式本专利技术提供技术方案没有使用通用数据集上预训练好的词向量,而是基于自己特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,这样就将分类问题转化了排序问题。本专利技术的创新关键点有两个:一是通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题。二是对论文中的损失函数进行了修改,使得新的损失函数具有更好的稳定性和鲁棒性。如图1所示,首先将语料库中的所有语句都通过神经网络映射到一个新的向量空间中,网络输入层的维度为语料中所有语句分词后词语的数量,隐藏层和输出层的维度为可调节的超参数;然后如图2所示,将所有意图也都映射到与上步相同的向量空间,输入层的维度与意图的数量相同,输出层的维度与之前网络的输出层相同;为了训练模型,需要在新的向量空间中对语句与意图进行比较,具体的是最小化如下损失函数:其中E+是正例集合,E-是负例集合,是从负例集合中采用负采样方法选出的负样本。该损失函数对负例样本采用了取最大运算操作,只考虑输入语句和所有负样本相似度的最大值,而原损失函数是考虑输入语句和所有负样本相似度的平均值,经试验表明,采用最大值可以使结果具有更好的鲁棒性和稳定性,减少噪声数据对结果的影响。虽然本专利技术已以较佳实施例揭示如上,然其并非用以限定本专利技术,任何本领域技术人员,在不脱离本专利技术的精神和范围内,当可作些许的修改和完善,因此本专利技术的保护范围当以权利要求书所界定的为准。本文档来自技高网...

【技术保护点】
1.一种基于embedding方法的意图识别算法,其特征在于:基于特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,将分类问题转化了排序问题;通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题;对论文中的损失函数进行修改,使得新的损失函数具有更好的稳定性和鲁棒性。

【技术特征摘要】
1.一种基于embedding方法的意图识别算法,其特征在于:基于特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,将分类问题转化了排序问题;通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题;对论文中的损失函数进行修改,使得新的损失函数具有更好的稳定性和鲁棒性。2.如权利要求1所述的基于embedding方法的意图识别算法,其特征在于:首先,将语料库中的所有语句都通过神经网络映射到一个新的向量空间中,网络输入层的维度为语料中所有语句分词后词...

【专利技术属性】
技术研发人员:孙晓明
申请(专利权)人:上海凯岸信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1