基于embedding方法的意图识别算法技术

技术编号：21453979 阅读：44 留言：0更新日期：2019-06-26 04:47

本发明专利技术公开了一种基于embedding方法的意图识别算法，基于特定领域内的数据，将用户的输入文本与意图映射到相同的向量空间，使得用户的输入文本与用户意图可以在同一空间内进行相似度对比，将分类问题转化了排序问题；通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题；对论文中的损失函数进行修改，使得新的损失函数具有更好的稳定性和鲁棒性；本发明专利技术提供的基于embedding方法的意图识别算法，在通用数据集上预训练的词向量需要占用上GB的内存空间，而本申请方案提供的模型由于只是嵌入了所关心的词和意图，因此仅需100MB左右的内存空间，占用的内存空间更少。

全部详细技术资料下载

【技术实现步骤摘要】
基于embedding方法的意图识别算法
本专利技术涉及机器学习算法类，尤其涉及一种基于embedding方法的意图识别算法。
技术介绍
目前智能客服中的意图识别算法一般是选用一个预训练好的词向量，对用户的输入文本转换映射为词向量，用预训练好的词向量对用户输入语句进行表示，然后选用传统机器学习算法或深度学习算法进行分类，将意图识别转换为一个多分类问题。现有技术的缺点主要有四个：意图识别的最终效果受词向量质量的影响非常大，与词向量的质量相比，选用何种分类算法对最终效果的影响不大；由于词向量的训练一般都是在通用数据集上进行，所以特定领域内词语可能未出现在词向量中或通用数据集中词的含义与特定领域内词的含义有可能不同，导致预训练的词向量中并未学习到特定领域内的词或学习的不准确；在通用数据集上预训练的词向量在处理特定领域内的问题时会有大量的词并未使用，导致内存空间的浪费；在对具有多个意图的句子进行分类时现有技术不能得到很好的结果。
技术实现思路
本专利技术为解决上述技术问题而采用的技术方案是提供一种基于embedding方法的意图识别算法，其中，具体技术方案为：基于特定领域内的数据，将用户的输入文本与意图映射到相同的向量空间，使得用户的输入文本与用户意图可以在同一空间内进行相似度对比，将分类问题转化了排序问题；通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题；对论文中的损失函数进行修改，使得新的损失函数具有更好的稳定性和鲁棒性。上述的基于embedding方法的意图识别算法，其中：首先，将语料库中的所有语句都通过神经网络映射到一个新的向量空间中，网络...

【技术保护点】
1.一种基于embedding方法的意图识别算法，其特征在于：基于特定领域内的数据，将用户的输入文本与意图映射到相同的向量空间，使得用户的输入文本与用户意图可以在同一空间内进行相似度对比，将分类问题转化了排序问题；通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题；对论文中的损失函数进行修改，使得新的损失函数具有更好的稳定性和鲁棒性。

【技术特征摘要】
1.一种基于embedding方法的意图识别算法，其特征在于：基于特定领域内的数据，将用户的输入文本与意图映射到相同的向量空间，使得用户的输入文本与用户意图可以在同一空间内进行相似度对比，将分类问题转化了排序问题；通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题；对论文中的损失函数进行修改，使得新的损失函数具有更好的稳定性和鲁棒性。2.如权利要求1所述的基于embedding方法的意图识别算法，其特征在于：首先，将语料库中的所有语句都通过神经网络映射到一个新的向量空间中，网络输入层的维度为语料中所有语句分词后词...

【专利技术属性】
技术研发人员：孙晓明，
申请(专利权)人：上海凯岸信息科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人