【技术实现步骤摘要】
基于意图混淆的文本分类方法、装置、设备及存储介质
本专利技术涉及分类算法
,尤其涉及一种基于意图混淆的文本分类方法、装置、设备及存储介质。
技术介绍
在多轮对话系统中自然语言理解(naturallanguageunderstanding,NLU)是机器从用户身上获取信息至关重要的一个步骤。对于文本的意图识别是自然语言理解最常用的方法之一,但是常见的意图识别都局限于一句话对应一个意图,分类器将用户的话分到事先设计好的多个分类中的某一类当中去,也就是多分类方法。而实际的情况是用户的一句话常常表达了不止一个意图,在这种情况下单单只识别意图就无法满足业务需求了。因此,对话系统需要一个可以同时识别用户多种意图的自然语言理解模块,也就是要将传统的单意图识别扩展到多意图识别的领域。而多意图识别在业界一直是一个难题,通常的方法就是使用规则匹配,其原理就是靠人工事先为所有的意图设计关键词,若一句话匹配到了多个关键词就认为命中了多个意图,但这种方式存在扩展性差、人工工作量大,情况覆盖不全等缺点。
技术实现思路
...
【技术保护点】
1.一种基于意图混淆的文本分类方法,其特征在于,包括:/n获取待识别文本,所述待识别文本用于指示目标用户的至少一个意图;/n调用改进的快速文本分类模型的输入层对所述待识别文本进行识别,得到多个分词向量;/n调用所述改进的快速文本分类模型的隐藏层对所述多个分词向量进行叠加平均,得到文档向量;/n调用所述改进的快速文本分类模型的输出层对所述文档向量中的多个潜在意图进行混淆意图识别,得到多个候选意图标签;/n基于所述多个候选意图标签对所述待识别文本进行标注,得到多个分类文本。/n
【技术特征摘要】
1.一种基于意图混淆的文本分类方法,其特征在于,包括:
获取待识别文本,所述待识别文本用于指示目标用户的至少一个意图;
调用改进的快速文本分类模型的输入层对所述待识别文本进行识别,得到多个分词向量;
调用所述改进的快速文本分类模型的隐藏层对所述多个分词向量进行叠加平均,得到文档向量;
调用所述改进的快速文本分类模型的输出层对所述文档向量中的多个潜在意图进行混淆意图识别,得到多个候选意图标签;
基于所述多个候选意图标签对所述待识别文本进行标注,得到多个分类文本。
2.根据权利要求1所述的基于意图混淆的文本分类方法,其特征在于,所述调用所述改进的快速文本分类模型的输出层对所述文档向量中的多个潜在意图进行混淆意图识别,得到多个候选意图标签,包括:
将所述文档向量输入到改进的快速文本分类模型中进行负采样,得到多个采样向量;
调用层次分类器将所述多个采样向量导入树形结构,得到树形分类结构;
通过标准分类器将所述树形分类结构进行分类,得到多个潜在意图标签;
通过混淆层对所述多个潜在意图标签进行意图混淆,得到每个潜在意图标签的置信度;
通过所述混淆层将每个潜在意图标签对应的置信度与预先设置的阈值进行比较,筛选出所述待识别文本的多个候选意图标签。
3.根据权利要求2所述的基于意图混淆的文本分类方法,其特征在于,所述通过混淆层对所述多个潜在意图标签进行意图混淆,得到每个潜在意图标签的置信度,包括:
将所述多个潜在意图标签输入到改进的快速文本分类模型的混淆层中进行混淆;
获取混淆后的每个潜在意图标签的置信度。
4.根据权利要求3所述的基于意图混淆的文本分类方法,其特征在于,所述将所述多个潜在意图标签输入到改进的快速文本分类模型的混淆层中进行混淆之前,所述方法还包括:
生成所述混淆层,所述混淆层位于改进的快速文本分类模型的隐藏层和输出层之间。
5.根据权利要求4所述的基于意图混淆的文本分类方法,其特征在于,所述生成混淆层,所述混淆层位于改进的快速文本分类模型的隐藏层和输出层之间,包括:
建立改进的快速文本分类模型的中间层;
对预置的输入语料按照顺序进行拆分,得到多个语料标签;
将所述多个语料标签依次分别输入到所述中间层进行迭代训练;
生成...
【专利技术属性】
技术研发人员:阮晓义,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。