一种语料处理及意图识别的方法和装置制造方法及图纸

技术编号：29402826 阅读：23 留言：0更新日期：2021-07-23 22:40

一种语料处理及意图识别方法、系统、设备和计算机可读存储介质。其中该语料处理及意图识别的方法，包括：获取语料样本数据，对语料样本数据进行处理；基于所述语料样本数据，采用至少两种算法进行模型训练，生成意图识别模型；输入待识别语句；利用所述意图识别模型，对所述待识别语句进行至少两种算法的意图识别，分别获得每种算法相应的识别结果；基于所述每种算法相应的识别结果，进行佐证分析，确定最终意图。通过该语料处理及意图识别的方案，强化了语料特征，完备了语料数据，解决了现有技术中误识率、漏识率高的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种语料处理及意图识别的方法和装置
本专利技术涉及自然语言意图识别领域，尤其涉及一种语料处理及意图识别的方法和装置。
技术介绍
意图识别是自然语言处理最重要的课题之一，是一种能够识别出用户输入信息的真实意图，进而满足用户意图进行相应处理的技术，在现有技术中越来越得到重视与应用。现有技术中一般采用神经网络、bert等深度学习方法来实现意图识别，然而在实践中训练一个高识别率的模型往往是困难的。首先训练数据方面，一、数据不充分，深度学习需要大量充分、特征完备、语义清晰的语料，才能学习到充分的语义特征，语料数据不充分就无法训练出一个识别率高的模型，这是困扰当前深度学习广泛应用的关键问题；二、数据不平衡，不同分类间数据不平衡，有的分类数据很多，有的很少，不利于算法的分类识别，需要尽可能减少不同分类间数据的不平衡。其次算法局限性方面，输入一个语句，算法给出一个概率列表，每个数值是一个该语句属于某个分类的概率值，取最大概率，并设定一个门槛值，最大概率大于门槛值的，则认为获得分类答案，否则失败。门槛线附近的识别，错误率较高。抬高门槛，漏识别...

【技术保护点】
1.一种语料处理及意图识别的方法，其特征在于，包括：/nS1：获取语料样本数据，用句型模板对语料样本数据进行处理；/nS2：基于所述语料样本数据，采用至少两种算法进行模型训练，生成意图识别模型；/nS3：输入待识别语句；/nS4：利用所述意图识别模型，对所述待识别语句进行至少两种算法的意图识别，分别获得每种算法相应的识别结果；/nS5：基于所述每种算法相应的识别结果，进行佐证分析，确定最终意图。/n

【技术特征摘要】
1.一种语料处理及意图识别的方法，其特征在于，包括：
S1：获取语料样本数据，用句型模板对语料样本数据进行处理；
S2：基于所述语料样本数据，采用至少两种算法进行模型训练，生成意图识别模型；
S3：输入待识别语句；
S4：利用所述意图识别模型，对所述待识别语句进行至少两种算法的意图识别，分别获得每种算法相应的识别结果；
S5：基于所述每种算法相应的识别结果，进行佐证分析，确定最终意图。

2.如权利要求1所述的方法，其中，所述步骤S2中采用至少两种算法进行模型训练，生成意图识别模型，所述模型训练所采用的至少两种算法均为深度学习算法。

3.如权利要求2所述的方法，其中，所述深度学习算法包括BI-LSTM(双向长短时记忆神经网络)、BERT(双向transformer的encoder)或CNN(卷积神经网络)。

4.如权利要求1所述的方法，所述步骤S4中意图相关性测量，每个意图分类包含关键字词、疑问类型等特征，判断识别出所述待识别语句所有相关的意图分类，获得第一意图识别结果。

5.如权利要求4所述的方法，所述意图识别模型包括所述至少两种算法训练生成的至少两种子模型，所述步骤S4中利用所述意图识别模型，对所述待识别语句进行至少两种算法的意图识别，分别获得每种算法相应的识别结果，包括利用第一子模型对待识别语句进行意图识别，获得第二意图识别结果；利用第...

【专利技术属性】
技术研发人员：孙譞，詹舒波，李红玲，
申请(专利权)人：北京新方通信技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人