意图识别训练样本数据的增强方法、系统、设备及介质技术方案

技术编号：33617836 阅读：17 留言：0更新日期：2022-06-02 00:36

本发明专利技术公开了一种意图识别训练样本数据的增强方法、系统、设备及介质，包括：获取历史意图识别训练样本数据；利用积分梯度获取历史意图识别训练样本数据中的关键词；基于关键词采用MCMC采样算法生成新的文本数据；将新的文本数据增加至历史意图识别训练样本数据，得到增强后的意图识别训练样本数据。本发明专利技术基于利用积分梯度获取的关键词采用MCMC采样算法生成新的文本数据；将新的文本数据增加至历史意图识别训练样本数据，得到增强后的意图识别训练样本数据。实现了基于无监督的方式结合积分梯度和MCMC采样算法进行意图识别训练样本数据的增强，降低了数据增强的成本，丰富了意图识别训练样本数据的多样性，提高了数据增强的效率。效率。效率。

全部详细技术资料下载

【技术实现步骤摘要】
意图识别训练样本数据的增强方法、系统、设备及介质

[0001]本专利技术涉及数据处理
，特别涉及一种意图识别训练样本数据的增强方法、系统、设备及介质。

技术介绍

[0002]目前主要的文本数据增强方法，包含增删改回译等基础EDA(最简单的数据扩充)等方式；通常基于语言模型的生成方式；或者基于有监督的Seq2Seq(一种循环神经网络的变种)方式；或者基于检索的方式等进行文本数据增强；而现有采用的文本数据增强方式成本比较高，生成的文本类别比较单一。

技术实现思路

[0003]本专利技术要解决的技术问题是为了克服现有技术中所采用的文本数据增强方式存在成本高、文本类别单一的缺陷，提供一种意图识别训练样本数据的增强方法、系统、设备及介质。
[0004]本专利技术是通过下述技术方案来解决上述技术问题：
[0005]本专利技术第一方面提供了一种意图识别训练样本数据的增强方法，所述增强方法包括：
[0006]获取历史意图识别训练样本数据，所述历史意图识别训练样本数据包括历史文本数据；
[0007]利用积分梯度获取所述历史意图识别训练样本数据中的关键词；
[0008]基于所述关键词采用MCMC(马尔科夫链蒙特卡罗)采样算法生成目标句子，以所述目标句子作为新的文本数据；
[0009]将所述新的文本数据增加至所述历史意图识别训练样本数据中，以得到增强后的意图识别训练样本数据。
[0010]较佳地，所述获取历史意图识别训练样本数据的步骤之后，所述增强方法还包括：<...

【技术保护点】

【技术特征摘要】
1.一种意图识别训练样本数据的增强方法，其特征在于，所述增强方法包括：获取历史意图识别训练样本数据，所述历史意图识别训练样本数据包括历史文本数据；利用积分梯度获取所述历史意图识别训练样本数据中的关键词；基于所述关键词采用MCMC采样算法生成目标句子，以所述目标句子作为新的文本数据；将所述新的文本数据增加至所述历史意图识别训练样本数据中，以得到增强后的意图识别训练样本数据。2.如权利要求1所述的意图识别训练样本数据的增强方法，其特征在于，所述获取历史意图识别训练样本数据的步骤之后，所述增强方法还包括：基于所述历史意图识别训练样本数据训练得到意图分类模型；所述利用积分梯度获取所述历史意图识别训练样本数据中的关键词的步骤包括：基于所述意图分类模型利用所述积分梯度获取所述历史意图识别训练样本数据中的关键词。3.如权利要求1所述的意图识别训练样本数据的增强方法，其特征在于，所述利用积分梯度获取所述历史意图识别训练样本数据中的关键词的步骤还包括：利用所述积分梯度计算所述历史意图识别训练样本数据中每个字的权重值；采用正向最大匹配算法对每个所述字的权重值求平均值，以得到对应词的权重值；基于所述词的权重值筛选出所述关键词。4.如权利要求1所述的意图识别训练样本数据的增强方法，其特征在于，所述基于所述关键词采用MCMC采样算法生成目标句子，以所述目标句子作为新的文本数据的步骤包括：S1、基于所述关键词生成待处理句子；S2、对所述待处理句子进行增加和/或删除和/或修改处理，以得到处理后的句子；S3、利用GPT语言模型对所述处理后的句子进行打分，以得到多个候选句子；S4、分别采用均匀分布以及MCMC采样算法计算得到句子采样概率值和句子接受率值；S5、若所述句子采样概率值大于所述句子接受率值，则采集当前句子作为所述目标句子；若所述句子采样概率值小于等于所述句子接受率值，则重复上述步骤S2
‑
S4，直到迭代至预设轮次后，获取所述预设轮次之后的句子作为所述目标句子。5.一种意图识别训练样本数据的增强系统，其特征在于，所述增强系统包括：第一获取模块，用于获取历史意图识别训练样本数据，所述历史意图识别训练样本数据包括历史文本数据；第二获取模块，用...

【专利技术属性】
技术研发人员：江小林，罗超，邹宇，
申请(专利权)人：携程旅游信息技术上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人