意图识别训练样本数据的增强方法、系统、设备及介质技术方案

技术编号:33617836 阅读:17 留言:0更新日期:2022-06-02 00:36
本发明专利技术公开了一种意图识别训练样本数据的增强方法、系统、设备及介质,包括:获取历史意图识别训练样本数据;利用积分梯度获取历史意图识别训练样本数据中的关键词;基于关键词采用MCMC采样算法生成新的文本数据;将新的文本数据增加至历史意图识别训练样本数据,得到增强后的意图识别训练样本数据。本发明专利技术基于利用积分梯度获取的关键词采用MCMC采样算法生成新的文本数据;将新的文本数据增加至历史意图识别训练样本数据,得到增强后的意图识别训练样本数据。实现了基于无监督的方式结合积分梯度和MCMC采样算法进行意图识别训练样本数据的增强,降低了数据增强的成本,丰富了意图识别训练样本数据的多样性,提高了数据增强的效率。效率。效率。

【技术实现步骤摘要】
意图识别训练样本数据的增强方法、系统、设备及介质


[0001]本专利技术涉及数据处理
,特别涉及一种意图识别训练样本数据的增强方法、系统、设备及介质。

技术介绍

[0002]目前主要的文本数据增强方法,包含增删改回译等基础EDA(最简单的数据扩充)等方式;通常基于语言模型的生成方式;或者基于有监督的Seq2Seq(一种循环神经网络的变种)方式;或者基于检索的方式等进行文本数据增强;而现有采用的文本数据增强方式成本比较高,生成的文本类别比较单一。

技术实现思路

[0003]本专利技术要解决的技术问题是为了克服现有技术中所采用的文本数据增强方式存在成本高、文本类别单一的缺陷,提供一种意图识别训练样本数据的增强方法、系统、设备及介质。
[0004]本专利技术是通过下述技术方案来解决上述技术问题:
[0005]本专利技术第一方面提供了一种意图识别训练样本数据的增强方法,所述增强方法包括:
[0006]获取历史意图识别训练样本数据,所述历史意图识别训练样本数据包括历史文本数据;
[0007]利用积分梯度获取所述历史意图识别训练样本数据中的关键词;
[0008]基于所述关键词采用MCMC(马尔科夫链蒙特卡罗)采样算法生成目标句子,以所述目标句子作为新的文本数据;
[0009]将所述新的文本数据增加至所述历史意图识别训练样本数据中,以得到增强后的意图识别训练样本数据。
[0010]较佳地,所述获取历史意图识别训练样本数据的步骤之后,所述增强方法还包括:<br/>[0011]基于所述历史意图识别训练样本数据训练得到意图分类模型;
[0012]所述利用积分梯度获取所述历史意图识别训练样本数据中的关键词的步骤包括:
[0013]基于所述意图分类模型利用所述积分梯度获取所述历史意图识别训练样本数据中的关键词。
[0014]较佳地,所述利用积分梯度获取所述历史意图识别训练样本数据中的关键词的步骤还包括:
[0015]利用所述积分梯度计算所述历史意图识别训练样本数据中每个字的权重值;
[0016]采用正向最大匹配算法对每个所述字的权重值求平均值,以得到对应词的权重值;
[0017]基于所述词的权重值筛选出所述关键词。
[0018]较佳地,所述基于所述关键词采用MCMC采样算法生成目标句子,以所述目标句子
作为新的文本数据的步骤包括:
[0019]S1、基于所述关键词生成待处理句子;
[0020]S2、对所述待处理句子进行增加和/或删除和/或修改处理,以得到处理后的句子;
[0021]S3、利用GPT语言模型对所述处理后的句子进行打分,以得到多个候选句子;
[0022]S4、分别采用均匀分布以及MCMC采样算法计算得到句子采样概率值和句子接受率值;
[0023]S5、若所述句子采样概率值大于所述句子接受率值,则采集当前句子作为所述目标句子;若所述句子采样概率值小于等于所述句子接受率值,则重复上述步骤S2

S4,直到迭代至预设轮次后,获取所述预设轮次之后的句子作为所述目标句子。
[0024]本专利技术第二方面提供了一种意图识别训练样本数据的增强系统,所述增强系统包括:
[0025]第一获取模块,用于获取历史意图识别训练样本数据,所述历史意图识别训练样本数据包括历史文本数据;
[0026]第二获取模块,用于利用积分梯度获取所述历史意图识别训练样本数据中的关键词;
[0027]生成模块,用于基于所述关键词采用MCMC采样算法生成目标句子,以所述目标句子作为新的文本数据;
[0028]增加模块,用于将所述新的文本数据增加至所述历史意图识别训练样本数据中,以得到增强后的意图识别训练样本数据。
[0029]较佳地,所述增强系统还包括:
[0030]训练模块,用于基于所述历史意图识别训练样本数据训练得到意图分类模型;
[0031]第二获取模块,具体用于基于所述意图分类模型利用所述积分梯度获取所述历史意图识别训练样本数据中的关键词。
[0032]较佳地,所述第二获取模块包括:
[0033]第一计算单元,用于利用所述积分梯度计算所述历史意图识别训练样本数据中每个字的权重值;
[0034]第二计算单元,用于采用正向最大匹配算法对每个所述字的权重值求平均值,以得到对应词的权重值;
[0035]筛选单元,用于基于所述词的权重值筛选出所述关键词。
[0036]较佳地,所述生成模块包括:
[0037]生成单元,用于基于所述关键词生成待处理句子;
[0038]处理单元,用于对所述待处理句子进行增加和/或删除和/或修改处理,以得到处理后的句子;
[0039]打分单元,用于利用GPT语言模型对所述处理后的句子进行打分,以得到多个候选句子;
[0040]第三计算单元,用于分别采用均匀分布以及MCMC采样算法计算得到句子采样概率值和句子接受率值;
[0041]判断单元,用于若所述句子采样概率值大于所述句子接受率值,则采集当前句子作为所述目标句子;若所述句子采样概率值小于等于所述句子接受率值,则重复执行生成
处理操作,直到迭代至预设轮次后,获取所述预设轮次之后的句子作为所述目标句子。
[0042]本专利技术第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的意图识别训练样本数据的增强方法。
[0043]本专利技术第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的意图识别训练样本数据的增强方法。
[0044]本专利技术的积极进步效果在于:
[0045]本专利技术利用积分梯度获取历史意图识别训练样本数据中的关键词;基于关键词采用MCMC采样算法生成目标句子,以目标句子作为新的文本数据;将新的文本数据增加至历史意图识别训练样本数据中,以得到增强后的意图识别训练样本数据。实现了基于无监督的方式结合积分梯度和MCMC采样算法进行意图识别训练样本数据的增强,降低了数据增强的成本,丰富了意图识别训练样本数据的多样性,提高了数据增强的效率。
附图说明
[0046]图1为本专利技术实施例1的意图识别训练样本数据的增强方法的第一流程图。
[0047]图2为本专利技术实施例1的意图识别训练样本数据的增强方法的第二流程图。
[0048]图3为本专利技术实施例1的意图识别训练样本数据的增强方法的步骤102的流程图。
[0049]图4为本专利技术实施例1的意图识别训练样本数据的增强方法的步骤103的流程图。
[0050]图5为本专利技术实施例2的意图识别训练样本数据的增强系统的模块示意图。
[0051]图6为本专利技术实施例3的电子设备的结构示意图。
具体实施方式
[0052]下面通过实施例的方式进一步说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种意图识别训练样本数据的增强方法,其特征在于,所述增强方法包括:获取历史意图识别训练样本数据,所述历史意图识别训练样本数据包括历史文本数据;利用积分梯度获取所述历史意图识别训练样本数据中的关键词;基于所述关键词采用MCMC采样算法生成目标句子,以所述目标句子作为新的文本数据;将所述新的文本数据增加至所述历史意图识别训练样本数据中,以得到增强后的意图识别训练样本数据。2.如权利要求1所述的意图识别训练样本数据的增强方法,其特征在于,所述获取历史意图识别训练样本数据的步骤之后,所述增强方法还包括:基于所述历史意图识别训练样本数据训练得到意图分类模型;所述利用积分梯度获取所述历史意图识别训练样本数据中的关键词的步骤包括:基于所述意图分类模型利用所述积分梯度获取所述历史意图识别训练样本数据中的关键词。3.如权利要求1所述的意图识别训练样本数据的增强方法,其特征在于,所述利用积分梯度获取所述历史意图识别训练样本数据中的关键词的步骤还包括:利用所述积分梯度计算所述历史意图识别训练样本数据中每个字的权重值;采用正向最大匹配算法对每个所述字的权重值求平均值,以得到对应词的权重值;基于所述词的权重值筛选出所述关键词。4.如权利要求1所述的意图识别训练样本数据的增强方法,其特征在于,所述基于所述关键词采用MCMC采样算法生成目标句子,以所述目标句子作为新的文本数据的步骤包括:S1、基于所述关键词生成待处理句子;S2、对所述待处理句子进行增加和/或删除和/或修改处理,以得到处理后的句子;S3、利用GPT语言模型对所述处理后的句子进行打分,以得到多个候选句子;S4、分别采用均匀分布以及MCMC采样算法计算得到句子采样概率值和句子接受率值;S5、若所述句子采样概率值大于所述句子接受率值,则采集当前句子作为所述目标句子;若所述句子采样概率值小于等于所述句子接受率值,则重复上述步骤S2

S4,直到迭代至预设轮次后,获取所述预设轮次之后的句子作为所述目标句子。5.一种意图识别训练样本数据的增强系统,其特征在于,所述增强系统包括:第一获取模块,用于获取历史意图识别训练样本数据,所述历史意图识别训练样本数据包括历史文本数据;第二获取模块,用...

【专利技术属性】
技术研发人员:江小林罗超邹宇
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1