一种文本对抗的自然语言增强处理方法及装置制造方法及图纸

技术编号:31831876 阅读:23 留言:0更新日期:2022-01-12 13:08
本发明专利技术提出了一种文本对抗的自然语言增强处理方法及装置,该方法包括:提取步骤,对样本训练集中的句子进行实体词提取,获得该句子的词向量;替换步骤,基于实体词库对所述句子的词向量进行替换得到替换句子;预测步骤,使用神经网络模型预测该替换句子的标签得到预测标签,若所述预测标签与所述句子在样本训练集中的初始标签不一致,则所述替换句子作为对抗增强句子加入到样本训练集中。本发明专利技术中,构建了实体词库,从而便于对样本集中的句子进行实体词提取,从而保证了句子增强的准确性,本发明专利技术中,通过实体词库对所述句子的中的实体词进行替换,扩充了样本集中的样本数量,而且增强后的样本可靠性高。强后的样本可靠性高。强后的样本可靠性高。

【技术实现步骤摘要】
一种文本对抗的自然语言增强处理方法及装置


[0001]本专利技术涉及自然语言处理
,具体涉及一种文本对抗的自然语言增强处理方法及装置。

技术介绍

[0002]当前NLP深度学习领域的数据标注成本高,且自然语言领域数据增强方法不像图像领域这么容易,大多是基于同义词随机替换等方法,可替换的文本不多,且替换后可能到文本语义发生变化,导致增强后的文本不能使用。
[0003]因此,如何准确地的进行自然语言领域数据增强是NLP深度学习领域面临的一项挑战。

技术实现思路

[0004]本专利技术针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
[0005]一种文本对抗的自然语言增强处理方法,该方法包括:
[0006]提取步骤,对样本训练集中的句子进行实体词提取,获得该句子的词向量;
[0007]替换步骤,基于实体词库对所述句子的词向量进行替换得到替换句子;
[0008]预测步骤,使用神经网络模型预测该替换句子的标签得到预测标签,若所述预测标签与所述句子在样本训练集中的初始标签不一致,则所述替换句子作为对抗增强句子加入到样本训练集中。
[0009]更进一步地,所述实体词库包括人名、地址、时间、组织及机构实体词向量。
[0010]更进一步地,在所述替换步骤中,计算所述句子的词向量与所述实体词库中的实体词向量之间的相似度,从所述实体词库中选择相似度最大的实体库词向量替换所述句子的词向量得到替换句子。
[0011]更进一步地,所述相似度匹配为余弦匹配或语义匹配。
[0012]更进一步地,若所述预测标签与所述句子在样本训练集中的初始标签一致,则判断所述词向量中的向量个数,如果个数为1则舍去该替换句子,如果个数大于或等于2,则保持该词向量中的一个向量不变,对其他向量再基于实体词库对所述句子的词向量进行部分替换得到替换句子后重新进行预测。
[0013]本专利技术还提出了一种文本对抗的自然语言增强处理装置,该装置包括:
[0014]提取单元,对样本训练集中的句子进行实体词提取,获得该句子的词向量;
[0015]替换单元,基于实体词库对所述句子的词向量进行替换得到替换句子;
[0016]预测单元,使用神经网络模型预测该替换句子的标签得到预测标签,若所述预测标签与所述句子在样本训练集中的初始标签不一致,则所述替换句子作为对抗增强句子加入到样本训练集中。
[0017]更进一步地,所述实体词库包括人名、地址、时间、组织及机构实体词向量。
[0018]更进一步地,在所述替换单元中,计算所述句子的词向量与所述实体词库中的实
体词向量之间的相似度,从所述实体词库中选择相似度最大的实体库词向量替换所述句子的词向量得到替换句子。
[0019]更进一步地,所述相似度匹配为余弦匹配或语义匹配。
[0020]更进一步地,若所述预测标签与所述句子在样本训练集中的初始标签一致,则判断所述词向量中的向量个数,如果个数为1则舍去该替换句子,如果个数大于或等于2,则保持该词向量中的一个向量不变,对其他向量再基于实体词库对所述句子的词向量进行部分替换得到替换句子后重新进行预测。
[0021]本专利技术还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
[0022]本专利技术的技术效果在于:本专利技术的一种文本对抗的自然语言增强处理方法及装置,该方法包括:提取步骤,对样本训练集中的句子进行实体词提取,获得该句子的词向量;替换步骤,基于实体词库对所述句子的词向量进行替换得到替换句子;预测步骤,使用神经网络模型预测该替换句子的标签得到预测标签,若所述预测标签与所述句子在样本训练集中的初始标签不一致,则所述替换句子作为对抗增强句子加入到样本训练集中。本专利技术中,构建了实体词库,从而便于对样本集中的句子进行实体词提取,从而保证了句子增强的准确性,本专利技术中,通过实体词库对所述句子的中的实体词进行替换,扩充了样本集中的样本数量,本专利技术中,使用神经网络模型预测其标签得到的标签与原始句子的标签是不一致的,经过这种方式,可以避免将替换的后的句子都加入到训练集中,不仅对样本集进行了增强,而且增强后的样本可靠性高。
附图说明
[0023]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
[0024]图1是根据本专利技术的实施例的一种文本对抗的自然语言增强处理方法的流程图。
[0025]图2是根据本专利技术的实施例的一种文本对抗的自然语言增强处理装置的结构图。
具体实施方式
[0026]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。
[0027]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0028]图1示出了本专利技术的一种文本对抗的自然语言增强处理方法,该方法包括:
[0029]提取步骤S101,对样本训练集中的句子进行实体词提取,获得该句子的词向量;
[0030]替换步骤S102,基于实体词库对所述句子的词向量进行替换得到替换句子;
[0031]预测步骤S103,使用神经网络模型预测该替换句子的标签得到预测标签,若所述预测标签与所述句子在样本训练集中的初始标签不一致,则所述替换句子作为对抗增强句子加入到样本训练集中。
[0032]在一个实施例中,所述实体词库包括人名、地址、时间、组织及机构实体词向量。
[0033]在一个实施例中,对样本训练集中的句子进行实体词提取,获得该句子的词向量,主要包括:对句子进行语义分词后基于实体词库进行实体词的提取,这样在实体词提取之前需要建立实体词库,可以通过对样本训练集中的所有句子进行扫描后提取实体词后构成实体词库,也可以根据训练集的主要内容,下载相应的实体词库,比如句子

我去哈尔滨买苹果手机

,提出实体词构成的词向量为

哈尔滨,苹果,手机

,再比如,句子

我去公司吃早餐

,提出实体词构成的词向量为

公司,早餐

。本专利技术中,构建了实体词库,从而便于对样本集中的句子进行实体词提取,从而保证了句子增强的准确性,这是本专利技术的一个重要专利技术点。
[0034]在一个实施例,在所述替换步骤S102中,计算所述句子的词向量与所述实体词库中的实体词向量之间的相似度,从所述实体词库中选择相似度最大的实体库词向量替换所述句子的词向量得到替换句子。本专利技术中,所述相似度匹配算法可以为余弦匹配或语义匹配,当然也可以采用其他匹配算法,比如同义词匹配方法。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本对抗的自然语言增强处理方法,其特征在于,该方法包括:提取步骤,对样本训练集中的句子进行实体词提取,获得该句子的词向量;替换步骤,基于实体词库对所述句子的词向量进行替换得到替换句子;预测步骤,使用神经网络模型预测该替换句子的标签得到预测标签,若所述预测标签与所述句子在样本训练集中的初始标签不一致,则所述替换句子作为对抗增强句子加入到样本训练集中。2.根据权利要求1所述的方法,其特征在于,所述实体词库包括人名、地址、时间、组织及机构实体词向量。3.根据权利要求2所述的方法,其特征在于,在所述替换步骤中,计算所述句子的词向量与所述实体词库中的实体词向量之间的相似度,从所述实体词库中选择相似度最大的实体库词向量替换所述句子的词向量得到替换句子。4.根据权利要求3所述的方法,其特征在于,所述相似度匹配为余弦匹配或语义匹配。5.根据权利要求4所述的方法,其特征在于,若所述预测标签与所述句子在样本训练集中的初始标签一致,则判断所述词向量中的向量个数,如果个数为1则舍去该替换句子,如果个数大于或等于2,则保持该词向量中的一个向量不变,对其他向量再基于实体词库对所述句子的词向量进行部分替换得到替换句子后重新进行预测。6.一种...

【专利技术属性】
技术研发人员:陈毓靖梁煜麓陈子沣林海刘源张永光
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1