一种文本对抗的自然语言增强处理方法及装置制造方法及图纸

技术编号：31831876 阅读：23 留言：0更新日期：2022-01-12 13:08

本发明专利技术提出了一种文本对抗的自然语言增强处理方法及装置，该方法包括：提取步骤，对样本训练集中的句子进行实体词提取，获得该句子的词向量；替换步骤，基于实体词库对所述句子的词向量进行替换得到替换句子；预测步骤，使用神经网络模型预测该替换句子的标签得到预测标签，若所述预测标签与所述句子在样本训练集中的初始标签不一致，则所述替换句子作为对抗增强句子加入到样本训练集中。本发明专利技术中，构建了实体词库，从而便于对样本集中的句子进行实体词提取，从而保证了句子增强的准确性，本发明专利技术中，通过实体词库对所述句子的中的实体词进行替换，扩充了样本集中的样本数量，而且增强后的样本可靠性高。强后的样本可靠性高。强后的样本可靠性高。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本对抗的自然语言增强处理方法及装置

[0001]本专利技术涉及自然语言处理
，具体涉及一种文本对抗的自然语言增强处理方法及装置。

技术介绍

[0002]当前NLP深度学习领域的数据标注成本高，且自然语言领域数据增强方法不像图像领域这么容易，大多是基于同义词随机替换等方法，可替换的文本不多，且替换后可能到文本语义发生变化，导致增强后的文本不能使用。
[0003]因此，如何准确地的进行自然语言领域数据增强是NLP深度学习领域面临的一项挑战。

技术实现思路

[0004]本专利技术针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。
[0005]一种文本对抗的自然语言增强处理方法，该方法包括：
[0006]提取步骤，对样本训练集中的句子进行实体词提取，获得该句子的词向量；
[0007]替换步骤，基于实体词库对所述句子的词向量进行替换得到替换句子；
[0008]预测步骤，使用神经网络模型预测该替换句子的标签得到预测标签，若所述预测标签与所述句子在样本训练集中的初始标签不一致，则所述替换句子作为对抗增强句子加入到样本训练集中。
[0009]更进一步地，所述实体词库包括人名、地址、时间、组织及机构实体词向量。
[0010]更进一步地，在所述替换步骤中，计算所述句子的词向量与所述实体词库中的实体词向量之间的相似度，从所述实体词库中选择相似度最大的实体库词向量替换所述句子的词向量得到替换句子。
[0011]更进一步地，所述相似度匹配为余弦...

【技术保护点】

【技术特征摘要】
1.一种文本对抗的自然语言增强处理方法，其特征在于，该方法包括：提取步骤，对样本训练集中的句子进行实体词提取，获得该句子的词向量；替换步骤，基于实体词库对所述句子的词向量进行替换得到替换句子；预测步骤，使用神经网络模型预测该替换句子的标签得到预测标签，若所述预测标签与所述句子在样本训练集中的初始标签不一致，则所述替换句子作为对抗增强句子加入到样本训练集中。2.根据权利要求1所述的方法，其特征在于，所述实体词库包括人名、地址、时间、组织及机构实体词向量。3.根据权利要求2所述的方法，其特征在于，在所述替换步骤中，计算所述句子的词向量与所述实体词库中的实体词向量之间的相似度，从所述实体词库中选择相似度最大的实体库词向量替换所述句子的词向量得到替换句子。4.根据权利要求3所述的方法，其特征在于，所述相似度匹配为余弦匹配或语义匹配。5.根据权利要求4所述的方法，其特征在于，若所述预测标签与所述句子在样本训练集中的初始标签一致，则判断所述词向量中的向量个数，如果个数为1则舍去该替换句子，如果个数大于或等于2，则保持该词向量中的一个向量不变，对其他向量再基于实体词库对所述句子的词向量进行部分替换得到替换句子后重新进行预测。6.一种...

【专利技术属性】
技术研发人员：陈毓靖，梁煜麓，陈子沣，林海，刘源，张永光，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人