【技术实现步骤摘要】
一种数据增强方法、装置、设备及介质
本专利技术实施例涉及计算机技术,尤其涉及一种数据增强方法、装置、设备及介质。
技术介绍
情感分类是自然语言处理(NaturalLanguageProcessing,NLP)的一个重要研究方向,情感分类是指根据文本所表达的含义和情感信息将文本划分成两种或多种类型,其中,情感分类模型的训练需要大量的训练语句,当训练语句不足时,经常需要进行数据增强。现有的NLP数据增强技术包括随机插入、随机删除、随机交换、同义词替换和回译等。其中,随机插入、随机删除和随机交换方法存在的一个共同问题是会改变原始文本的语义,因此这些方法不适于在处理情感分类问题时进行数据增强;另外,同义词替换和回译方法虽然能更好的保留原始文本的语义,但是选取同义词时备选的词库是对应于全词典的词库,没有针对性,影响情感分类模型分类的准确性。
技术实现思路
本专利技术实施例提供一种数据增强方法、装置、设备及介质,通过结合测试集数据,使得到的增强文本与测试文本具有一定的相关性,提高了数据增强质量。第一方面,本专 ...
【技术保护点】
1.一种数据增强方法,其特征在于,包括:/n从原始文本中获取设定数量的待替换词;/n根据预先建立的测试集词表,确定各所述待替换词的目标近义词,所述测试集词表中包含测试集中的至少一个词语;/n通过所述目标近义词,替换所述待替换词,得到增强文本。/n
【技术特征摘要】 【专利技术属性】
1.一种数据增强方法,其特征在于,包括:
从原始文本中获取设定数量的待替换词;
根据预先建立的测试集词表,确定各所述待替换词的目标近义词,所述测试集词表中包含测试集中的至少一个词语;
通过所述目标近义词,替换所述待替换词,得到增强文本。
2.根据权利要求1所述的方法,其特征在于,从原始文本中获取设定数量的待替换词,包括:
对所述原始文本进行分词处理,得到至少一个初始词语;
删除所述至少一个初始词语中包含的停用词,得到至少一个目标词语;
通过设定规则,在所述至少一个目标词语中选择设定数量的待替换词。
3.根据权利要求1所述的方法,其特征在于,根据预先建立的测试集词表,确定各所述待替换词的目标近义词,包括:
在完整词语库中查询各所述待替换词对应的完整近义词集,所述完整近义词集中包含所述待替换词的至少一个近义词;
通过测试集词表,对所述完整近义词集进行过滤,得到目标近义词集;
按照设定规则在所述目标近义词集中确定所述待替换词的目标近义词。
4.根据权利要求2所述的方法,其特征在于,对所述原始文本进行分词处理,得到至少一个初始词语,包括:
采用jieba分词方法,对所述原始文本进行分词处理,得到至少一个初始词语。
5.根据权利要求2所述的方法,其特征在于,通过设定规则,在所述至少一个目标词语中选择设定数量的待替换词,包括:
确定所述原始文本对应的目标词语的词语数量,并将所述词语数量与预设的选词比例进行相乘处理,得到选词数量;
从所述目标词语中,选择所述选词数量个目标词语,作为待替换词。
6.根据权利要求1所述的方法,其特征在于,在从原始文本中获取设定数量的待替换词之前,还包括:
将测试集中包含的测试文本进行分词处理,得到测试词语列表;
去除所述测试词语列表中的重复测试词语,得到所述测试集词表。
7.根据权利要求1所述的方法,其特征在于,根据预先建立的测试集词表,确定各所述待替换词的目标近义词,包括:
在所述测试集词表中查询各所述待替换词对应的测试近义词;
当所述测试集词表存在至少一个所述测试近义词时,按照设定规则,从所述至少一个测试近义词中确定所述待替换词的目标近义词;
当所述测试集词表中不存在所述测试近义词时,从完整词语库中查询所述待替换词对应的完整近义词集,并通过设定规则从所述完整近义词集中确定所述待替换词的目标近义词。
8.一种数据增强装置,其特征在于,包括:
技术研发人员:李虎,陆登强,周洋,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。