System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种文本数据扩充方法、装置及计算机设备。
技术介绍
1、人工智能(artificial intelligence,ai)技术的发展空间在很大程度上取决于训练数据的丰富程度,文本数据增强是扩充文本数据的一个很重要的技术手段。对初始文本数据取反(例如,反义词替换)属于较为常用的一种文本数据增强方式,然而,基于这种文本数据增强方式所扩充得到的文本数据的质量较低。
技术实现思路
1、本申请实施例提供一种文本数据扩充方法、装置及计算机设备,以提高扩充得到的文本数据的质量。
2、第一方面,本申请实施例提供了一种文本数据扩充方法。该方法包括:
3、获取初始文本数据集,所述初始文本数据集包括至少一个初始文本数据;
4、根据所述初始文本数据集确定扩充文本数据集,所述扩充文本数据集包括至少一个扩充文本数据,每个所述扩充文本数据均与所述初始文本数据集的至少一个初始文本数据的语义相反;
5、通过语言不对称性检测模型对每个所述扩充文本数据进行语言不对称性检测,得到每个所述扩充文本数据的检测结果;所述检测结果用于指示所述扩充文本数据具有语言不对称性,或不具有语言不对称性;所述语言不对称性检测模型为基于具有语言不对称性的文本对和不具有所述语言不对称性的文本对训练得到的;
6、将所述扩充文本数据集中不具有所述语言不对称性的扩充文本数据确定为目标文本扩充数据。
7、第二方面,本申请实施例还提供一种文本数据扩充装置。该
8、第一获取模块,用于获取初始文本数据集,所述初始文本数据集包括至少一个初始文本数据;
9、第一确定模块,用于根据所述初始文本数据集确定扩充文本数据集,所述扩充文本数据集包括至少一个扩充文本数据,每个所述扩充文本数据均与所述初始文本数据集的至少一个初始文本数据的语义相反;
10、第一检测模块,用于通过语言不对称性检测模型对每个所述扩充文本数据进行语言不对称性检测,得到每个所述扩充文本数据的检测结果;所述检测结果用于指示所述扩充文本数据具有语言不对称性,或不具有语言不对称性;所述语言不对称性检测模型为基于具有语言不对称性的文本对和不具有所述语言不对称性的文本对训练得到的;
11、第二确定模块,用于将所述扩充文本数据集中不具有所述语言不对称性的扩充文本数据确定为目标文本扩充数据。
12、第三方面,本申请实施例还提供一种计算机设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的文本数据扩充方法的步骤。
13、第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本数据扩充方法的步骤。
14、本申请实施例中,对初始文本数据取反得到扩充文本数据,对扩充文本数据进行语言不对称性检测,并将不具有语言不对称性的扩充文本数据确定为目标文本扩充数据,这样可以减少扩充文本数据集中的不合理的扩充文本数据,进而可以提高扩充文本数据的质量。
本文档来自技高网...【技术保护点】
1.一种文本数据扩充方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始文本数据集确定扩充文本数据集,包括:
3.根据权利要求2所述的方法,其特征在于,根据所述语义集合的第一语义对应的初始文本数据生成所述第一语义对应的正则表达式,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一长度、所述第一元素和所述第一索引生成所述第一语义对应的第一正则表达式,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一长度、所述第一元素和所述第一索引生成所述第一语义对应的第一正则表达式之后,所述方法还包括:
6.根据权利要求2至5中任一项所述的方法,其特征在于,所述扩充文本数据集包括第二语义的扩充文本数据,所述第二语义的扩充文本数据包括根据所述第二语义对应的正则表达式生成的扩充文本数据和根据第三语义对应的正则表达式生成的扩充文本数据;
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.一种文本数据扩充装置,其特征在于,包括:
9.
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本数据扩充方法的步骤。
...【技术特征摘要】
1.一种文本数据扩充方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始文本数据集确定扩充文本数据集,包括:
3.根据权利要求2所述的方法,其特征在于,根据所述语义集合的第一语义对应的初始文本数据生成所述第一语义对应的正则表达式,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一长度、所述第一元素和所述第一索引生成所述第一语义对应的第一正则表达式,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一长度、所述第一元素和所述第一索引生成所述第一语义对应的第一正则表达式之后,所述方法还包括:
6.根据权利要求2至5中任一项所述的方法,其特征在于,所述扩充文本数据...
【专利技术属性】
技术研发人员:白安琪,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。