数据处理的方法、装置、终端设备以及存储介质制造方法及图纸

技术编号:22689077 阅读:17 留言:0更新日期:2019-11-30 03:40
本申请实施例公开了一种数据处理的方法、装置、终端设备以及存储介质,该方法包括:获取实体词表,实体词表中包括多种实体类型的实体,每种实体类型的实体至少有一个;基于实体词表中的实体,替换训练数据集内各训练数据中的实体,以得到各训练数据各自对应的第一训练数据,其中,用于替换第一实体的第二实体所属的实体类型与第一实体所属的实体类型相同,第二实体不同于第一实体,第一实体为训练数据集内的任一训练数据中的任一实体;将各训练数据对应的第一训练数据添加至训练数据集以得到第一训练数据集。采用本申请实施例,可实现数据的快速扩增,使训练数据更加多样化,适用性高。

Data processing method, device, terminal equipment and storage medium

The embodiment of the application discloses a data processing method, device, terminal device and storage medium, the method includes: acquiring entity vocabulary, including entities of various entity types, at least one entity of each entity type; based on entities in the entity vocabulary, replacing entities in each training data in the training data set to obtain each training data Self corresponding first training data, wherein the entity type of the second entity used to replace the first entity is the same as that of the first entity, and the second entity is different from the first entity. The first entity is any entity in any training data in the training data set; the first training data corresponding to each training data is added to the training data set to obtain the first training Data set. By adopting the embodiment of the application, the rapid expansion of data can be realized, the training data can be more diversified and the applicability is high.

【技术实现步骤摘要】
数据处理的方法、装置、终端设备以及存储介质
本申请涉及自然语言处理领域,尤其涉及一种数据处理的方法、装置、终端设备以及存储介质。
技术介绍
随着第二次人工智能浪潮的推动,自然语言处理技术得到了快速发展。其中深度学习相比传统的机器学习一定幅度地提高了自然语言处理的准确度和置信度,从而给机器阅读,文本分类,实体命名识别等技术带来大量实际应用的机会。在深度学习中,为了避免出现过拟合,所需训练数据的数据量往往是非常大的,一般在万级以上。这些训练数据大部分由人工标注得到,需要耗费大量的人力物力。因此,如何更加快速地得到更多的训练数据,成为当前亟待解决的问题。
技术实现思路
本申请实施例提供一种数据处理的方法、装置、终端设备以及存储介质,可实现数据的快速扩增,使训练数据更加多样化,灵活性强,适用性高。第一方面,本申请实施例提供了一种数据处理的方法,该方法包括:获取实体词表,上述实体词表中包括多种实体类型的实体,每种实体类型的实体至少有一个;基于上述实体词表中的实体,替换训练数据集内各训练数据中的实体,以得到上述各训练数据各自对应的第一训练数据,其中,用于替换第一实体的第二实体所属的实体类型与上述第一实体所属的实体类型相同,上述第二实体不同于上述第一实体,上述第一实体为上述训练数据集内的任一训练数据中的任一实体;将上述各训练数据对应的第一训练数据添加至上述训练数据集以得到第一训练数据集。本申请实施例基于获取的实体词表中包括的实体替换训练数据中包括的实体,可实现训练数据的快速扩增,提高训练数据的多样性,灵活性强,同时,实体作为训练数据的重要组成部分,通过替换训练数据中包括的实体,可提高新生成的训练数据的有效性,适用性高。结合第一方面,在一种可能的实施方式中,上述获取实体词表,包括:提取上述训练数据集内各训练数据中的实体;根据提取得到的实体生成上述实体词表。本申请实施例基于训练数据中包括的实体生成实体词表,可操作性强,适用性高。结合第一方面,在一种可能的实施方式中,上述基于上述实体词表中的实体,替换训练数据集内各训练数据中的实体,包括:确定目标实体所属的目标实体类型,上述目标实体为上述训练数据集内任一训练数据中的实体;从上述实体词表中随机选取属于上述目标实体类型的且不同于上述目标实体的实体,替换上述目标实体。本申请实施例通过从实体词表中获取相同类型的实体用于替换训练数据中同类型的实体,易于理解且操作简便,适用性强。结合第一方面,在一种可能的实施方式中,上述将上述各训练数据对应的第一训练数据添加至上述训练数据集以得到第一训练数据集之后,上述方法还包括:获取停用词表,上述停用词表中包括多个停用词;对上述第一训练数据集中的第一目标训练数据进行分词处理以得到组成上述第一目标训练数据的多个词,上述第一目标训练数据为上述第一训练数据集中的任一训练数据;从组成上述第一目标训练数据的多个词中确定出不属于上述停用词表且不属于上述实体词表的词作为待预测词;获取上述待预测词的同义词,基于上述同义词替换上述第一目标训练数据中的上述待预测词,以生成上述第一目标训练数据对应的第二训练数据;将上述第一训练数据集中各训练数据各自对应的第二训练数据添加至上述第一训练数据集以得到第二训练数据集。本申请实施例通过替换训练数据中既不属于实体词表同时不属于停用词表的待预测词,可进一步扩大训练数据集,灵活性高,适用性强。结合第一方面,在一种可能的实施方式中,上述获取上述待预测词的同义词,包括:将上述第一目标训练数据中的上述待预测词替换为标识符以生成待预测数据;将上述待预测数据输入预训练语言模型,基于上述预训练语言模型输出上述标识符对应的预测词;将上述预测词确定为上述待预测词对应的同义词。本申请实施例基于预训练语言模型获取待预测词对应的同义词,更加符合训练数据的上下文语义,可减少数据增强的噪声,提高新生成数据的有效性。结合第一方面,在一种可能的实施方式中,上述将上述第一训练数据集中各训练数据各自对应的第二训练数据添加至上述第一训练数据集以得到第二训练数据集之后,上述方法还包括:获取组成上述第二目标训练数据的多个词,上述第二目标训练数据为上述第二训练数据集中的任一训练数据;从组成上述第二目标训练数据的多个词中确定出任意两个词,并交换上述任意两个词在上述第二目标训练数据中的位置,以生成上述第二目标训练数据对应的第三训练数据;将上述第二训练数据集中各训练数据各自对应的第三训练数据添加至上述第二训练数据集以得到第三训练数据集。本申请实施例通过随机交换训练数据中包括的任意两个词的位置以得到新的训练数据,可操作性强,灵活性高。结合第一方面,在一种可能的实施方式中,上述将上述第二训练数据集中各训练数据各自对应的第三训练数据添加至上述第二训练数据集以得到第三训练数据集之后,上述方法还包括:获取组成上述第三目标训练数据的多个词,上述第三目标训练数据为上述第三训练数据集中的任一训练数据;从组成上述第三目标训练数据的多个词中随机选取任一词,并删除上述第三目标训练数据中的上述任一词,以生成上述第三目标训练数据对应的第四训练数据;将上述第三训练数据集中各训练数据各自对应的第四训练数据添加至上述第三训练数据集以得到第四训练数据集。本申请实施例通过随机选取训练数据中包括的任一词并删除,可快速获得新的训练数据,灵活性高。第二方面,本申请实施例提供了一种数据处理的装置,该装置包括:实体词表获取模块,用于获取实体词表,上述实体词表中包括多种实体类型的实体,每种实体类型的实体至少有一个;实体替换模块,用于基于上述实体词表中的实体,替换训练数据集内各训练数据中的实体,以得到上述各训练数据各自对应的第一训练数据,其中,用于替换第一实体的第二实体所属的实体类型与上述第一实体所属的实体类型相同,上述第二实体不同于上述第一实体,上述第一实体为上述训练数据集内的任一训练数据中的任一实体;训练数据集更新模块,用于将上述各训练数据对应的第一训练数据添加至上述训练数据集以得到第一训练数据集。结合第二方面,在一种可能的实施方式中,上述实体词表获取模块具体用于:提取上述训练数据集内各训练数据中的实体;根据提取得到的实体生成上述实体词表。结合第二方面,在一种可能的实施方式中,上述训练数据集更新模块具体用于:确定目标实体所属的目标实体类型,上述目标实体为上述训练数据集内任一训练数据中的实体;从上述实体词表中随机选取属于上述目标实体类型的且不同于上述目标实体的实体,替换上述目标实体。结合第二方面,在一种可能的实施方式中,上述数据处理装置还包括同义词替换模块,上述同义词替换模块包括:停用词表获取单元,用于获取停用词表,上述停用词表中包括多个停用词;训练数据分词单元,用于对上述第一训本文档来自技高网...

【技术保护点】
1.一种数据处理的方法,其特征在于,所述方法包括:/n获取实体词表,所述实体词表中包括多种实体类型的实体,每种实体类型的实体至少有一个;/n基于所述实体词表中的实体,替换训练数据集内各训练数据中的实体,以得到所述各训练数据各自对应的第一训练数据,其中,用于替换第一实体的第二实体所属的实体类型与所述第一实体所属的实体类型相同,所述第二实体不同于所述第一实体,所述第一实体为所述训练数据集内的任一训练数据中的任一实体;/n将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集。/n

【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法包括:
获取实体词表,所述实体词表中包括多种实体类型的实体,每种实体类型的实体至少有一个;
基于所述实体词表中的实体,替换训练数据集内各训练数据中的实体,以得到所述各训练数据各自对应的第一训练数据,其中,用于替换第一实体的第二实体所属的实体类型与所述第一实体所属的实体类型相同,所述第二实体不同于所述第一实体,所述第一实体为所述训练数据集内的任一训练数据中的任一实体;
将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集。


2.根据权利要求1所述方法,其特征在于,所述获取实体词表,包括:
提取所述训练数据集内各训练数据中的实体;
根据提取得到的实体生成所述实体词表。


3.根据权利要求1所述方法,其特征在于,所述基于所述实体词表中的实体,替换训练数据集内各训练数据中的实体,包括:
确定目标实体所属的目标实体类型,所述目标实体为所述训练数据集内任一训练数据中的实体;
从所述实体词表中随机选取属于所述目标实体类型的且不同于所述目标实体的实体,替换所述目标实体。


4.根据权利要求1-3任一项所述方法,其特征在于,所述将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集之后,所述方法还包括:
获取停用词表,所述停用词表中包括多个停用词;
对所述第一训练数据集中的第一目标训练数据进行分词处理以得到组成所述第一目标训练数据的多个词,所述第一目标训练数据为所述第一训练数据集中的任一训练数据;
从组成所述第一目标训练数据的多个词中确定出不属于所述停用词表且不属于所述实体词表的词作为待预测词;
获取所述待预测词的同义词,基于所述同义词替换所述第一目标训练数据中的所述待预测词,以生成所述第一目标训练数据对应的第二训练数据;
将所述第一训练数据集中各训练数据各自对应的第二训练数据添加至所述第一训练数据集以得到第二训练数据集。


5.根据权利要求4所述方法,其特征在于,所述获取所述待预测词的同义词,包括:
将所述第一目标训练数据中的待预测词替换为标识符以生成待预测数据;
将所述待预测数据输入预训练语言模型,基于所述预训练语言模型输出所述标识符对应的预测词;
将所述预测词确定为所述待预测词对应的同义词。


6.根据权利要求4所述...

【专利技术属性】
技术研发人员:周阳
申请(专利权)人:深圳和而泰家居在线网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1