数据处理的方法、装置、终端设备以及存储介质制造方法及图纸

技术编号：22689077 阅读：17 留言：0更新日期：2019-11-30 03:40

本申请实施例公开了一种数据处理的方法、装置、终端设备以及存储介质，该方法包括：获取实体词表，实体词表中包括多种实体类型的实体，每种实体类型的实体至少有一个；基于实体词表中的实体，替换训练数据集内各训练数据中的实体，以得到各训练数据各自对应的第一训练数据，其中，用于替换第一实体的第二实体所属的实体类型与第一实体所属的实体类型相同，第二实体不同于第一实体，第一实体为训练数据集内的任一训练数据中的任一实体；将各训练数据对应的第一训练数据添加至训练数据集以得到第一训练数据集。采用本申请实施例，可实现数据的快速扩增，使训练数据更加多样化，适用性高。

Data processing method, device, terminal equipment and storage medium

The embodiment of the application discloses a data processing method, device, terminal device and storage medium, the method includes: acquiring entity vocabulary, including entities of various entity types, at least one entity of each entity type; based on entities in the entity vocabulary, replacing entities in each training data in the training data set to obtain each training data Self corresponding first training data, wherein the entity type of the second entity used to replace the first entity is the same as that of the first entity, and the second entity is different from the first entity. The first entity is any entity in any training data in the training data set; the first training data corresponding to each training data is added to the training data set to obtain the first training Data set. By adopting the embodiment of the application, the rapid expansion of data can be realized, the training data can be more diversified and the applicability is high.

全部详细技术资料下载

【技术实现步骤摘要】
数据处理的方法、装置、终端设备以及存储介质
本申请涉及自然语言处理领域，尤其涉及一种数据处理的方法、装置、终端设备以及存储介质。
技术介绍
随着第二次人工智能浪潮的推动，自然语言处理技术得到了快速发展。其中深度学习相比传统的机器学习一定幅度地提高了自然语言处理的准确度和置信度，从而给机器阅读，文本分类，实体命名识别等技术带来大量实际应用的机会。在深度学习中，为了避免出现过拟合，所需训练数据的数据量往往是非常大的，一般在万级以上。这些训练数据大部分由人工标注得到，需要耗费大量的人力物力。因此，如何更加快速地得到更多的训练数据，成为当前亟待解决的问题。
技术实现思路
本申请实施例提供一种数据处理的方法、装置、终端设备以及存储介质，可实现数据的快速扩增，使训练数据更加多样化，灵活性强，适用性高。第一方面，本申请实施例提供了一种数据处理的方法，该方法包括：获取实体词表，上述实体词表中包括多种实体类型的实体，每种实体类型的实体至少有一个；基于上述实体词表中的实体，替换训练数据集内各训练数据中的实体，以得到上述各训练数据各自对应的第一训练数据，其中，用于替换第一实体的第二实体所属的实体类型与上述第一实体所属的实体类型相同，上述第二实体不同于上述第一实体，上述第一实体为上述训练数据集内的任一训练数据中的任一实体；将上述各训练数据对应的第一训练数据添加至上述训练数据集以得到第一训练数据集。本申请实施例基于获取的实体词表中包括的实体替换训练数据中包括的实体，可实现训练数据的快...

【技术保护点】
1.一种数据处理的方法，其特征在于，所述方法包括：/n获取实体词表，所述实体词表中包括多种实体类型的实体，每种实体类型的实体至少有一个；/n基于所述实体词表中的实体，替换训练数据集内各训练数据中的实体，以得到所述各训练数据各自对应的第一训练数据，其中，用于替换第一实体的第二实体所属的实体类型与所述第一实体所属的实体类型相同，所述第二实体不同于所述第一实体，所述第一实体为所述训练数据集内的任一训练数据中的任一实体；/n将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集。/n

【技术特征摘要】
1.一种数据处理的方法，其特征在于，所述方法包括：
获取实体词表，所述实体词表中包括多种实体类型的实体，每种实体类型的实体至少有一个；
基于所述实体词表中的实体，替换训练数据集内各训练数据中的实体，以得到所述各训练数据各自对应的第一训练数据，其中，用于替换第一实体的第二实体所属的实体类型与所述第一实体所属的实体类型相同，所述第二实体不同于所述第一实体，所述第一实体为所述训练数据集内的任一训练数据中的任一实体；
将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集。

2.根据权利要求1所述方法，其特征在于，所述获取实体词表，包括：
提取所述训练数据集内各训练数据中的实体；
根据提取得到的实体生成所述实体词表。

3.根据权利要求1所述方法，其特征在于，所述基于所述实体词表中的实体，替换训练数据集内各训练数据中的实体，包括：
确定目标实体所属的目标实体类型，所述目标实体为所述训练数据集内任一训练数据中的实体；
从所述实体词表中随机选取属于所述目标实体类型的且不同于所述目标实体的实体，替换所述目标实体。

4.根据权利要求1-3任一项所述方法，其特征在于，所述将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集之后，所述方法还包括：
获取停用词表，所述停用词表中包括多个停用词；
对所述第一训练数据集中的第一目标训练数据进行分词处理以得到组成所述第一目标训练数据的多个词，所述第一目标训练数据为所述第一训练数据集中的任一训练数据；
从组成所述第一目标训练数据的多个词中确定出不属于所述停用词表且不属于所述实体词表的词作为待预测词；
获取所述待预测词的同义词，基于所述同义词替换所述第一目标训练数据中的所述待预测词，以生成所述第一目标训练数据对应的第二训练数据；
将所述第一训练数据集中各训练数据各自对应的第二训练数据添加至所述第一训练数据集以得到第二训练数据集。

5.根据权利要求4所述方法，其特征在于，所述获取所述待预测词的同义词，包括：
将所述第一目标训练数据中的待预测词替换为标识符以生成待预测数据；
将所述待预测数据输入预训练语言模型，基于所述预训练语言模型输出所述标识符对应的预测词；
将所述预测词确定为所述待预测词对应的同义词。

6.根据权利要求4所述...

【专利技术属性】
技术研发人员：周阳，
申请(专利权)人：深圳和而泰家居在线网络科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人