数据处理方法和装置制造方法及图纸

技术编号：24035718 阅读：29 留言：0更新日期：2020-05-07 01:50

本申请实施例公开了数据处理方法和装置。该方法的一具体实施方式包括：获取样本集；将该样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型，得到从该预先训练的第一自然语言处理模型输出的预测结果；将得到的预测结果分别确定为该多个目标样本中各个目标样本的标注；基于该多个目标样本和该各个目标样本的标注，对待训练的第二自然语言处理模型进行训练，得到训练后的第二自然语言处理模型，第一自然语言处理模型中的参数，多于第二自然语言处理模型中的参数。本申请实施例能够利用第一自然语言处理模型的预测结果作为样本的标注，可以获得大量存在标注的样本对小模型进行训练，从而训练出精确度较高、且运行速度快的小模型。

Data processing methods and devices

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法和装置
本申请实施例涉及计算机
，具体涉及互联网
，尤其涉及数据处理方法和装置。
技术介绍
随着语言处理技术的发展，自然语言处理(naturallanguageprocessing，NLP)模型逐渐得到了广泛的应用。各种各样的自然语言处理模型也应运而生，其中不乏一些处理精度高，体量较大的模型。然而，因为运算能力的限制，处理精度高的自然语言处理模型并非是所有计算平台的最优选择。且往往处理精度高的模型，预测速度较慢。
技术实现思路
本申请实施例提出了数据处理方法和装置。第一方面，本申请实施例提供了一种数据处理方法，包括：获取样本集，其中，样本集中的样本为无标注的语句；将样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型，得到从预先训练的第一自然语言处理模型输出的预测结果；将得到的预测结果分别确定为多个目标样本中各个目标样本的标注；基于多个目标样本和各个目标样本的标注，对待训练的第二自然语言处理模型进行训练，得到训练后的第二自然语言处理模型，其中，第一自然语言处理模型中的参数，多于第二自然语言处理模型中的参数。在一些实施例中，目标样本的标注用于指示目标样本属于至少两个类型中的任一类型的概率。在一些实施例中，方法还包括：将样本集的样本的目标词替换为指定标识，其中，在包含指定标识的样本中，目标词的数量占该样本的词的数量的目标比例或目标数量；将包含指定标识的样本，新增为样本集的样本。在一些实施例中，方法还包括：将样本集的样本的目标词，更...

【技术保护点】
1.一种数据处理方法，所述方法包括：/n获取样本集，其中，所述样本集中的样本为无标注的语句；/n将所述样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型，得到从所述预先训练的第一自然语言处理模型输出的预测结果；/n将得到的预测结果分别确定为所述多个目标样本中各个目标样本的标注；/n基于所述多个目标样本和所述各个目标样本的标注，对待训练的第二自然语言处理模型进行训练，得到训练后的第二自然语言处理模型，其中，所述第一自然语言处理模型中的参数，多于所述第二自然语言处理模型中的参数。/n

【技术特征摘要】
1.一种数据处理方法，所述方法包括：
获取样本集，其中，所述样本集中的样本为无标注的语句；
将所述样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型，得到从所述预先训练的第一自然语言处理模型输出的预测结果；
将得到的预测结果分别确定为所述多个目标样本中各个目标样本的标注；
基于所述多个目标样本和所述各个目标样本的标注，对待训练的第二自然语言处理模型进行训练，得到训练后的第二自然语言处理模型，其中，所述第一自然语言处理模型中的参数，多于所述第二自然语言处理模型中的参数。

2.根据权利要求1所述的方法，其中，所述目标样本的标注用于指示目标样本属于至少两个类型中的任一类型的概率。

3.根据权利要求1所述的方法，其中，所述方法还包括：
将所述样本集的样本的目标词替换为指定标识，其中，在包含指定标识的样本中，所述目标词的数量占该样本的词的数量的目标比例或目标数量；
将包含所述指定标识的样本，新增为所述样本集的样本。

4.根据权利要求1所述的方法，其中，所述方法还包括：
将所述样本集的样本的目标词，更新为词性一致的另一个词，其中，在更新后的样本中，所述目标词的数量占该样本的词的数量的目标比例或目标数量；
将更新后的样本新增为所述样本集的样本。

5.根据权利要求1所述的方法，其中，所述方法还包括：
对于所述样本集的样本，截取目标长度的片段；
将截取到的片段新增为所述样本集的样本。

6.一种数据处理装置，所述装置包括：
获取单元，被配置成获取样本集，其中，所述样本集中的样本为无标注的语句；
输入单元，被配置成将所述样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型，得到...

【专利技术属性】
技术研发人员：曹宇慧，冯仕堃，陈徐屹，何径舟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人