数据处理方法和装置制造方法及图纸

技术编号:24035718 阅读:29 留言:0更新日期:2020-05-07 01:50
本申请实施例公开了数据处理方法和装置。该方法的一具体实施方式包括:获取样本集;将该样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型,得到从该预先训练的第一自然语言处理模型输出的预测结果;将得到的预测结果分别确定为该多个目标样本中各个目标样本的标注;基于该多个目标样本和该各个目标样本的标注,对待训练的第二自然语言处理模型进行训练,得到训练后的第二自然语言处理模型,第一自然语言处理模型中的参数,多于第二自然语言处理模型中的参数。本申请实施例能够利用第一自然语言处理模型的预测结果作为样本的标注,可以获得大量存在标注的样本对小模型进行训练,从而训练出精确度较高、且运行速度快的小模型。

Data processing methods and devices

【技术实现步骤摘要】
数据处理方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及数据处理方法和装置。
技术介绍
随着语言处理技术的发展,自然语言处理(naturallanguageprocessing,NLP)模型逐渐得到了广泛的应用。各种各样的自然语言处理模型也应运而生,其中不乏一些处理精度高,体量较大的模型。然而,因为运算能力的限制,处理精度高的自然语言处理模型并非是所有计算平台的最优选择。且往往处理精度高的模型,预测速度较慢。
技术实现思路
本申请实施例提出了数据处理方法和装置。第一方面,本申请实施例提供了一种数据处理方法,包括:获取样本集,其中,样本集中的样本为无标注的语句;将样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型,得到从预先训练的第一自然语言处理模型输出的预测结果;将得到的预测结果分别确定为多个目标样本中各个目标样本的标注;基于多个目标样本和各个目标样本的标注,对待训练的第二自然语言处理模型进行训练,得到训练后的第二自然语言处理模型,其中,第一自然语言处理模型中的参数,多于第二自然语言处理模型中的参数。在一些实施例中,目标样本的标注用于指示目标样本属于至少两个类型中的任一类型的概率。在一些实施例中,方法还包括:将样本集的样本的目标词替换为指定标识,其中,在包含指定标识的样本中,目标词的数量占该样本的词的数量的目标比例或目标数量;将包含指定标识的样本,新增为样本集的样本。在一些实施例中,方法还包括:将样本集的样本的目标词,更新为词性一致的另一个词,其中,在更新后的样本中,目标词的数量占该样本的词的数量的目标比例或目标数量;将更新后的样本新增为样本集的样本。在一些实施例中,方法还包括:对于样本集的样本,截取目标长度的片段;将截取到的片段新增为样本集的样本。第二方面,本申请实施例提供了一种数据处理装置,包括:获取单元,被配置成获取样本集,其中,样本集中的样本为无标注的语句;输入单元,被配置成将样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型,得到从预先训练的第一自然语言处理模型输出的预测结果;确定单元,被配置成将得到的预测结果分别确定为多个目标样本中各个目标样本的标注;训练单元,被配置成基于多个目标样本和各个目标样本的标注,对待训练的第二自然语言处理模型进行训练,得到训练后的第二自然语言处理模型,其中,第一自然语言处理模型中的参数,多于第二自然语言处理模型中的参数。在一些实施例中,目标样本的标注用于指示目标样本属于至少两个类型中的任一类型的概率。在一些实施例中,装置还包括:将样本集的样本的目标词替换为指定标识,其中,在包含指定标识的样本中,目标词的数量占该样本的词的数量的目标比例或目标数量;将包含指定标识的样本,新增为样本集的样本。在一些实施例中,装置还包括:将样本集的样本的目标词,更新为词性一致的另一个词,其中,在更新后的样本中,目标词的数量占该样本的词的数量的目标比例或目标数量;将更新后的样本新增为样本集的样本。在一些实施例中,装置还包括:对于样本集的样本,截取目标长度的片段;将截取到的片段新增为样本集的样本。第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如数据处理方法中任一实施例的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如数据处理方法中任一实施例的方法。本申请实施例提供的数据处理方案,首先,获取样本集,其中,样本集中的样本为无标注的语句。之后,将样本集中的目标样本输入预先训练的第一自然语言处理模型,得到从预先训练的第一自然语言处理模型输出的预测结果。而后,将预测结果确定为目标样本的标注。最后基于目标样本和目标样本的标注,对待训练的第二自然语言处理模型进行训练,得到训练后的第二自然语言处理模型,其中,第一自然语言处理模型中的参数,多于第二自然语言处理模型中的参数。本申请的上述实施例提供的方案能够利用第一自然语言处理模型的预测结果作为样本的标注,可以获得大量存在标注的样本对小模型进行训练,从而训练出精确度较高、且运行速度快的小模型。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请一些实施例可以应用于其中的示例性系统架构图;图2是根据本申请的数据处理方法的一个实施例的流程图;图3是根据本申请的数据处理方法的一个应用场景的示意图;图4是根据本申请的数据处理装置的一个实施例的结构示意图;图5是适于用来实现本申请一些实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的数据处理方法或数据处理装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如数据处理应用、视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。这里的终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对样本集等数据进行分析等处理,并将处理结果(例如训练后的第二自然语言处理模型)反馈给终端设备。需要说明的是,本申请实施例所提供的数据处理方法可以由服务器105或者终端设备101、102、103执行,相应地,数据处理装置可以设置于服务器105或者终端设备101、102、103中。应该理解,图1中的终端设备、网络和服务器的数目仅本文档来自技高网...

【技术保护点】
1.一种数据处理方法,所述方法包括:/n获取样本集,其中,所述样本集中的样本为无标注的语句;/n将所述样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型,得到从所述预先训练的第一自然语言处理模型输出的预测结果;/n将得到的预测结果分别确定为所述多个目标样本中各个目标样本的标注;/n基于所述多个目标样本和所述各个目标样本的标注,对待训练的第二自然语言处理模型进行训练,得到训练后的第二自然语言处理模型,其中,所述第一自然语言处理模型中的参数,多于所述第二自然语言处理模型中的参数。/n

【技术特征摘要】
1.一种数据处理方法,所述方法包括:
获取样本集,其中,所述样本集中的样本为无标注的语句;
将所述样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型,得到从所述预先训练的第一自然语言处理模型输出的预测结果;
将得到的预测结果分别确定为所述多个目标样本中各个目标样本的标注;
基于所述多个目标样本和所述各个目标样本的标注,对待训练的第二自然语言处理模型进行训练,得到训练后的第二自然语言处理模型,其中,所述第一自然语言处理模型中的参数,多于所述第二自然语言处理模型中的参数。


2.根据权利要求1所述的方法,其中,所述目标样本的标注用于指示目标样本属于至少两个类型中的任一类型的概率。


3.根据权利要求1所述的方法,其中,所述方法还包括:
将所述样本集的样本的目标词替换为指定标识,其中,在包含指定标识的样本中,所述目标词的数量占该样本的词的数量的目标比例或目标数量;
将包含所述指定标识的样本,新增为所述样本集的样本。


4.根据权利要求1所述的方法,其中,所述方法还包括:
将所述样本集的样本的目标词,更新为词性一致的另一个词,其中,在更新后的样本中,所述目标词的数量占该样本的词的数量的目标比例或目标数量;
将更新后的样本新增为所述样本集的样本。


5.根据权利要求1所述的方法,其中,所述方法还包括:
对于所述样本集的样本,截取目标长度的片段;
将截取到的片段新增为所述样本集的样本。


6.一种数据处理装置,所述装置包括:
获取单元,被配置成获取样本集,其中,所述样本集中的样本为无标注的语句;
输入单元,被配置成将所述样本集中的多个目标样本分别输入预先训练的第一自然语言处理模型,得到...

【专利技术属性】
技术研发人员:曹宇慧冯仕堃陈徐屹何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1