数据处理方法技术

技术编号:39674675 阅读:8 留言:0更新日期:2023-12-11 18:40
本公开提供了数据处理方法

【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质


[0001]本公开涉及数据处理
,尤其涉及深度学习领域


技术介绍

[0002]在面对海量随机检索时,需要识别出该查询词
(
或称搜索词
)
是否属于某一领域,再送入该领域进行处理,以得到更好的处理效果


技术实现思路

[0003]本公开提供了一种数据处理方法

装置

设备及存储介质

[0004]根据本公开的一方面,提供了一种数据处理方法,包括:
[0005]基于正样本数据中的第一搜索词所对应的特征信息,得到负样本品类;其中,所述正样本数据包含有属于目标领域的多个第一搜索词;所述负样本品类为不属于所述目标领域的搜索词所对应的品类;
[0006]从所述负样本品类中选取出第二搜索词,作为负样本数据;所述负样本数据包含有不属于所述目标领域的多个第二搜索词

[0007]根据本公开的另一方面,提供了一种数据处理装置,包括:
[0008]第一确定单元,用于基于正样本数据中的第一搜索词所对应的特征信息,得到负样本品类;其中,所述正样本数据包含有属于目标领域的多个第一搜索词;所述负样本品类为不属于所述目标领域的搜索词所对应的品类;
[0009]第二确定单元,用于从所述负样本品类中选取出第二搜索词,作为负样本数据;所述负样本数据包含有不属于所述目标领域的多个第二搜索词

[0010]根据本公开的另一方面,提供了一种电子设备,包括:
[0011]至少一个处理器;以及
[0012]与该至少一个处理器通信连接的存储器;其中,
[0013]该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法

[0014]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法

[0015]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法

[0016]这样,本公开方案能够自动进行采样,降低了采样成本

[0017]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围

本公开的其它特征将通过以下的说明书而变得容易理解

附图说明
[0018]附图用于更好地理解本方案,不构成对本公开的限定

其中:
[0019]图1是根据本申请一实施例数据处理方法的示意性流程图一;
[0020]图2是根据本申请一实施例数据处理方法的示意性流程图二;
[0021]图3是根据本申请一实施例数据处理方法的示意性流程图三;
[0022]图4是根据本申请一实施例数据处理方法的示意性流程图四;
[0023]图
5(a)
和图
5(b)
是根据本申请另一实施例数据处理方法在一具体示例中的示意性流程图;
[0024]图6是根据本申请实施例数据处理装置的结构示意图一;
[0025]图7是根据本申请实施例数据处理装置的结构示意图二;
[0026]图8是用来实现本公开实施例的数据处理方法的电子设备的框图

具体实施方式
[0027]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的

因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神

同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述

[0028]在面对海量随机检索时,需要识别出该查询词
(
也即搜索词
)
是否属于某一领域,再送入该领域处理,以得到更好的处理效果

识别方法有传统的规则判别和以深度学习为代表的机器学习办法

但是规则判别泛化性能差,而使用模型处理则需要大量标注,提高了模型处理成本

[0029]基于此,本公开方案提供了一种数据处理方法,具体地,图1是根据本申请一实施例数据处理方法的示意性流程图一

该方法可选地可以应用于电子设备,比如,个人电脑,或服务器

或服务器集群等,本公开方案对此不作具体限制

该方法包括以下内容的至少部分内容

如图1所示,包括:
[0030]步骤
S101
:基于正样本数据中的第一搜索词所对应的特征信息,得到负样本品类;其中,所述正样本数据包含有属于目标领域的多个第一搜索词;所述负样本品类为不属于所述目标领域的搜索词所对应的品类

[0031]可以理解的是,本公开方案从易获取的正样本数据出发,依据“正样本

特征信息

负样本”间的联系,采集负样本数据

如此,来自动化得到负样本数据,解决了现有负样本数据较难采样,或采样到的负样本数据不准确的问题,如此,降低了采样成本,同时,也为提升模型的泛华能力奠定了基础

[0032]在一具体示例中,所述特征信息可以具体包括以下至少之一:行为特征,品类特征;进一步地,所述行为特征包括以下至少一种:播放视频

点击图片

跳转链接等;所述品类特征可以具体指搜索词对应的物品或商品的品类

可以理解的是,本公开方案所述的特征信息还可以为其他维度的特征,本公开方案对此不作限制,只要该维度的特征能够直接或间接得到负样本品类,均在本公开方案的保护范围内

[0033]步骤
S102
:从所述负样本品类中选取出第二搜索词,作为负样本数据;所述负样本数据包含有不属于所述目标领域的多个第二搜索词

[0034]可以理解的是,由于所述负样本品类为不属于所述目标领域的搜索词所对应的品类,因此,可直接从负样本品类中采集不属于目标领域的搜索词作为负样本数据,如此,从
品类维度来实现负样本数据的采样,丰富了采样维度,同时,也提升了负样本数据的采样量以及采样效率

[0035]这样,本公开方案由于能够自动进行采样,也即能够基于正样本数据得到负样本品类,进而在负样本品类中自动地进行负样本数据的采样,如此,降低了采样成本,进而为降低模型的训练成本奠定了基础;同时,也为提升模型训练效率

提升模型的泛化能力奠定了基础

[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法,包括:基于正样本数据中的第一搜索词所对应的特征信息,得到负样本品类;其中,所述正样本数据包含有属于目标领域的多个第一搜索词;所述负样本品类为不属于所述目标领域的搜索词所对应的品类;从所述负样本品类中选取出第二搜索词,作为负样本数据;所述负样本数据包含有不属于所述目标领域的多个第二搜索词
。2.
根据权利要求1所述的方法,其中,所述基于正样本数据中的第一搜索词所对应的特征信息,得到负样本品类,包括:基于所述正样本数据中的第一搜索词所对应的特征信息,得到正样本品类;其中,所述正样本品类为属于所述目标领域的搜索词所对应的品类;基于所述正样本品类得到负样本品类
。3.
根据权利要求2所述的方法,其中,所述基于所述正样本数据中的第一搜索词所对应的特征信息,得到正样本品类,包括:将所述正样本数据中第一搜索词对应的品类特征,作为正样本品类;或者,在所述正样本数据中第一搜索词的行为特征处于所述目标领域的预设行为范围内的情况下,将所述正样本数据中第一搜索词对应的品类特征作为所述正样本品类
。4.
根据权利要求2或3所述的方法,其中,所述基于所述正样本品类得到负样本品类,包括:从预设品类集中去除所述正样本品类后,得到所述负样本品类;或者,在所述正样本数据中第一搜索词的行为特征未处于所述目标领域的预设行为范围内的情况下,将未处于所述目标领域的预设行为范围内的第一搜索词对应的品类特征,作为所述负样本品类
。5.
根据权利要求1至4任一项所述的方法,还包括:确定所述正样本数据;其中,所述正样本数据通过以下至少之一得到:对属于所述目标领域的搜索词进行采样,获得所述正样本数据;将与所述正样本数据中第一搜索词所匹配的关联词,作为所述正样本数据;在搜索词对应的行为特征位于所述目标领域的预设行为范围内的情况下,将处于所述目标领域的预设行为范围内的搜索词作为所述正样本数据
。6.
根据权利要求1至5任一项所述的方法,还包括:将所述正样本数据所包含的多个第一搜索词和所述负样本数据包含的多个第二搜索词输入至预设识别模型进行模型训练
。7.
根据权利要求6所述的方法,其中,所述将所述正样本数据所包含的多个第一搜索词和所述负样本数据包含的多个第二搜索词输入至预设识别模型进行模型训练,包括:将所述正样本数据所包含的多个第一搜索词和所述负样本数据包含的多个第二搜索词输入至预训练完成的教师模型,得到第一输出结果;将所述正样本数据所包含的多个第一搜索词和所述负样本数据包含的多个第二搜索词输入至初始学生模型,得到第二输出结果,其中,所述初始学生模型是从所述预训练完成
的教师模型中蒸馏得到的;基于所述第一输出结果

所述第二输出结果以及标签数据,计算得到目标损失函数的损失值;其中,所述标签数据包括所述正样本数据的正样本标签和所述负样本数据的负样本标签;基于所述目标损失函数的损失值,对所述初始学生模型进行模型训练
。8.
根据权利要求7所述的方法,还包括:确定目标损失函数;其中,所述目标损失函数是基于第一损失函数和第二损失函数得到:所述第一损失函数用于表征所述初始学生模型的输出结果与所述预训练完成的教师模型的输出结果之间的交叉熵;所述第二损失函数用于表征所述初始学生模型的输出结果与所述标签数据的交叉熵
。9.
根据权利要求7或8所述的方法,还包括:在所述目标损失函数的损失值满足预设收敛条件的情况下,得到目标学生模型
。10.
根据权利要求9所述的方法,还包括:将待处理搜索词输入至所述目标学生模型,得到所述待处理搜索词的领域
。11.
一种数据处理装置,包括:第一确定单元,用于基于正样本数据中的第一搜索词所对应的特征信息,得到负样本品类;其中,所述正样本数据包含有属于目标领域的多个第一搜索词;所述负样本品类为不属于所述目标领域的搜索词所对应的品类;第二确定单元,用于从所述负样本品类中选取出第二搜索词,作为负样本数据;所述负样本数据包含有不属于所述目标领域的多个第二搜索词
。12.
根据权利要求
11
所述的装置,其中,所述第一确定单元,具体用于:基于所述正样本数据中的第一搜索词所对应...

【专利技术属性】
技术研发人员:薛昌熵吕浩宇杨骏伟刘晓庆
申请(专利权)人:百度在线网络技术
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1