数据处理方法技术

技术编号：39674675 阅读：8 留言：0更新日期：2023-12-11 18:40

本公开提供了数据处理方法

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质

[0001]本公开涉及数据处理
，尤其涉及深度学习领域
。

技术介绍

[0002]在面对海量随机检索时，需要识别出该查询词
(
或称搜索词
)
是否属于某一领域，再送入该领域进行处理，以得到更好的处理效果
。

技术实现思路

[0003]本公开提供了一种数据处理方法
、
装置
、
设备及存储介质
。
[0004]根据本公开的一方面，提供了一种数据处理方法，包括：
[0005]基于正样本数据中的第一搜索词所对应的特征信息，得到负样本品类；其中，所述正样本数据包含有属于目标领域的多个第一搜索词；所述负样本品类为不属于所述目标领域的搜索词所对应的品类；
[0006]从所述负样本品类中选取出第二搜索词，作为负样本数据；所述负样本数据包含有不属于所述目标领域的多个第二搜索词
。
[0007]根据本公开的另一方面，提供了一种数据处理装置，包括：
[0008]第一确定单元，用于基于正样本数据中的第一搜索词所对应的特征信息，得到负样本品类；其中，所述正样本数据包含有属于目标领域的多个第一搜索词；所述负样本品类为不属于所述目标领域的搜索词所对应的品类；
[0009]第二确定单元，用于从所述负样本品类中选取出第二搜索词，作为负样本数据；所述负样本数据包含有不属于所述目标领域的多个第二搜索词
。
[0010]根据本公开的另一方...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法，包括：基于正样本数据中的第一搜索词所对应的特征信息，得到负样本品类；其中，所述正样本数据包含有属于目标领域的多个第一搜索词；所述负样本品类为不属于所述目标领域的搜索词所对应的品类；从所述负样本品类中选取出第二搜索词，作为负样本数据；所述负样本数据包含有不属于所述目标领域的多个第二搜索词
。2.
根据权利要求1所述的方法，其中，所述基于正样本数据中的第一搜索词所对应的特征信息，得到负样本品类，包括：基于所述正样本数据中的第一搜索词所对应的特征信息，得到正样本品类；其中，所述正样本品类为属于所述目标领域的搜索词所对应的品类；基于所述正样本品类得到负样本品类
。3.
根据权利要求2所述的方法，其中，所述基于所述正样本数据中的第一搜索词所对应的特征信息，得到正样本品类，包括：将所述正样本数据中第一搜索词对应的品类特征，作为正样本品类；或者，在所述正样本数据中第一搜索词的行为特征处于所述目标领域的预设行为范围内的情况下，将所述正样本数据中第一搜索词对应的品类特征作为所述正样本品类
。4.
根据权利要求2或3所述的方法，其中，所述基于所述正样本品类得到负样本品类，包括：从预设品类集中去除所述正样本品类后，得到所述负样本品类；或者，在所述正样本数据中第一搜索词的行为特征未处于所述目标领域的预设行为范围内的情况下，将未处于所述目标领域的预设行为范围内的第一搜索词对应的品类特征，作为所述负样本品类
。5.
根据权利要求1至4任一项所述的方法，还包括：确定所述正样本数据；其中，所述正样本数据通过以下至少之一得到：对属于所述目标领域的搜索词进行采样，获得所述正样本数据；将与所述正样本数据中第一搜索词所匹配的关联词，作为所述正样本数据；在搜索词对应的行为特征位于所述目标领域的预设行为范围内的情况下，将处于所述目标领域的预设行为范围内的搜索词作为所述正样本数据
。6.
根据权利要求1至5任一项所述的方法，还包括：将所述正样本数据所包含的多个第一搜索词和所述负样本数据包含的多个第二搜索词输入至预设识别模型进行模型训练
。7.
根据权利要求6所述的方法，其中，所述将所述正样本数据所包含的多个第一搜索词和所述负样本数据包含的多个第二搜索词输入至预设识别模型进行模型训练，包括：将所述正样本数据所包含的多个第一搜索词和所述负样本数据包含的多个第二搜索词输入至预训练完成的教师模型，得到第一输出结果；将所述正样本数据所包含的多个第一搜索词和所述负样本数据包含的多个第二搜索词输入至初始学生模型，得到第二输出结果，其中，所述初始学生模型是从所述预训练完成
的教师模型中蒸馏得到的；基于所述第一输出结果
、
所述第二输出结果以及标签数据，计算得到目标损失函数的损失值；其中，所述标签数据包括所述正样本数据的正样本标签和所述负样本数据的负样本标签；基于所述目标损失函数的损失值，对所述初始学生模型进行模型训练
。8.
根据权利要求7所述的方法，还包括：确定目标损失函数；其中，所述目标损失函数是基于第一损失函数和第二损失函数得到：所述第一损失函数用于表征所述初始学生模型的输出结果与所述预训练完成的教师模型的输出结果之间的交叉熵；所述第二损失函数用于表征所述初始学生模型的输出结果与所述标签数据的交叉熵
。9.
根据权利要求7或8所述的方法，还包括：在所述目标损失函数的损失值满足预设收敛条件的情况下，得到目标学生模型
。10.
根据权利要求9所述的方法，还包括：将待处理搜索词输入至所述目标学生模型，得到所述待处理搜索词的领域
。11.
一种数据处理装置，包括：第一确定单元，用于基于正样本数据中的第一搜索词所对应的特征信息，得到负样本品类；其中，所述正样本数据包含有属于目标领域的多个第一搜索词；所述负样本品类为不属于所述目标领域的搜索词所对应的品类；第二确定单元，用于从所述负样本品类中选取出第二搜索词，作为负样本数据；所述负样本数据包含有不属于所述目标领域的多个第二搜索词
。12.
根据权利要求
11
所述的装置，其中，所述第一确定单元，具体用于：基于所述正样本数据中的第一搜索词所对应...

【专利技术属性】
技术研发人员：薛昌熵，吕浩宇，杨骏伟，刘晓庆，
申请(专利权)人：百度在线网络技术，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人