数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36894844 阅读:10 留言:0更新日期:2023-03-15 22:22
本申请实施例公开了一种数据处理方法、装置、电子设备及存储介质。所述方法包括:获取预设时间段内的待处理数据,所述待处理数据中包括多个监听对象的多条行为事件记录,所述行为事件记录包括行为事件以及与所述行为事件对应的上下文数据,所述行为事件为所述监听对象的内部单元在活跃过程中被记录下来的使用记录;从所述待处理数据获取属于白名单的多条目标行为事件记录;基于所述多条目标行为事件记录,得到所述多个监听对象各自对应的时序行为序列;基于所述多个监听对象各自对应的时序行为序列,生成时序行为数据集。通过上述方法,使得生成的数据集中行为事件和上下文数据更加准确地对应起来,从而可以显著提高时序行为预测模型的预测精度。测模型的预测精度。测模型的预测精度。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本申请属于数据处理
,具体涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,互联网上面的新闻、博客、论坛、电子书等各类文本数据集越来越多,如何利用这些海量文本数据集来生成高质量的文本数据集,以用于人工智能模型的训练和推理已成为热门的研究方向。相关的数据处理方式中,没有考虑到上下文信息对生成的数据集的影响,使得基于生成的数据集训练得到的模型的预测精度还有待提高。

技术实现思路

[0003]鉴于上述问题,本申请提出了一种数据处理方法、装置、电子设备以及存储介质,以实现改善上述问题。
[0004]第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:获取预设时间段内的待处理数据,所述待处理数据中包括多个监听对象的多条行为事件记录,所述行为事件记录包括行为事件以及与所述行为事件对应的上下文数据,所述行为事件为所述监听对象的内部单元在活跃过程中被记录下来的使用记录;从所述待处理数据获取属于白名单的多条目标行为事件记录;基于所述多条目标行为事件记录,得到所述多个监听对象各自对应的时序行为序列;基于所述多个监听对象各自对应的时序行为序列,生成时序行为数据集。
[0005]第二方面,本申请实施例提供了一种数据处理装置,所述装置包括:数据获取单元,用于获取预设时间段内的待处理数据,所述待处理数据中包括多个监听对象的多条行为事件记录,所述行为事件记录包括行为事件以及与所述行为事件对应的上下文数据,所述行为事件为所述监听对象的内部单元在活跃过程中被记录下来的使用记录;记录获取单元,用于从所述待处理数据获取属于白名单的多条目标行为事件记录;序列获取单元,用于基于所述多条目标行为事件记录,得到所述多个监听对象各自对应的时序行为序列;数据集生成单元,用于基于所述多个监听对象各自对应的时序行为序列,生成时序行为数据集。
[0006]第三方面,本申请实施例提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
[0007]第四方面,本申请实施例提供了一种服务器,包括一个或多个处理器以及存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
[0008]第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
[0009]本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质。首先获取预
设时间段内的待处理数据,所述待处理数据中包括多个监听对象的多条行为事件记录,所述行为事件记录包括行为事件以及与所述行为事件对应的上下文数据,所述行为事件为所述监听对象的内部单元在活跃过程中被记录下来的使用记录,然后从待处理数据获取属于白名单的多条目标行为事件记录,再基于多条目标行为事件记录,得到多个监听对象各自对应的时序行为序列,最后基于多个监听对象各自对应的时序行为序列,生成时序行为数据集。通过上述方法,将行为事件和与行为事件对应的上下文数据进行关联,使得生成的数据集中时序行为事件和上下文数据更加准确地对应起来,从而可以显著提高通过生成的数据集训练得到的时序行为预测模型的预测精度。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1示出了本申请一实施例提出的一种数据处理方法的应用场景示意图;
[0012]图2示出了本申请一实施例提出的一种数据处理方法的应用场景示意图;
[0013]图3示出了本申请一实施例提出的一种数据处理方法的流程图;
[0014]图4示出了本申请一实施例中预设数据库的实体关系图的示意图;
[0015]图5示出了本申请另一实施例提出的一种数据处理方法的流程图;
[0016]图6示出了本申请另一实施例中根据滑窗切分时序行为序列的示意图;
[0017]图7示出了本申请另一实施例中步骤S271

步骤S275所示的过程示意图;
[0018]图8示出了本申请再一实施例提出的一种数据处理方法的流程图;
[0019]图9示出了本申请再一实施例中步骤S310

步骤S320所示的过程示意图;
[0020]图10示出了本申请实施例提出的一种数据处理装置的结构框图;
[0021]图11示出了本申请实时中的用于执行根据本申请实施例的数据处理方法的电子设备或服务器的结构框图;
[0022]图12示出了本申请实时中的用于保存或者携带实现根据本申请实施例的数据处理方法的程序代码的存储单元。
具体实施方式
[0023]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]近年来,互联网上面的新闻、博客、论坛、电子书等各类文本数据集越来越多,如何利用这些海量文本数据集来生成高质量的文本数据集,以用于人工智能模型的训练和推理已成为热门的研究方向。
[0025]专利技术人在对相关的数据处理方法的研究中发现,相关的数据处理方式中,没有考虑到上下文信息对生成的数据集的影响,使得基于生成的数据集训练得到的模型的预测精
度还有待提高。
[0026]因此,专利技术人提出了本申请中的数据处理方法、装置、电子设备及存储介质。首先获取预设时间段内的待处理数据,所述待处理数据中包括多个监听对象的多条行为事件记录,所述行为事件记录包括行为事件以及与所述行为事件对应的上下文数据,所述行为事件为所述监听对象的内部单元在活跃过程中被记录下来的使用记录,然后从待处理数据获取属于白名单的多条目标行为事件记录,再基于多条目标行为事件记录,得到多个监听对象各自对应的时序行为序列,最后基于多个监听对象各自对应的时序行为序列,生成时序行为数据集。通过上述方法,将行为事件和与行为事件对应的上下文数据进行关联,使得生成的数据集中时序行为事件和上下文数据更加准确地对应起来,从而可以显著提高通过生成的数据集训练得到的时序行为预测模型的预测精度。
[0027]在本申请实施例中,所提供的数据处理方法可以由电子设备执行。在由电子设备执行的这种方式中,本申请实施例提供的数据处理方法中所有步骤可以均由电子设备执行。例如,如图1所示,通过电子设备100的处理器可以实时获取预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取预设时间段内的待处理数据,所述待处理数据中包括多个监听对象的多条行为事件记录,所述行为事件记录包括行为事件以及与所述行为事件对应的上下文数据,所述行为事件为所述监听对象的内部单元在活跃过程中被记录下来的使用记录;从所述待处理数据获取属于白名单的多条目标行为事件记录;基于所述多条目标行为事件记录,得到所述多个监听对象各自对应的时序行为序列;基于所述多个监听对象各自对应的时序行为序列,生成时序行为数据集。2.根据权利要求1所述的方法,其特征在于,所述从所述待处理数据获取属于白名单的多条目标行为事件记录,包括:基于所述多条行为事件记录,确定所述多个监听对象所包括的内部单元各自对应的出现频次;获取出现频次大于预设次数的内部单元对应的行为事件记录,得到所述属于白名单的多条目标行为事件记录。3.根据权利要求1所述的方法,其特征在于,所述基于所述多条目标行为事件记录,得到所述多个监听对象各自对应的时序行为序列,包括:获取所述多条目标行为事件记录各自对应的时间戳,所述时间戳表征所述内部单元变为活跃状态的时间;基于所述时间戳,对属于同一监听对象的多条目标行为事件记录进行排序,得到所述多个监听对象各自对应的时序行为序列。4.根据权利要求3所述的方法,其特征在于,所述基于所述多个监听对象各自对应的时序行为序列,生成时序行为数据集,包括:基于预设滑窗大小,对所述多个监听对象各自对应的时序行为序列进行切分,得到所述多个监听对象各自对应的多个子序列;基于所述多个监听对象各自对应的多个子序列,生成对应的多条样本数据;对所述多条样本数据进行随机打乱,得到所述时序行为数据集。5.根据权利要求4所述的方法,其特征在于,所述子序列包括多个行为事件记录;所述基于所述多个监听对象各自对应的多个子序列,生成对应的多条样本数据,包括:基于所述多个子序列,生成对应的多个输入数据,其中,一个子序列生成一个输入数据,所述输入数据由所述子序列的第0个到第W个行为事件记录构成;基于每个子序列的第1个到第W个行为事件记录中的内部单元名称,生成每个输入数据对应的正标签;基于每个子序列的第1个到第W...

【专利技术属性】
技术研发人员:黄钢
申请(专利权)人:OPPO重庆智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1