用于处理数据的方法和装置制造方法及图纸

技术编号:20486530 阅读:45 留言:0更新日期:2019-03-02 19:38
本申请实施例公开了用于处理数据的方法和装置。该方法的一具体实施方式包括:接收用户的数据处理请求;若数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合;对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果;向用户展示所生成的分析结果。该实施方式可以方便负责整理数据的非研发人员了解数据集中的数据在目标信息下的分布情况,便于该人员基于该分布情况,实现对数据集的快速整理。

【技术实现步骤摘要】
用于处理数据的方法和装置
本申请实施例涉及计算机
,具体涉及用于处理数据的方法和装置。
技术介绍
目前,用于模型训练的数据通常以便于算法处理的格式被存放于文件或其它媒介,由研发人员负责数据的整理工作。而非研发人员一般很难有一个直观的途径了解数据,并对数据进行整理。
技术实现思路
本申请实施例提出了用于处理数据的方法和装置。第一方面,本申请实施例提供了一种用于处理数据的方法,该方法包括:接收用户的数据处理请求;若数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合;对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果;向用户展示所生成的分析结果。在一些实施例中,第一数据集中的数据关联类别标签,目标信息为类别标签;以及对选取出的数据进行统计分析,生成与目标信息对应的分析结果,包括:确定选取出的数据的数目;确定数目与第一数据集中的数据的总数目的比值;生成包括目标信息和比值的分析结果。在一些实施例中,第一数据集中的数据关联类别标签和与本文档来自技高网...

【技术保护点】
1.一种用于处理数据的方法,包括:接收用户的数据处理请求;若所述数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:获取所述数据处理请求所指向的第一数据集和与所述第一数据集对应的目标信息集合;对于所述目标信息集合中的目标信息,从所述第一数据集中选取出与所述目标信息相关联的数据,对选取出的数据进行统计分析,生成与所述目标信息对应的分析结果;向所述用户展示所生成的分析结果。

【技术特征摘要】
1.一种用于处理数据的方法,包括:接收用户的数据处理请求;若所述数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:获取所述数据处理请求所指向的第一数据集和与所述第一数据集对应的目标信息集合;对于所述目标信息集合中的目标信息,从所述第一数据集中选取出与所述目标信息相关联的数据,对选取出的数据进行统计分析,生成与所述目标信息对应的分析结果;向所述用户展示所生成的分析结果。2.根据权利要求1所述的方法,其中,所述第一数据集中的数据关联类别标签,所述目标信息为类别标签;以及所述对选取出的数据进行统计分析,生成与所述目标信息对应的分析结果,包括:确定选取出的数据的数目;确定所述数目与所述第一数据集中的数据的总数目的比值;生成包括所述目标信息和所述比值的分析结果。3.根据权利要求1所述的方法,其中,所述第一数据集中的数据关联类别标签和与该类别标签对应的分数,所述目标信息为分数区间;以及所述从所述第一数据集中选取出与所述目标信息相关联的数据,对选取出的数据进行统计分析,生成与所述目标信息对应的分析结果,包括:从所述第一数据集中选取出所关联的分数处于所述目标信息内的数据;将选取出的数据中的关联同一类别标签的数据划分到同一数据组;对于划分出的数据组,将该数据组所关联的类别标签和该数据组中的数据的数目组成信息对;生成包括所述目标信息和所组成的信息对的分析结果。4.根据权利要求1所述的方法,其中,所述方法还包括:若所述数据处理请求是与数据集相关的目标数据获取请求,则执行以下获取操作:获取所述数据处理请求所指向的第二数据集和与所述第二数据集对应的目标类别标识;获取与所述目标类别标识相关联的分类模型;对于所述第二数据集中的数据,利用所述分类模型,对该数据进行类别预测,以确定该数据是否归属于所述目标类别标识所指示的目标类别;若归属于,则选取该数据作为目标数据;将选取出的目标数据返回给所述用户。5.根据权利要求4所述的方法,其中,所述分类模型是用于筛选出归属于所述目标类别的数据的正则表达式;以及所述对于所述第二数据集中的数据,利用所述分类模型,对该数据进行类别预测,以确定该数据是否归属于所述目标类别标识所指示的目标类别,包括:对于所述第二数据集中的数据,利用所述分类模型,对该数据进行匹配操作;若匹配成功,则确定该数据归属于所述目标类别。6.根据权利要求4所述的方法,其中,所述分类模型是经训练后的用于进行类别预测的机器学习模型;以及所述对于所述第二数据集中的数据,利用所述分类模型,对该数据进行类别预测,以确定该数据是否归属于所述目标类别标识所指示的目标类别,包括:对于所述第二数据集中的数据,将该数据输入所述分类模型,得到预测结果,其中,所述预测结果包括预测出的该数据的类别标签;确定所述预测结果中的类别标签所指示的类别是否为所述目标类别;若是,则确定该数据归属于所述目标类别。7.根据权利要求1所述的方法,其中,所述方法还包括:若所述数据处理请求是对数据集之间进行比较的请求,则执行以下第一比较操作:获取所述数据处理请求所指向的至少两个数据集和第一目标匹配方式;基于所述第一目标匹配方式,对所述至少两个数据集进行比较,生成第一比较结果;向所述用户展示所述第一比较结果。8.根据权利要求1所述的方法,其中,所述方法还包括:若所述数据处理请求是对数据集中的数据进行内容比较的请求,则执行以下第二比较操作:获取所述数据处理请求所指向的至少两条数据和第二目标匹配方式;基于所述第二目标匹配方式,对所述至少两条数据的内容进行比较,生成第二比较结果;向所述用户展示所述第二比较结果。9.根据权利要求1所述的方法,其中,所述方法还包括:若所述数据处理请求是对数据集中的数据进行关联数据获取的请求,则执行以下关联数据获取操作:获取所述数据处理请求所指向的至少一条数据;将所述至少一条数据中的数据作为待匹配数据,确定所述待匹配数据与目标数据库中的数据之间的相似度;从所述目标数据库中获取与所述待匹配数据的相似度达到相似度阈值的数据作为所述待匹配数据的关联数据;将获取到的所述待匹配数据的关联数据返回给所述用户。10.一种用于处理数据的装置,包括:接收单元,被配置成接收用户的...

【专利技术属性】
技术研发人员:李纪超黄文冠李文峰宝腾飞
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1