用于处理信息的方法和装置制造方法及图纸

技术编号:19388907 阅读:38 留言:0更新日期:2018-11-10 02:02
本申请实施例公开了用于处理信息的方法和装置。该方法的一具体实施方式包括:获取目标标识数据;从预设的第一信息集合中,提取对应的标识数据与目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定目标第二信息集合包括的第二信息的数量;响应于确定数量大于预设的数量阈值,将目标第二信息集合划分成预设数量个第二信息子集合;对于预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与第一信息子集合关联存储为结果信息集合。该实施方式提高了信息处理的灵活性,有助于解决处理大量关联数据造成的数据倾斜问题。

Method and device for processing information

The application embodiment discloses a method and device for processing information. One specific embodiment of the method includes: acquiring target identification data; extracting the first information related to the target identification data from the preset first information set, and generating a first information subset based on the extracted first information; and determining from at least one preset second information set. The second information set of the target and the number of the second information included in the second information set of the target are determined; the second information set of the target is divided into the second information subset of the preset number in response to the determination that the number is larger than the preset number threshold; and for the second information subset of the preset number of the second information subset, the second information subset of the second information subset of the preset number is determined. The second information subset is associated with the first information subset and is stored as a result information set. The implementation method improves the flexibility of information processing and helps to solve the problem of data skew caused by processing a large number of related data.

【技术实现步骤摘要】
用于处理信息的方法和装置
本申请实施例涉及计算机
,具体涉及用于处理信息的方法和装置。
技术介绍
随着互联网的飞速发展,数据呈现出爆发式的增长,海量数据的处理已经成为本领域技术人员研究的重点。数据关联是数据处理中经常进行的操作,包括内连接、左外连接、右外连接、全连接等。由于关联后的数据量巨大,会造成数据倾斜。数据倾斜指的是,并行处理的数据集中,某一部分的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。为解决数据倾斜,需要调整单个数据处理任务的数据量,例如将一个任务中处理的关联数据分散到多个任务中,或者对关联数据的标识添加随机前后缀,将数据打散,再进行关联。
技术实现思路
本申请实施例提出了用于处理信息的方法和装置。第一方面,本申请实施例提供了一种用于处理信息的方法,该方法包括:获取目标标识数据;从预设的第一信息集合中,提取对应的标识数据与目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定目标第二信息集合包括的第二信息的数量,其中,目标第二信息集合中的第二信息对应的标识数据与目标标识数据相关;响应于确定数量大于预设的数量阈值,将目标第二信息集合划分成预设数量个第二信息子集合;对于预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与第一信息子集合关联存储为结果信息集合。在一些实施例中,在确定目标第二信息集合包括的第二信息的数量之后,方法还包括:响应于确定数量小于等于预设的数量阈值,将第一信息子集合与目标第二信息集合关联存储为结果信息集合。在一些实施例中,在将该第二信息子集合与第一信息子集合关联存储为结果信息集合之后,方法还包括:将所关联存储的结果信息集合发送至预先分配的、用于处理所关联存储的结果信息集合的设备。在一些实施例中,第二信息集合预先通过如下步骤得到:获取预设的第二原始信息集合;对于第二原始信息集合中的第二原始信息,确定该第二原始信息对应的标识数据;将所确定的标识数据相同的第二原始信息确定为第二信息,生成第二信息集合。在一些实施例中,在将所确定的标识数据相同的第二原始信息确定为第二信息集合之后,方法还包括:基于所确定的第二信息集合所对应的标识数据,对所确定的至少一个第二信息集合进行排序,得到排序后的至少一个第二信息集合。第二方面,本申请实施例提供了一种用于处理信息的装置,该装置包括:获取单元,被配置成获取目标标识数据;生成单元,被配置成从预设的第一信息集合中,提取对应的标识数据与目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;确定单元,被配置成从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定目标第二信息集合包括的第二信息的数量,其中,目标第二信息集合中的第二信息对应的标识数据与目标标识数据相关;划分单元,被配置成响应于确定数量大于预设的数量阈值,将目标第二信息集合划分成预设数量个第二信息子集合;第一存储单元,被配置成对于预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与第一信息子集合关联存储为结果信息集合。在一些实施例中,装置还包括:第二存储单元,被配置成响应于确定数量小于等于预设的数量阈值,将第一信息子集合与目标第二信息集合关联存储为结果信息集合。在一些实施例中,第一存储单元进一步被配置成:将所关联存储的结果信息集合发送至预先分配的、用于处理所关联存储的结果信息集合的设备。在一些实施例中,第二信息集合预先通过如下步骤得到:获取预设的第二原始信息集合;对于第二原始信息集合中的第二原始信息,确定该第二原始信息对应的标识数据;将所确定的标识数据相同的第二原始信息确定为第二信息,生成第二信息集合。在一些实施例中,在将所确定的标识数据相同的第二原始信息确定为第二信息集合之后,还包括:基于所确定的第二信息集合所对应的标识数据,对所确定的至少一个第二信息集合进行排序,得到排序后的至少一个第二信息集合。第三方面,本申请实施例提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的用于处理信息的方法和装置,通过从预设的第一信息集合中,提取对应的标识数据与获取的目标标识数据相关的第一信息而生成的第一信息子集合,在将包含的数据的数量大于数量阈值的第二信息集合划分成多个第二信息子集合,最后关联存储第一信息子集合和第二信息子集合,从而提高了信息处理的灵活性,有助于解决处理大量关联数据造成的数据倾斜问题。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的用于处理信息的方法的一个实施例的流程图;图3是根据本申请的用于处理信息的方法的一个应用场景的示意图;图4是根据本申请的用于处理信息的方法的又一个实施例的流程图;图5是根据本申请的用于处理信息的装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请实施例的用于处理信息的方法或用于处理信息的装置的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有数据生成功能的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上产生的数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取到的数据进行处理,并将处理结果(例如生成的第一信息子集合和第二信息子集合)关联存储。需要说明的是本文档来自技高网...

【技术保护点】
1.一种用于处理信息的方法,包括:获取目标标识数据;从预设的第一信息集合中,提取对应的标识数据与所述目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定所述目标第二信息集合包括的第二信息的数量,其中,所述目标第二信息集合中的第二信息对应的标识数据与所述目标标识数据相关;响应于确定所述数量大于预设的数量阈值,将所述目标第二信息集合划分成预设数量个第二信息子集合;对于所述预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与所述第一信息子集合关联存储为结果信息集合。

【技术特征摘要】
1.一种用于处理信息的方法,包括:获取目标标识数据;从预设的第一信息集合中,提取对应的标识数据与所述目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定所述目标第二信息集合包括的第二信息的数量,其中,所述目标第二信息集合中的第二信息对应的标识数据与所述目标标识数据相关;响应于确定所述数量大于预设的数量阈值,将所述目标第二信息集合划分成预设数量个第二信息子集合;对于所述预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与所述第一信息子集合关联存储为结果信息集合。2.根据权利要求1所述的方法,其中,在所述确定所述目标第二信息集合包括的第二信息的数量之后,所述方法还包括:响应于确定所述数量小于等于预设的数量阈值,将所述第一信息子集合与所述目标第二信息集合关联存储为结果信息集合。3.根据权利要求1所述的方法,其中,在所述将该第二信息子集合与所述第一信息子集合关联存储为结果信息集合之后,所述方法还包括:将所关联存储的结果信息集合发送至预先分配的、用于处理所关联存储的结果信息集合的设备。4.根据权利要求1-3之一所述的方法,其中,第二信息集合预先通过如下步骤得到:获取预设的第二原始信息集合;对于所述第二原始信息集合中的第二原始信息,确定该第二原始信息对应的标识数据;将所确定的标识数据相同的第二原始信息确定为第二信息,生成第二信息集合。5.根据权利要求4所述的方法,其中,在所述将所确定的标识数据相同的第二原始信息确定为第二信息集合之后,所述方法还包括:基于所确定的第二信息集合所对应的标识数据,对所确定的至少一个第二信息集合进行排序,得到排序后的至少一个第二信息集合。6.一种用于处理信息的装置,包括:获取单元,被配置成获取目标标识数据;生成单元,被配置成从预设的第一信息集合中,提取对应的标识数据与所述目标标识数据...

【专利技术属性】
技术研发人员:安金龙张宁刘业辉张飞王彦明
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1