The application embodiment discloses a method and device for processing information. One specific embodiment of the method includes: acquiring target identification data; extracting the first information related to the target identification data from the preset first information set, and generating a first information subset based on the extracted first information; and determining from at least one preset second information set. The second information set of the target and the number of the second information included in the second information set of the target are determined; the second information set of the target is divided into the second information subset of the preset number in response to the determination that the number is larger than the preset number threshold; and for the second information subset of the preset number of the second information subset, the second information subset of the second information subset of the preset number is determined. The second information subset is associated with the first information subset and is stored as a result information set. The implementation method improves the flexibility of information processing and helps to solve the problem of data skew caused by processing a large number of related data.
【技术实现步骤摘要】
用于处理信息的方法和装置
本申请实施例涉及计算机
,具体涉及用于处理信息的方法和装置。
技术介绍
随着互联网的飞速发展,数据呈现出爆发式的增长,海量数据的处理已经成为本领域技术人员研究的重点。数据关联是数据处理中经常进行的操作,包括内连接、左外连接、右外连接、全连接等。由于关联后的数据量巨大,会造成数据倾斜。数据倾斜指的是,并行处理的数据集中,某一部分的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。为解决数据倾斜,需要调整单个数据处理任务的数据量,例如将一个任务中处理的关联数据分散到多个任务中,或者对关联数据的标识添加随机前后缀,将数据打散,再进行关联。
技术实现思路
本申请实施例提出了用于处理信息的方法和装置。第一方面,本申请实施例提供了一种用于处理信息的方法,该方法包括:获取目标标识数据;从预设的第一信息集合中,提取对应的标识数据与目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定目标第二信息集合包括的第二信息的数量,其中,目标第二信息集合中的第二信息对应的标识数据与目标标识数据相关;响应于确定数量大于预设的数量阈值,将目标第二信息集合划分成预设数量个第二信息子集合;对于预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与第一信息子集合关联存储为结果信息集合。在一些实施例中,在确定目标第二信息集合包括的第二信息的数量之后,方法还包括:响应于确定数量小于等于预设的数量阈值,将第一信息子集合与目标第二信息集合关联存储为结果信息集合。在 ...
【技术保护点】
1.一种用于处理信息的方法,包括:获取目标标识数据;从预设的第一信息集合中,提取对应的标识数据与所述目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定所述目标第二信息集合包括的第二信息的数量,其中,所述目标第二信息集合中的第二信息对应的标识数据与所述目标标识数据相关;响应于确定所述数量大于预设的数量阈值,将所述目标第二信息集合划分成预设数量个第二信息子集合;对于所述预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与所述第一信息子集合关联存储为结果信息集合。
【技术特征摘要】
1.一种用于处理信息的方法,包括:获取目标标识数据;从预设的第一信息集合中,提取对应的标识数据与所述目标标识数据相关的第一信息,以及基于所提取的第一信息,生成第一信息子集合;从预设的至少一个第二信息集合中确定目标第二信息集合,以及确定所述目标第二信息集合包括的第二信息的数量,其中,所述目标第二信息集合中的第二信息对应的标识数据与所述目标标识数据相关;响应于确定所述数量大于预设的数量阈值,将所述目标第二信息集合划分成预设数量个第二信息子集合;对于所述预设数量个第二信息子集合中的第二信息子集合,将该第二信息子集合与所述第一信息子集合关联存储为结果信息集合。2.根据权利要求1所述的方法,其中,在所述确定所述目标第二信息集合包括的第二信息的数量之后,所述方法还包括:响应于确定所述数量小于等于预设的数量阈值,将所述第一信息子集合与所述目标第二信息集合关联存储为结果信息集合。3.根据权利要求1所述的方法,其中,在所述将该第二信息子集合与所述第一信息子集合关联存储为结果信息集合之后,所述方法还包括:将所关联存储的结果信息集合发送至预先分配的、用于处理所关联存储的结果信息集合的设备。4.根据权利要求1-3之一所述的方法,其中,第二信息集合预先通过如下步骤得到:获取预设的第二原始信息集合;对于所述第二原始信息集合中的第二原始信息,确定该第二原始信息对应的标识数据;将所确定的标识数据相同的第二原始信息确定为第二信息,生成第二信息集合。5.根据权利要求4所述的方法,其中,在所述将所确定的标识数据相同的第二原始信息确定为第二信息集合之后,所述方法还包括:基于所确定的第二信息集合所对应的标识数据,对所确定的至少一个第二信息集合进行排序,得到排序后的至少一个第二信息集合。6.一种用于处理信息的装置,包括:获取单元,被配置成获取目标标识数据;生成单元,被配置成从预设的第一信息集合中,提取对应的标识数据与所述目标标识数据...
【专利技术属性】
技术研发人员:安金龙,张宁,刘业辉,张飞,王彦明,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。