System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 人群查找方法、系统、电子设备和计算机可读存储介质技术方案_技高网

人群查找方法、系统、电子设备和计算机可读存储介质技术方案

技术编号:40172144 阅读:5 留言:0更新日期:2024-01-26 23:41
本申请提供一种人群查找方法、系统、电子设备和计算机可读存储介质,涉及大数据领域。该人群查找方法包括:基于原始人群数据,生成多个初始位图块;对所述初始位图块进行块内压缩,获得最终位图块,并记录所述最终位图块对应的位图块信息;基于所述位图块信息,在所述最终位图块中查找目标人群。使用本申请提供的人群查找方法进行人群定位或人群预估,基于位图作为数据存储和处理的基本单元,通过位图压缩、查询和计算等操作,实现了对大规模人群数据的高效处理。

【技术实现步骤摘要】

本申请涉及大数据领域,具体而言,涉及一种人群查找方法、系统、电子设备和计算机可读存储介质


技术介绍

1、在目标用户识别,广告信息投放等场景需要进行目标人群识别或估计。目前,人群估计算法常常依赖于大量原始数据的明细数据进行处理和分析。

2、在处理的过程中,需要在关系型数据库中存储大量原始的用户行为属性明细数据,通常原始的用户行为属性明细数据的数据量非常大,一般在tb级别。因此,传统的人群预估方法在数据采集比较繁琐,成本较高并且实时性也有待提升。


技术实现思路

1、本申请实施例的目的在于提供一种人群查找方法、系统、电子设备和计算机可读存储介质,基于位图作为数据存储和处理的基本单元,通过位图压缩、查询和计算等操作,实现了对大规模人群数据的高效处理。

2、第一方面,本申请实施例提供一种人群查找方法,方法包括:基于原始人群数据,生成多个初始位图块;对初始位图块进行块内压缩,获得最终位图块,并记录最终位图块对应的位图块信息;基于位图块信息,在最终位图块中查找目标人群。

3、在上述实现过程中,本申请提供的人群查找方法通过将原始人群数据处理为最终位图块,可以有效减少存储需求。由于位图块是压缩的形式,相较于传统的存储大量原始用户行为属性明细数据,所需的存储空间大幅减小。由于数据已经被压缩为位图块,使后续的人群查找和定位过程变得更加高效。相应的信息在位图块内进行查询,而不需要复杂的关系型数据库查询,因此,计算效率也有所提高。

4、可选地,在本申请实施例中,基于原始人群数据,生成多个初始位图块,包括:将原始人群数据以键值对的方式进行存储;其中,键值对包括键名称和键值;键名称表征原始人群的人群特征,键值表征人群特征对应的数据。

5、在上述实现过程中,本申请实施例提供的人群查找方法可以使用roaringbitmap算法将原始数据生成多个初始位图块。将原始人群数据分割为键和键值,并使用roaringbitmap算法进行存储,可以显著减小存储需求;能够有效地存储大规模整数数据集,适用于处理tb级别的数据,有效降低了存储成本和硬件需求。

6、可选地,在本申请实施例中,记录最终位图块对应的位图块信息,包括:以索引的方式,记录最终位图块对应的定位信息;其中,定位信息包括块id和偏移量。

7、在上述实现过程中,本申请实施例在记录最终位图块对应的位图块信息时,通常会以索引的方式记录位图块的定位信息;块id用于唯一标识最终位图块,而偏移量则指示了在该位图块中所需数据的具体位置。从而能够快速定位到目标位图块,并从位图块中提取或处理所需的数据,提高查询和检索操作的效率。

8、可选地,在本申请实施例中,基于位图块信息,在最终位图块中查找目标人群,包括:根据索引和目标人群的人群特征,对最终位图块进行分层查找,以在最终位图块中,定位目标位图块;在目标位图块内,查找目标人群。

9、在上述实现过程中,本申请实施例提供了如何基于位图块信息在最终位图块中查找目标人群的方法,根据索引和目标人群的特征来定位目标位图块。由于使用了分层查找,可以跳过不满足条件的位图块,从而节省了计算资源,降低了计算成本。一旦定位到目标位图块,可以在该位图块内进行查找,有利于提高对于广告投放、个性化推荐和其他涉及目标用户的应用的效率。

10、可选地,在本申请实施例中,根据索引和目标人群的人群特征,对最终位图块进行分层查找,包括:根据人群特征和索引,在最终位图块中定位目标位图块;并查找目标位图块的键值对的键名称和键值;其中,键名称存储于数据的高位,键值存储于数据的低位。

11、在上述实现过程中,通过使用人群特征和索引进行查找,可以更准确地定位到包含目标人群数据的位图块,而不是进行全范围的搜索,提高了查找的精确性,减少了误差;另一方面,分层查找方法减少了不必要的遍历和查询,从而提高了查找效率。

12、可选地,在本申请实施例中,在目标位图块内,查找目标人群,包括:根据人群特征,以键值对应的目标数据的中间位置为分界点,将目标数据分为第一子表和第二子表;在第一子表和第二子表中,分别查找人群特征;在未查找到人群特征的情况下,在第一子表和第二子表中重复二分,直至查找到人群特征或表长度为0。

13、在上述实现过程中,本申请实施例为了查找目标人群,首先,根据人群特征,在目标数据中选择一个合适的分界点,将目标数据分为两个子表,即第一子表和第二子表,其中,分界点通常位于目标数据的中间位置。进一步地,在第一子表和第二子表中分别进行人群特征的查找。若没有查找到,则再次选择一个合适的分界点,并将子表继续划分为更小的子表;这个过程可重复进行,直到找到目标人群特征或者确定该特征不存在于目标数据中。因此,使用本申请实施例提供的人群查找方法可以高效地定位到目标人群,特别是当目标数据量很大时,可以显著提高查找效率。

14、可选地,在本申请实施例中,对初始位图块进行块内压缩,获得最终位图块,包括:压缩初始位图块内为0的元素和重复的元素,并将初始位图块中的信息进行编码,以获得最终位图块。

15、在上述实现过程中,本申请实施例对于初始位图块内大部分元素为零的情况,采用稀疏矩阵压缩方法可以有效地减少存储空间;对于连续重复出现的元素,采用rle方法可以将它们编码为一个元素和重复次数的组合,从而进一步减小存储空间;因此,使用本申请实施例提供的人群查找方法可以显著减少存储空间的使用,特别是在处理大型位图块或包含大量零元素和连续重复元素的情况下。

16、第二方面,本申请实施例提供一种人群查找系统,人群查找系统包括:位图块生成模块和查找模块;位图块生成模块用于基于原始人群数据,生成多个初始位图块;位图块生成模块还用于对初始位图块进行块内压缩,获得最终位图块,并记录最终位图块对应的位图块信息;查找模块用于基于位图块信息,在最终位图块中查找目标人群。

17、第三方面,本申请实施例提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器读取并运行所述程序指令时,执行上述任一实现方式中的步骤。

18、第四方面,本申请实施例还提供一种计算机可读存储介质,所述可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述任一实现方式中的步骤。

本文档来自技高网...

【技术保护点】

1.一种人群查找方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于原始人群数据,生成多个初始位图块,包括:

3.根据权利要求2所述的方法,其特征在于,所述记录所述最终位图块对应的位图块信息,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述位图块信息,在所述最终位图块中查找目标人群,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述索引和所述目标人群的人群特征,对所述最终位图块进行分层查找,包括:

6.根据权利要求5所述的方法,其特征在于,所述在所述目标位图块内,查找所述目标人群,包括:

7.根据权利要求1所述的方法,其特征在于,所述对所述初始位图块进行块内压缩,获得最终位图块,包括:

8.一种人群查找系统,其特征在于,所述人群查找系统包括:位图块生成模块和查找模块;

9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行权利要求1-7中任一项所述方法中的步骤

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行权利要求1-7任一项所述方法中的步骤。

...

【技术特征摘要】

1.一种人群查找方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于原始人群数据,生成多个初始位图块,包括:

3.根据权利要求2所述的方法,其特征在于,所述记录所述最终位图块对应的位图块信息,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述位图块信息,在所述最终位图块中查找目标人群,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述索引和所述目标人群的人群特征,对所述最终位图块进行分层查找,包括:

6.根据权利要求5所述的方法,其特征在于,所述在所述目标位图块内,查...

【专利技术属性】
技术研发人员:陈灏姜皓然邵加佳温嘉鸣
申请(专利权)人:上海收钱吧互联网科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1