The present invention provides a method and system for sampling and image search index based on people, firstly, set the crowd portraits conditions, and set up an index for the full amount of data, and then find the sampling error calculation, sampling rate and to calculate the lookup, the error rate of judgment, when the error rate is less than or equal to the maximum permissible error when the sampling data as input data to calculate the error rate when the crowd portraits, is greater than the maximum allowable error, using the method of computing the index lookup identifier of the user data, and then get individual portraits of these identifiers corresponding to the individual image as input data, calculate the crowd portraits so the invention in the calculation of population portrait error a small number of records, and hundreds of millions of levels in the case that the user has the second response ability.
【技术实现步骤摘要】
基于抽样查找和索引查找的人群画像方法及系统
本专利技术属于信息技术
,具体涉及一种基于抽样查找和索引查找的人群画像方法及系统。
技术介绍
人群画像是为了让团队成员在产品设计的过程中能够抛开个人喜好,将焦点关注在目标用户的动机和行为上进行产品设计。简单讲就是通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,抽象模拟出的一种调查分析报告,是用户信息标签。譬如在百度指数输入产品关键词,就会得出搜索该产品消费人群的行为喜好。人群画像能够对产品运营、客户维系起到精准用户群体以及获取用户需求反馈信息作用。在数据收集时,通常是将海量的用户记录进行抽样,然后对抽样数据进行人群画像计算。但是抽样计算产生的结果产生的误差率有时会大于最大允许误差,即抽样计算结果产生的误差大于业务可以接受的值,不能满足业务需求。因此,需要找到一种合理的人群画像方法使得计算结果的误差率不超过允许误差,并且计算时相应迅速。
技术实现思路
本专利技术是为了解决上述问题而进行的,目的在于提供一种在用户记录条数上亿级别的情况下,响应迅速且误差小的基于抽样查找和索引查找的人群画像方法及系统。本 ...
【技术保护点】
一种基于抽样查找和索引查找的人群画像方法,其特征在于,包括以下步骤:步骤1,设定人群画像条件,并对全量数据建立索引;步骤2,对全量数据进行抽样,产生抽样数据;步骤3,根据所述人群画像条件对所述抽样数据进行人群规划计算,并计算人群规划计算结果的误差率;步骤4,将人群规划计算结果的误差率与设定的最大允许误差进行比较,如果误差率小于等于最大允许误差,则将抽样数据作为人群画像的输入数据,执行步骤7,如果误差率大于最大允许误差,则执行步骤5;步骤5,在全量数据中通过索引查找满足所述人群画像条件的受众的唯一标识符;步骤6,根据查找到的受众的唯一标识符得到每个受众对应的个体画像,将个体画 ...
【技术特征摘要】
1.一种基于抽样查找和索引查找的人群画像方法,其特征在于,包括以下步骤:步骤1,设定人群画像条件,并对全量数据建立索引;步骤2,对全量数据进行抽样,产生抽样数据;步骤3,根据所述人群画像条件对所述抽样数据进行人群规划计算,并计算人群规划计算结果的误差率;步骤4,将人群规划计算结果的误差率与设定的最大允许误差进行比较,如果误差率小于等于最大允许误差,则将抽样数据作为人群画像的输入数据,执行步骤7,如果误差率大于最大允许误差,则执行步骤5;步骤5,在全量数据中通过索引查找满足所述人群画像条件的受众的唯一标识符;步骤6,根据查找到的受众的唯一标识符得到每个受众对应的个体画像,将个体画像作为人群画像的输入数据;步骤7,根据人群画像的输入数据计算目标人群的人群画像。2.根据权利要求1所述的基于抽样查找和索引查找的人群画像方法,其特征在于:其中,定期对所述全量数据进行更新,根据更新的全量数据更新抽样数据,并对更新的全量数据的索引进行更新。3.根据权利要求1所述的基于抽样查找和索引查找的人群画像方法,其特征在于:其中,所述人群规划计算结果的误差率采用以下方法得到:d为误差率,m为从抽样数据中抽取的满足人群画像条件的样本数据,s为全量数据。4.根据权利要求1所述的基于抽样查找和索引查找的人群画像方法,其特征在于:其中,每个受众的唯一标识符采用murmur哈希算法对整条记录进行哈希计算得到。5.根据权利要求1所述的基于抽样查找和索引查找的人群画像方法,其特征在于:其中,对全量数据建立索引时,采用混合索引方式。6.根据权利要求5所述的基于抽样查找和索引查...
【专利技术属性】
技术研发人员:汤奇峰,宁绍军,
申请(专利权)人:晶赞广告上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。