一种从行为数据识别用户特性的方法技术

技术编号:12987107 阅读:75 留言:0更新日期:2016-03-09 19:10
本发明专利技术公开了一种从行为数据识别用户特性的方法,该方法的步骤:建立行为特征数据库,计算用户行为数据中出现的某行为特征的分布信息,获得该行为特征对应的个人分布、分类分布和全局分布,综合计算该行为特征的最终分布结果。评估所关联的用户特性的可能性评估值。完成浅层用户特性计算;再计算用户所具有的深层标签的最终评估结果。得出的所有标签即是最终分析出的用户特性。本发明专利技术模型结构和参数简单,算法复杂度低,在实验测试数据上取得了较好的性能和垃圾网页识别效果,具有较好的推广性和适应性,识别效果具有客观、可靠、全面的特点。

【技术实现步骤摘要】

本专利技术涉及互联网领域,具体是。
技术介绍
1.用户行为数据 用户行为数据是指人作为行为个体,日常所有行为的数字化记录结果。随着互联 网与移动互联网的迅速发展,线上行为已经成为人类日常行为的重要组成,而与之相对应 的线上行为数据,则占日常可记录的用户行为数据总量的90%以上,从这个角度而言,可以 用线上行为数据来代表用户行为数据。 线上行为数据,可由所属行为场景划分为几大类别:移动App行为、位置变化行 为、搜索行为、网页浏览行为、购物交易行为、社交行为等。每类数据的来源场景、属性、生成 模式都不同。随着互联网/移动互联网服务的开展,线上用户群规模大(已覆盖日常人口 的7成以上),所产生的行为数据体量更是巨大。以每个用户而言,每日行为数据可达上千 条,每年大于十万条。百度所记录的用户搜索行为数据,每日就接近百亿。 如此丰富/大规模的行为数据可以揭示用户的很多个人特性,有着非常大的商业 价值。如通过搜索、购物交易行为数据可发现用户的购物特性(购买产品和品牌偏好),电 商企业可基于此进行精准个性化的商品推荐。通过社交行为数据可发现用户社会特性(如 兴趣与价值观),大量企业可基于兴趣爱好为用户提供更匹配的服务(如智能交友)。 2.用户特性 用户特性,在用户研究领域是指用户基于自身背景和行为所表现出的特点。该特 点可以定义/描述用户的某个侧面和倾向。用户特性包括很多方面,如自然特性(如男性、 90后、老人、胖、住北京),生活特性(职务、职业、有私家车…),兴趣(喜欢篮球、爱看电 影…)、购物偏好(喜欢品牌,使用化妆品类型),价值观和生活方式(如喜欢大牌、追求品 质、小资、消费能力强)。 用户特性来自对用户长期观察后得到的一种定性(非定量)、多维度的描述。它 来自用户的原始属性信息和长期行为,但隐藏了原始属性明细,这样既保护了用户的隐私 (如从用户的身份证信息,可以得到的用户特性是女性、80后,但不会对应具体生日),也更 具有泛化的推广价值。 当前,用户特性借鉴了互联网的思路,通过标签化方式来定义具体的属性。每个 用户特性可认为是用户的一个标签,这样用户的所有特性可以通过一系列的标签来组合定 义。对用户的特性的分析,就变成对用户标签的分析。后文中用户特性主要用户标签来代 替。 3.用户特性(标签)分析识别 因为用户标签(用户特性)体现了大量的用户内在信息(如兴趣偏好),可带来巨 大的商业价值(如针对用户兴趣类标签做相应的商品服务推荐),所以如何分析和准确识 别用户标签,相关的方法从2014年以来受到了用户研究与商业应用领域的广泛重视。 用户特性分析主要通过两种机制。(1)基于大量用户基本属性信息(如身份证号 /职位/居住地址等),这种方式数据涵盖范围窄,可分析的用户特性有限,同时也存在泄露 用户隐私的问题,所以较少使用。(2)基于用户行为数据。通过对用户行为的挖掘来分析用 户特性提取标签,这种模式不涉及用户隐私,同时互联网/移动互联网的海量用户行为数 据也提供了足够的数据支持。因而成为了当前主要的分析模式。 基于用户行为的分析机制中,并不需要用户任何直接隐私数据(如家庭住址)和 现实生活的社会性标识(如身份证号),是通过用户持续的行为历史来抽象归纳。每个用 户被唯一标示为无意义的数字id(无法对应到现实生活中的具体人员,如为U001),通过该 id的长期行为(比如手机App使用/网页浏览/购物交易等)数据来推导其真实特性并 打标签。举一个直观的例子,开始我们对用户U001 -无所知,但从其半年行为数据中发现: 其手机App常用美图秀秀自拍和打开某瑜伽应用,浏览网站爱去芭莎时尚和新浪旅游,网 上购物常买进口奶粉,我们很容易就能分析出该用户(高可能性)特性标签包括:女性(辣 妈)、喜欢时尚、爱好瑜伽、家有婴儿。在实际应用中,由于行为数据场景多样、规模巨大,要 分析的用户的规模也都常常百万级别以上,必须用自动化的分析方法来完成。 自动化分析用户标签的方法,当前主流是基于关键词(行为特征关键词)的模式 (多由互联网/电商类企业采用)。基本方法如下: 定义行为中的关键词,设定其对应的分类和关联的用户标签(用户特性)。 计算关键词在行为数据中出现的统计性信息(如频度),并映射到关联的用户标 签的频度。 统计频度高的用户特性被认为是用户的最终特性,保留下来。 以上方法用在在特定行为场景(购物交易行为)中分析部分用户标签(购物与品 牌偏好类),很适合电商/互联网的用户标签识别与后续的精准销售推荐。但该方法难以用 于其他(如App使用/浏览行为等)更有价值的行为场景,从而无法发现更全面的用户标 签。且相对简单的评估机制不仅准确性较差,且只能分析用户表面的特性(通常称为表层 用户标签),难以挖掘其深层特性(深层标签)。比如某用户购物行为中常购买健怡可乐和 木糖醇,现有方法只能孤立的发现用户标签是喜欢可乐、偏好可口可乐品牌以及吃木糖醇, 却无法综合来揭示用户隐藏的特质:大量的无糖产品,说明其可能是糖尿病患者。这种特质 被称为深层用户标签(无法通过用户行为数据直接推演的用户标签)。很明显,深层标签更 有意义且应用价值更大(针对糖尿病患者的商品推荐更精准,用户接受度也会更高)。
技术实现思路
本专利技术的目的在于针对现有基于行为数据自动化分析用户特性的相关方法的不 足,提供。该方法基于更全面的用户行为特征库,综合 引入了行为特征的多种分布(自身、所属分类、全局)特点,将特征与用户特性通过概率表 征达到更准确的关联。同时采用多级推导方法,通过表层特性进一步发现深层用户标签。与 现有分析算法相比,本专利技术的分析结果更加准确且更具深度,并具有通用性,可适用于所有 行为场景,以便于研究更加全面的用户特性。 为实现上述目的,本专利技术提供如下技术方案: -种从行为数据识别用户特性的方法,包括以下步骤: 1)建立行为特征数据库,包括行为特征定义库、行为特征-用户特性映射规则库、 行为特征分布数据与用户特性推演库; 行为特征定义库定义涉及的所有行为特征/用户特性的基本属性; 行为特征-用户特性映射规则库定义每个行为特征如何映射到用户特性; 行为特征分布数据是从全量行为数据中计算行为特征的分布数据; 用户特性推演库定义浅层标签与深层标签的推演规则; 2)对一个用户,计算该用户行为数据中出现的某行为特征的分布信息,再获得该 行为特征对应的个人分布、分类分布和全局分布;将分类分布和全局分布作为基准,结合加 权算法,通过个人分布、分类分布和全局分布,综合计算该行为特征的最终分布结果; 3)基于该用户的行为特征的最终分布结果,评估所关联的用户特性的可能性评估 值,以概率表示; 4)对用户行为特征所涉及的所有标签计算完成后,基本的浅层用户特性计算完 成; 5)再基于用户特性推演库,发现当前用户已被识别的浅层用户特性所推演出的用 户深层标签特性,并基于推演模式,进一步计算用户所具有的深层标签的最终评估结果,以 概率表示; 6)上述方法计算得出的某个用户的所有标签,即浅层标签和深层标签和相关评估 值,即是最终分析出的用户特性。当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种从行为数据识别用户特性的方法,其特征在于,包括以下步骤:1)建立行为特征数据库,包括行为特征定义库、行为特征‑用户特性映射规则库、行为特征分布数据与用户特性推演库;行为特征定义库定义涉及的所有行为特征/用户特性的基本属性;行为特征‑用户特性映射规则库定义每个行为特征如何映射到用户特性;行为特征分布数据是从全量行为数据中计算行为特征的分布数据;用户特性推演库定义浅层标签与深层标签的推演规则;2)对一个用户,计算该用户行为数据中出现的某行为特征的分布信息,再获得该行为特征对应的个人分布、分类分布和全局分布;将分类分布和全局分布作为基准,结合加权算法,通过个人分布、分类分布和全局分布,综合计算该行为特征的最终分布结果;3)基于该用户的行为特征的最终分布结果,评估所关联的用户特性的可能性评估值,以概率表示;4)对用户行为特征所涉及的所有标签计算完成后,基本的浅层用户特性计算完成;5)再基于用户特性推演库,发现当前用户已被识别的浅层用户特性所推演出的用户深层标签特性,并基于推演模式,进一步计算用户所具有的深层标签的最终评估结果,以概率表示;6)上述方法计算得出的某个用户的所有标签,即浅层标签和深层标签和相关评估值,即是最终分析出的用户特性。...

【技术特征摘要】

【专利技术属性】
技术研发人员:马亮周鹏飞
申请(专利权)人:北京慧辰资道资讯股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1