一种旅客画像及数据分析的方法及装置制造方法及图纸

技术编号:14007982 阅读:74 留言:0更新日期:2016-11-17 06:12
本发明专利技术涉及一种用户画像方法及设备,具体说是一种旅客画像及数据分析的方法及装置。通过整合、分析交通运输和旅游行业中产生的数据为旅客用户进行画像,挖掘用户爱好,解决旅客基本特征描述,细分客户群,预测行业发展趋势以及旅客的未来行为特征,并为旅客的个性化服务提供支撑。

【技术实现步骤摘要】

本专利技术涉及一种用户画像方法及设备,具体说是一种旅客画像及数据分析的方法及装置
技术介绍
在交通运输和旅游行业中,每天都会产生大量的票务数据、线路数据,甚至是周边的酒店订单数据、餐饮订单数据,当然也包括旅客的个人身份数据。这些数据分散在不同的系统,它们庞大而且分散,看似毫无规律,没有任何价值。但如果采用科学合理的方法整合这些数据,不仅可以得到旅客爱好兴趣及行为特征的画像,也可以用于预测行业发展趋势以及旅客的未来行为特征,将为从业者带来更大的价值。
技术实现思路
本专利技术的目的是提供一种旅客画像及数据分析的方法及装置,通过整合、分析交通运输和旅游行业中产生的数据为旅客用户进行画像,挖掘用户爱好,解决旅客基本特征描述,细分客户群,预测行业发展趋势以及旅客的未来行为特征,并为旅客的个性化服务提供支撑。本专利技术所述一种旅客画像及数据分析的方法,其特征在于包括如下步骤:A)建立数据库;从数据源中获取旅客身份信息和行为数据,存入数据库;B)建立标签模型;根据数据库中的旅客身份信息的特征和行为数据的特征建立相应的标签并赋予每一标签相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;C)计算标签权重;利用如下算法计算标签的权重Tij,得到一组归并的标签,形成当前时间窗的用户画像;Tij=Rij*Wij其中,Rij表示第i个标签中第j个值的时间因子,i代表标签编号,j代表该标签中第j个值,其计算公式如下: R i j = Σ m = 1 K i j R i j m / K i j ]]>其中,Kij为数据集合中与第i个标签第j个值对应的数据条数;Rijm是第m条记录的时间因子。其计算公式如下:其中tnowm-tstartm<=tmaxtnowm第m条数据当前时间,tstartm为第m条数据生成时间,(tnowm-tstartm)为数据生成距离当前时间间隔,α为时间因子衰减率,tmax为时间窗口大小,即超过该时间窗口的数据记录不用来计算标签权重;数据来源权重Wij表示为:i代表标签编号,j代表该标签中第j个值。Wij表示第i个标签中第j个值的数据权重;计算公式如下: W i j = K i j / Σ j K i j ]]>Kij为数据集合中与第i个标签第j个值对应的数据条数;D)预测分析;利用上述步骤获得的数据建立时间序列分析模型,使用时间序列分析模型预测用户未来的行为。在步骤B),所述旅客身份信息的特征和行为数据的特征包括结构化数据和非结构化数据。一种旅客画像及数据分析装置,包括:用于存储旅客身份信息和行为数据的数据库;用于存储标签并生成标签模型的标签库;每一标签具有相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;用于计算标签权重的计算器;该计算器利用如下算法计算标签的权重Tij,得到一组归并的标签,形成当前时间窗的用户画像;Tij=Rij*Wij其中,Rij表示第i个标签中第j个值的时间因子,i代表标签编号,j代表该标签中第j个值,其计算公式如下: R i j = Σ m = 1 K i j R i j m / K i j ]]>其中,Kij为数据集合中与第i个标签第j个值对应的数据条数;Rijm是第m条记录的时间因子。其计算公式如下:其中tnowm-tstartm<=tmaxtnowm第m条数据当前时间,tstartm为第m条数据生成时间,(tnowm-tstartm)为数据生成距离当前时间间隔,α为时间因子衰减率,tmax为时间窗口大小,即超过该时间窗口的数据记录不用来计算标签权重;数据来源权重Wij表示为:i代表标签编号,j代表该标签中第j个值。Wij表示第i个标签中第j个值的数据权重;计算公式如下: W i j = K i j / Σ j K i j ]]>Kij为数据集合中与第i个标签第j个值对应的数据条数;用于输出的输出设备。由于采用上述技术方案,本专利技术通过整合、分析交通运输和旅游行业中产生的数据为旅客用户进行画像,挖掘用户爱好,解决旅客基本特征描述,细分客户群,预测行业发展趋势以及旅客的未来行为特征,并为旅客的个性化服务提供支撑。具体实施方式本专利技术所述一种旅客画像及数据分析的方法,包括如下步骤:A)建立数据库;从数据源中获取旅客身份信息和行为数据,存入数据库;该步骤从各类数据源系统中抽取原始数据,包括但不限于票务系统中的订票记录,列车、飞机上的订餐记录,周边酒店的订单数据,餐饮订单数据,其它平台的标签数据,用户行为日志数据,社交网络中的用户日常消息数据,并将这些数据清洗,转换为数据库可识别的数据,存入到数据库中。B)建立标签模型;根据数据库中的旅客身份信息的特征和行为数据的特征建立相应的标签并赋予每一标签相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;该步骤产出标签、及部分标签对应的权重。建模时选取的特征除了用户的基本特征,包括但不限于姓本文档来自技高网...

【技术保护点】
一种旅客画像及数据分析的方法,其特征在于包括如下步骤:A)建立数据库;从数据源中获取旅客身份信息和行为数据,存入数据库;B)建立标签模型;根据数据库中的旅客身份信息的特征和行为数据的特征建立相应的标签并赋予每一标签相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;C)计算标签权重;利用如下算法计算标签的权重Tij,得到一组归并的标签,形成当前时间窗的用户画像;Tij=Rij*Wij其中,Rij表示第i个标签中第j个值的时间因子,i代表标签编号,j代表该标签中第j个值,其计算公式如下:Rij=Σm=1KijRijm/Kij]]>其中,Kij为数据集合中与第i个标签第j个值对应的数据条数;Rijm是第m条记录的时间因子。其计算公式如下:其中tnowm‑tstartm<=tmaxtnowm第m条数据当前时间,tstartm为第m条数据生成时间,(tnowm‑tstartm)为数据生成距离当前时间间隔,α为时间因子衰减率,tmax为时间窗口大小,即超过该时间窗口的数据记录不用来计算标签权重;数据来源权重Wij表示为:i代表标签编号,j代表该标签中第j个值。Wij表示第i个标签中第j个值的数据权重;计算公式如下:Wij=Kij/ΣjKij]]>Kij为数据集合中与第i个标签第j个值对应的数据条数;D)预测分析;利用上述步骤获得的数据建立时间序列分析模型,使用时间序列分析模型预测用户未来的行为。...

【技术特征摘要】
1.一种旅客画像及数据分析的方法,其特征在于包括如下步骤:A)建立数据库;从数据源中获取旅客身份信息和行为数据,存入数据库;B)建立标签模型;根据数据库中的旅客身份信息的特征和行为数据的特征建立相应的标签并赋予每一标签相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;C)计算标签权重;利用如下算法计算标签的权重Tij,得到一组归并的标签,形成当前时间窗的用户画像;Tij=Rij*Wij其中,Rij表示第i个标签中第j个值的时间因子,i代表标签编号,j代表该标签中第j个值,其计算公式如下: R i j = Σ m = 1 K i j R i j m / K i j ]]>其中,Kij为数据集合中与第i个标签第j个值对应的数据条数;Rijm是第m条记录的时间因子。其计算公式如下:其中tnowm-tstartm<=tmaxtnowm第m条数据当前时间,tstartm为第m条数据生成时间,(tnowm-tstartm)为数据生成距离当前时间间隔,α为时间因子衰减率,tmax为时间窗口大小,即超过该时间窗口的数据记录不用来计算标签权重;数据来源权重Wij表示为:i代表标签编号,j代表该标签中第j个值。Wij表示第i个标签中第j个值的数据权重;计算公式如下: W i j = K i j / Σ j K i j ]]>Kij为数据集合中与第i个标签第j个值对应的数据条数;D)预测分析;利用上述步骤获得的数据建立时间序列分析模型,使用时间序列分析模型预测用户未来的行为。...

【专利技术属性】
技术研发人员:莫倩王拓宇王恺史磊
申请(专利权)人:北京网智天元科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1