一种基于多源数据及语义融合的用户行为预测方法及系统技术方案

技术编号:26890726 阅读:33 留言:0更新日期:2020-12-29 16:07
本发明专利技术提供了一种基于多源数据及语义融合的用户行为预测方法和系统。基于用户上网记录数据,解析其中的行为与行为对象,获取用户上网行为的时间、行为类型、行为对象语义等信息生成用户上网行为特征。基于用户的通话记录数据,生成用户通话行为特征。基于用户位置停留数据记录数据,挖掘其中的重要位置、线路和移动模式,生成用户移动行为特征。基于用户通话记录数据和位置停留数据记录,挖掘用户社交圈及圈内其他用户对其的影响力,生成用户社交为特征。对用户上网、通话、移动、社交圈4种行为进行语义融合,建立所述用户的行为预测模型。对于所述用户新的数据记录,结合所述行为预测模型,预测所述用户的行为。

【技术实现步骤摘要】
一种基于多源数据及语义融合的用户行为预测方法及系统
本专利技术涉及大数据及数据挖掘
,特别是涉及一种基于多源数据及语义融合的用户行为预测方法和系统。
技术介绍
基于用户行为预测的营销,可大幅提升营销的精准度,目前人们日常生活的网络化和数字化,沉淀了大量的用户数据,尽管基于单一业务平台或来源的用户日志数据也可以预测用户行为,但其在预测精准度方面受到了数据源的限制,偏差较大,而在通信运营商侧,积累的同一用户的多个业务平台,多种不同维度和属性的数据,在海量用户数据基础上,基于用户标识技术和行为融合技术,专利技术并构建一种新的方法、系统,实现对语义和行为融合的用户行为预测,从而提升用户行为的精准度,提供更好的精准营销等个性化服务。
技术实现思路
本专利技术提供了一种基于多源数据及语义融合的用户行为预测方法和系统。基于用户上网记录数据,解析其中的行为与行为对象,获取用户上网行为的时间、行为类型、行为对象语义等信息生成用户上网行为特征。基于用户的通话记录数据,生成用户通话行为特征。基于用户位置停留数据记录数据,挖掘其中的重要位置、线路和移动模式,生成用户移动行为特征。基于用户通话记录数据和位置停留数据记录,挖掘用户社交圈及圈内其他用户对其的影响力,生成用户社交为特征。对用户上网、通话、移动、社交圈4种行为进行语义融合,建立所述用户的行为预测模型。对于所述用户新的数据记录,结合所述行为预测模型,预测所述用户的行为。所述的方法及系统主要包括数据预处理模块、特征生成模块、模型训练模块、模型预测模块:数据预处理模块(1):完成对字段数据的清洗,用户上网记录数据中无效URL数据的过滤,用户通话记录数据中时间过短记录的过滤,用户位置停留数据中异常过滤以及基站去震荡等。特征生成模块(2):基于用户上网记录数据,用户通话记录数据,用户位置停留记录数据,生成用户上网行为特征,用户通话行为特征,用户移动行为特征,用户社交行为特征。模型训练模块(3):基于用户过往行为数据,训练用户行为预测模型。模型预测模块(4):基于新输入的用户行为数据和用户行为预测模型,预测未来用户行为。用户行为预测流程:1)获取用户的过往历史行为数据,从多个数据源获取数据;2)基于用户唯一标识,识别多个数据源中用户数据;3)解析不同来源的数据中的用户行为,将用户行为规范化为【用户,时间,行为类型,行为对象】;4)将不同数据中行为对象的含义,使用同一的表示方式进行表示,例如知识库中的实体,得到融合后的用户行为记录;5)基于知识库,将用户融合后行为对象进行含义上的关联,例如浏览的产品具有同样的价格或其他关联;6)基于关联后的用户行为记录数据,预测用户行为。附图说明图1为一种基于多源数据及语义融合的用户行为预测方法和系统的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施实例中,基于多源数据及语义融合的用户行为预测方法和系统,包括数据预处理模块(1)、特征生成模块(2)、模型训练模块(3)、模型预测模块(4)。用户旅游行为预测是运营商大数据在旅游类精准营销业务中的技术基础。例如,基于用户过往一段时间内的行为,预测用户在将来一段时间内是否会决定前往某目的地旅游。用户上网行为特征生成过程,可以根据电信DPI数据生成。在经过DPI数据预处理,例如无效URL过滤、字段缺失数据清洗等步骤后,针对每个DPI数据中会包含的用户MDN,时间及访问的URL。通过URL可以获取用户的行为类型和行为对象,例如:177***4096|20180409|通过DPI数据解析可以获得行为类型是在关于一个旅游产品的“旅游产品浏览”,行为对象是ID为“20409370”的这个旅游产品。基于爬虫技术获取URL对应的网页内容,得到行为对象语义为“加拿大西海岸跟团游”。结合DPI数据中的用户MDN与时间字段,可以生成用户上网行为如下:[177***4096,20180409,旅游产品浏览,加拿大西海岸跟团游]结合DPI数据中的用户MDN与时间字段,可以生成用户上网行为如下:[177***4096,20180410,旅游产品检索,温哥华]用户通话行为特征生成,可以基于电信用户通话详单数据获得。在经过详单数据预处理,例如字段缺失数据清洗,通话时长过短数据过滤等工作后,基于每一个通话详单数据,例如:177***4096|4006008888|主叫|20180416|38分钟结合用户号码登记注册数据,可以生成用户通话行为特征如下:[177***4096,20180416,长时间主叫,中国国旅]用户移动行为特征生成,首先对用户的重要位置进行挖掘,重要位置的挖掘可以将基于规则的统计与自动挖掘方法相结合,例如工作地/居住地的挖掘,可以直接统计。默认认为用户在家的时间段是20:00-07:00,因此统计在该时间段用户最频繁出现的停留点即为用户的居住地。工作地点的识别方法相同,时间范围是工作日10:00-12:00和14:00-17:00。其他重要位置的挖掘可以通过用户周期性停留时间分布的聚类方法获得,选出用户最频繁出现的停留点集合,然后选取某个星期各个小时内该用户在该停留点出现频次为输入特征,共24*7=168维,并且归一化;最后将得到的输入特征输入Kmeans算法中进行聚类。每一类停留即为一个关键位置。获得重要位置后,对用户移动与重要位置之间的停留轨迹进行提取,获得用户的重要路径,例如上下班的通勤路径,往返于商圈和住家之间的路径。基于用户重要位置及路径和地图数据信息,可以获得用户的主要行为模式,例如“家->单位->家”的两点一线模式,周末的“家->商场->餐厅->剧院->家”的行为模式等。根据用户的常见模式,结合地图信息,可以针对每一条用户停留数据生成用户的移动行为特征。例如:[177***4096,20180417,突发前往,加拿大签证中心]用户社交行为特征生成,首先基于用户的通话详单数据,认为与用户通话超过一定频次的认为是其社交圈成员。在基于用户之间共同出现的位置及时间细分社交圈,例如,工作时间在同一地点的为工作圈,夜间在同一地点的为家庭圈,周末出现在同一地点的为朋友圈等。在每个圈内,基于PageRank算法,可以得到每个用户的重要程度,是为用户的影响力,用户交际特征可以视为圈内用户行为基于影响力的加权和,例如,将影响力分为1-5级,得到如下特征:[177***4096,20180418,工作圈浏览3级,温哥华自由行]将上述4种特征融合到同一语义空间中,并训练用户行为预测模型。可以采用命名实体识别和实体链接技术,将行为对象的语义信息连接到预本文档来自技高网...

【技术保护点】
1.一种基于多源数据及语义融合的用户行为预测方法及系统,其特征在于:基于用户上网记录数据,解析其中的行为与行为对象,获取用户上网行为的时间、行为类型、行为对象语义等信息生成用户上网行为特征,基于用户的通话记录数据,生成用户通话行为特征;基于用户位置停留数据记录数据,挖掘其中的重要位置、线路和移动模式,生成用户移动行为特征;基于用户通话记录数据和位置停留数据记录,挖掘用户社交圈及圈内其他用户对其的影响力,生成用户社交为特征;对用户上网、通话、移动、社交圈4种行为进行语义融合,建立所述用户的行为预测模型;对于所述用户新的数据记录,结合所述行为预测模型,预测所述用户的行为。/n

【技术特征摘要】
1.一种基于多源数据及语义融合的用户行为预测方法及系统,其特征在于:基于用户上网记录数据,解析其中的行为与行为对象,获取用户上网行为的时间、行为类型、行为对象语义等信息生成用户上网行为特征,基于用户的通话记录数据,生成用户通话行为特征;基于用户位置停留数据记录数据,挖掘其中的重要位置、线路和移动模式,生成用户移动行为特征;基于用户通话记录数据和位置停留数据记录,挖掘用户社交圈及圈内其他用户对其的影响力,生成用户社交为特征;对用户上网、通话、移动、社交圈4种行为进行语义融合,建立所述用户的行为预测模型;对于所述用户新的数据记录,结合所述行为预测模型,预测所述用户的行为。


2.根据权利要求1所述的一种基于多源数据及语义融合的用户行为预测方法及系统,其特征在于:数据预处理模块,完成对字段数据的清洗,用户上网记录数据中无效URL数据的过滤,用户通话记录数据中时间过短记录的过滤,用户位置停留数据中异常过滤以及基站去震荡等。


3.根据权利要求1所述的一种基于多源数据及语义融合的用户行为预测方法及系统,其特征在于:特征生成模块,基于用户上网记录数据,用户通话记录数据,用户位置停留记录数据,生成用户上网行为特征,用户通话行为特征,用户移动行为特征,用户社交行为特征。


4.根据权利要求1所述的一种基于多...

【专利技术属性】
技术研发人员:李云亮康为董李平
申请(专利权)人:翼集分电子商务上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1