一种基于指数回归和极大似然估计的用户位置偏好提取算法制造技术

技术编号:14165356 阅读:83 留言:0更新日期:2016-12-12 12:45
本发明专利技术涉及电信业务支撑领域,提供了一种基于指数回归和极大似然估计计算用户行为偏好的算法。其中该算法包括:对用户位置数据的分布分析及异常数据剔除;通过负二项回归,拟合用户活跃次数与用户质态属性之间的线性关系,通过极大似然估计求出待估计参数,查看参数估计是否通过检验,得到回归方程。求消费、流量、通话时长的四分之三分位点,通过回归方程确定基站活跃次数的临界点,使得筛选用户保证活跃次数的同时拥有较高的质态。本发明专利技术解决了传统的偏好提取算法不精确、易受干扰的问题,能够全方面的考虑用户的偏好行为,在对用户进行营销推荐时,可提高营销成功率。

【技术实现步骤摘要】

本专利技术涉及电信业务支撑领域,具体涉及用户位置偏好提取算法。
技术介绍
在电信实际运营过程中,有着丰富的用户基站活跃信息,但用户是否真正活跃,难以从简单的活跃次数加以判定。若能关联用户的一些质态指标,如消费、通话、流量等,解析活跃次数与这些指标的内在关联,通过这些指标辅助界定用户是否活跃的临界点。目前用户的位置偏好,都是简单的分析用户的基站位置的活跃次数,看其分布,取较高的分为点作为用户是否活跃的临界值。掺杂了太多人为主观因素,缺乏科学的数据支撑,同时也无法得知用户的质态,营销的针对性、精确性难以得到保证。
技术实现思路
本专利技术的目的是提出科学的用户位置偏好算法;为实现目的,本专利技术提供了一种基于指数回归和极大似然估计的用户位置偏好提取算法,包括以下步骤 :根据用户基站行为,如机场、火车站、汽车站等等的次数,查看数据分布,并剔除异常数据;结合用户质态数据,流量、消费、通话次数,解析用户的位置偏好与质态指标存在的关系;通过计数模型拟合因变量与解释变量之间的线性关系,尝试泊松分布、负二项等离散分布,发现负二项拟合效果较好;根据极大似然估计计算出待估计参数,取流量、消费、通话四分之三分为点,计算出用户活跃次数,并以此为切割点,使得筛选用户保活跃次数的同时拥有较高的质态;本专利技术能够全方面的考虑用户的位置行为,综合考虑了用户的质态,并进一步解析了用户的位置活跃次数与质态指标的内在关系,依靠的人为因素较少,提高数据支撑的科学性,临界值判定在后续对用户进行营销推荐时,可提高营销的精确性。附图说明图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一并用于解释本专利技术,并不构成对本专利技术的限制;在附图中 :图 1 为本专利技术的基于指数回归和极大似然估计的用户位置偏好实施流程图 ;图 2 为本专利技术的机场活跃度与流量、通话、消费的关系示意图 。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术;方法实施例:图 1 为本专利技术的基于指数回归和极大似然估计的用户位置偏好实施例一流程图;如图 1 所示,本实施例包括 :步骤 S101 :收集用户基站活跃次数,用户流量、消费、通话等信息,查看数据分布,并剔除异常数据;步骤 S102 :通过负二项广义线性模型拟合活跃次数与流量、消费、通话次数之间的线性关系,通过极大似然估计得到待估计参数;步骤 S103 :检查完参数的有效性之后,取流量、消费、通话四分之三分为点,计算出用户活跃次数,并以此为切割点;具体实施如下:根据步骤S101和步骤 S103计算所述,首先剔除用户活跃次数的异常值(以机场活跃次数为例),具体剔除方法为,异常临界点=(3/4分位数-1/4分位数)*3 +3/4分位数,若数据超过该临界点,则认为该数据异常,可进行剔除处理,亦可转化为该临界值;由于活跃次不会小于0,故异常值的下界可不处理。同理,其余数据都可按此方法进行处理;由于机场活跃次数为离散值,是我们熟知的计数模型(count model);一般形式为变形得到形式与线性回归模型类似,但由于这里的Y为离散值,不能与线性回归一样,假定服从正态分布;Y应该服从离散分布,通常使用Poisson,Negative binomial等离散分布;在假定分布的基础上,通过极大似然估计,得到参数值的估计值;这里使用 Negative binomial分布,拟合效果更好;以试验数据得到如下参数估计:由于参数检验均通过,显著不为0,得到回归方程:机场活跃次数=exp(1.2575+0.0001*消费 +0.0001*时长 +0.0003*流量);由于解释变量与因变量之间都成正相关,即解释变量越大,因变量也随机增大,故可以取消费、时长、流量的四分之三临界点,通过回归方程,确定用户机场活跃次数的临界值;图 2为本专利技术模型预测数据与原始数据依照每个变量上的比较的示意图:具体解释如下 :图形表示原始活跃次数与预测活跃次数在某个变量上的分布情况,从左到右依次为消费、通话时长、流量;从图形可以看出,回归方程很好的拟合了变量之间的线性趋势;以上所述,仅为本专利技术的较佳实施例而已,并非用于限定本专利技术的保护范围,凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...
一种基于指数回归和极大似然估计的用户位置偏好提取算法

【技术保护点】
一种基于指数回归和极大似然估计的用户位置偏好提取算法,其特征在于,包括以下步骤:根据用户基站信息,收集用户在机场、车站等重点位置的活跃次数,分析活跃次数的数据分布,剔除异常数据;通过负二项回归,拟合用户活跃次数与用户质态属性之间的线性关系,通过极大似然估计求出待估计参数,查看参数估计是否通过检验,得到回归方程;求消费、流量、通话时长的四分之三分位点,通过回归方程确定基站活跃次数的临界点。

【技术特征摘要】
1.一种基于指数回归和极大似然估计的用户位置偏好提取算法,其特征在于,包括以下步骤:根据用户基站信息,收集用户在机场、车站等重点位置的活跃次数,分析活跃次数的数据分布,剔除异常数据;通过负二项回归,拟合用户活跃次数与用户质态属性之间的线性关系,通过极大似然估计求出待估计参数,查看参数估计是否通过检验,得到回归方程;求消费、流量、通话时长的四分之三分位点,通过回归方程确定基站活跃次数的临界点。2.根据权利需求1所述的基于指数回归和极大似然估计的用户位置偏好算法,其特征在于,分析活跃次数的数据分布,...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:南京坦道信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1