一种基于通话的亲友圈关系识别方法技术

技术编号:15521562 阅读:79 留言:0更新日期:2017-06-04 10:49
一种基于通话的亲友圈关系识别方法,包括有:提取话单数据,计算每两个用户之间的通话指标,并据此判断每两个用户之间是否存在频繁通话关系;将相互之间存在频繁通话关系的k个用户构成一个k项用户集,然后基于多个k项用户集,并采用聚类算法生成若干个k+1项用户集:判断每两个k项用户集中是否存在k‑1个相同用户、且唯一不同的用户之间存在频繁通话关系,如果是,则将所述两个k项用户集中的所有不重复的用户构成一个k+1项用户集,所述k+1项用户集中的所有用户之间是亲友圈关系。本发明专利技术属于网络通信技术领域,能基于用户之间的通信指标,从海量用户之间挖掘出由相互之间频繁通信的用户所组成的亲友圈,从而实现个性化营销。

Method for identifying relationship between relatives and friends based on calling

A relationship between relatives and friends call based on recognition method includes: extracting billing data, calculation of index calls between every two users, and to judge whether there is relationship between the frequent call every two users; there will be frequent calls between K users to form an K user set between them, and then the number of K items based on user sets, and generate a number of k+1 users set by clustering algorithm: judging every two K users on the presence of k the same 1 users, and the only difference exists between users frequently call, if it is, then all will not repeat the user of the two item K users constitute a k+1 user set between all users the k+1 user is focused on the relationship between relatives and friends. The invention belongs to the technical field of network communication, communication between users based on the index, dig out from among the frequent communication users composed of relatives and friends from the mass of users, so as to achieve the personalized marketing.

【技术实现步骤摘要】
一种基于通话的亲友圈关系识别方法
本专利技术涉及一种基于通话的亲友圈关系识别方法,属于网络通信

技术介绍
亲友圈是一个相互之间保持着频繁联系的用户集团,亲友圈内用户之间的联系具有以下特点:较多的通话次数、较长的通话时长等等,通过挖掘相互之间频繁通信的亲友圈,可以有助于挖掘潜在的用户集团,从而实现个性化营销。目前,各网络运营商也相继推出了“亲友圈”相关业务,例如通过用户主动签约“亲情号码”业务来发现亲友圈,这种亲友圈是易于理解和易于发现的,但现网中更多用户并未签约有相关业务,因此识别出这些隐藏于现网海量数据下的、难以直观识别的亲友圈,是一件极其复杂的工作。如何利用用户之间的通话次数、通话时间等通信指标,从海量用户之间挖掘出由相互之间频繁联系的用户所组成的亲友圈,从而实现个性化营销,是当前技术人员急需解决的技术问题,目前还未发现有效的技术解决方案。
技术实现思路
有鉴于此,本专利技术的目的是提供一种基于通话的亲友圈关系识别方法,能基于用户之间的通信指标,从海量用户之间挖掘出由相互之间频繁通信的用户所组成的亲友圈,从而实现个性化营销。为了达到上述目的,本专利技术提供了一种基于通话的亲友圈关系识别方法,包括有:步骤一、提取话单数据,计算每两个用户之间的通话指标,并据此判断每两个用户之间是否存在频繁通话关系;步骤二、将相互之间存在频繁通话关系的k个用户构成一个k项用户集,然后基于多个k项用户集,并采用聚类算法生成若干个k+1项用户集:判断每两个k项用户集中是否存在k‐1个相同用户、且唯一不同的用户之间存在频繁通话关系,如果是,则将所述两个k项用户集中的所有不重复的用户构成一个k+1项用户集,所述k+1项用户集中的所有用户之间是亲友圈关系。与现有技术相比,本专利技术的有益效果是:本专利技术能先根据用户之间的若干通话指标来构成由k个用户所组成的较小亲友圈,再通过计算,从海量数据中识别出由k+1个用户所组成的较大亲友圈,从而实现个性化营销;本专利技术还进一步通过计算通话指标阈值、或构建分类模型两种不同方式,准确筛选出相互之间存在频繁通话关系的两个用户;本专利技术还可以首先基于两个用户的频繁通话关系来构成基本的2项用户集,然后再进行层层聚类,不断识别出越来越多数量的用户所构成的多项用户集(即亲友圈);在对k项用户集进行聚类时,本专利技术按照前k-1位用户进行分组,在每个分组内生成新的k+1项用户集,同时,k项用户集中的用户均按照一定次序排序,不仅有效减小算法时间复杂度,也能保证不会遗漏任何一个可能的k+1项用户集,从而有效减少了本专利技术的运行时间,具有较高的可行性。附图说明图1是本专利技术一种基于通话的亲友圈关系识别方法的流程图。图2是从采集到的通话记录中提取签约有亲情号码的用户的通话记录,并根据亲情号码用户的通话指标值来计算通话指标阈值,从而准确筛选出相互之间存在频繁通话关系的两个用户的具体操作流程图。图3是构建分类模型,以两个用户之间的通话指标作为输入,并将两个用户之间是否存在频繁通话关系作为目标变量,从而准确筛选出相互之间存在频繁通话关系的两个用户的具体操作流程图。图4是步骤二的具体操作流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。如图1所示,本专利技术一种基于通话的亲友圈关系识别方法,包含有:步骤一、提取话单数据,计算每两个用户之间的通话指标,并据此判断每两个用户之间是否存在频繁通话关系;步骤二、将相互之间存在频繁通话关系的k个用户构成一个k项用户集,然后基于多个k项用户集,并采用聚类算法生成若干个k+1项用户集:判断每两个k项用户集中是否存在k‐1个相同用户、且唯一不同的用户之间存在频繁通话关系,如果是,则将所述两个k项用户集中的所有不重复的用户构成一个k+1项用户集,所述k+1项用户集中的所有用户之间是亲友圈关系。也就是说,本专利技术中,可以根据由k个用户所组成的较小亲友圈,通过计算,来识别出由k+1个用户所组成的较大亲友圈,每个亲友圈中的用户之间可能是亲人、朋友、或是潜在的集团用户,从而挖掘潜在的用户团体。步骤一中,可以通过信令采集的方式从信令监测系统或A口等设备采集一个月的呼叫事件信令话单数据或者从BOSS采集历史话单数据,计算两个用户之间的多个通话指标,所述通话指标可以包括但不限于:通话次数、通话时长、闲时(例如18:00到8:00)通话次数占比、闲时通话时长占比,其中,闲时通话次数占比是闲时通话次数和通话次数的比值,闲时通话时长占比是闲时通话时长和通话时长的比值。本专利技术中,判断每两个用户之间是否存在频繁通话关系,还可以分别采取以下两种方法来实现:方法一、从采集到的通话记录中提取签约有亲情号码的用户的通话记录,并根据亲情号码用户的通话指标值来计算通话指标阈值,从而准确筛选出相互之间存在频繁通话关系的两个用户,如图2所示,本专利技术还可以进一步包括有:步骤A1、从话单数据中提取所有签约有亲情号码业务的用户的通话记录,并统计所有签约有亲情号码业务的用户相互之间的通话指标的平均值,然后计算每种通话指标所对应的通话指标阈值:其中,Qi是第i种通话指标阈值,是所有签约有亲情号码业务的用户相互之间的第i种通话指标的平均值,ai是第i种通话指标的阈值设定比值,其值可以根据实际业务需要而设定,例如ai=1/4;步骤A2、判断两个用户之间的通话指标值是否都大于通话指标阈值?如果是,则两个用户之间存在频繁通话关系;如果否,则两个用户之间不存在频繁通话关系。方法二、构建分类模型,以两个用户之间的通话指标作为输入,并将两个用户之间是否存在频繁通话关系作为目标变量,从而准确筛选出相互之间存在频繁通话关系的两个用户,如图3所示,本专利技术还可以进一步包括有:步骤B1、从话单数据中提取一定数量的签约有亲情号码业务的用户的通话记录、以及相同数量已确认的非亲情用户的通话记录,然后统计签约有亲情号码业务的用户相互之间的通话指标、以及已确认的非亲情用户相互之间的通话指标;根据亲友圈内用户之间的通话特点,签约有亲情号码业务的用户相互之间会存在频繁通话关系,而已确认的非亲情用户相互之间不存在频繁通话关系;步骤B2、以所提取的签约有亲情号码业务的用户、以及已确认的非亲情用户为训练样本,训练分类模型,所述分类模型的输入是签约有亲情号码业务的用户相互之间的通话指标、或者已确认的非亲情用户相互之间的通话指标,输出是两个用户之间是否存在频繁通话关系;分类模型可以采用但不限于:决策树、逻辑回归、或朴素贝叶斯模型;步骤B3、将两个用户之间的通话指标输入训练后的分类模型,所述分类模型的输出即为两个用户之间是否存在频繁通话关系。本专利技术可以首先基于两个用户的频繁通话关系,构成基本的2项用户集,然后再进行层层聚类,不断识别出越来越多数量的用户所构成的多项用户集,即基于两个用户所组成的2项用户集来识别出更多数量的用户所构成的亲友圈。如图4所示,步骤二还可以进一步包括有:步骤21、将k初始化设置成2,并构建一个多项用户集群S,所述多项用户集群S初始化为空,然后将相互之间存在频繁通话关系的k个用户构成一个k项用户集,且将k项用户集中的所有用户按一定次序进行排序,最后由所有k项用户集构成一个k项用户集群;对k项用户集中的用户按照一定次序排序,并在生成本文档来自技高网...
一种基于通话的亲友圈关系识别方法

【技术保护点】
一种基于通话的亲友圈关系识别方法,其特征在于,包括有:步骤一、提取话单数据,计算每两个用户之间的通话指标,并据此判断每两个用户之间是否存在频繁通话关系;步骤二、将相互之间存在频繁通话关系的k个用户构成一个k项用户集,然后基于多个k项用户集,并采用聚类算法生成若干个k+1项用户集:判断每两个k项用户集中是否存在k‑1个相同用户、且唯一不同的用户之间存在频繁通话关系,如果是,则将所述两个k项用户集中的所有不重复的用户构成一个k+1项用户集,所述k+1项用户集中的所有用户之间是亲友圈关系。

【技术特征摘要】
1.一种基于通话的亲友圈关系识别方法,其特征在于,包括有:步骤一、提取话单数据,计算每两个用户之间的通话指标,并据此判断每两个用户之间是否存在频繁通话关系;步骤二、将相互之间存在频繁通话关系的k个用户构成一个k项用户集,然后基于多个k项用户集,并采用聚类算法生成若干个k+1项用户集:判断每两个k项用户集中是否存在k-1个相同用户、且唯一不同的用户之间存在频繁通话关系,如果是,则将所述两个k项用户集中的所有不重复的用户构成一个k+1项用户集,所述k+1项用户集中的所有用户之间是亲友圈关系。2.根据权利要求1所述的方法,其特征在于,步骤一中,两个用户之间的通话指标包括但不限于:通话次数、通话时长、闲时通话次数占比、闲时通话时长占比,其中,闲时通话次数占比是闲时通话次数和通话次数的比值,闲时通话时长占比是闲时通话时长和通话时长的比值。3.根据权利要求1所述的方法,其特征在于,步骤一中,判断每两个用户之间是否存在频繁通话关系,进一步包括有:步骤A1、判断两个用户之间的通话指标值是否都大于通话指标阈值,如果是,则两个用户之间存在频繁通话关系;如果否,则两个用户之间不存在频繁通话关系。4.根据权利要求3所述的方法,其特征在于,步骤A1之前还包括有:从话单数据中提取所有签约有亲情号码业务的用户的通话记录,并统计所有签约有亲情号码业务的用户相互之间的通话指标的平均值,然后计算每种通话指标所对应的通话指标阈值:其中,Qi是第i种通话指标阈值,是所有签约有亲情号码业务的用户相互之间的第i种通话指标的平均值,ai是第i种通话指标的阈值设定比值,其值根据实际业务需要而设定。5.根据权利要求1所述的方法,其特征在于,步骤一中,判断每两个用户之间是否存在频繁通话关系,进一步包括有:步骤B1、从话单数据中提取一定数量的签约有亲情号码业务的用户的通话记录、以及相同数量已确认的非亲情用户的通话记录,然后统计签约有亲情号码业务的用户相互之间的通话指标、以及已确认的非亲情用户相互之间的通话指标;步骤B2、以所提取的签约有亲情号码业务的用户、以...

【专利技术属性】
技术研发人员:廖建新刘同存郑瑶琳王玉龙王晶
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1