一种家庭关系识别方法和系统技术方案

技术编号:21629600 阅读:54 留言:0更新日期:2019-07-17 11:18
本发明专利技术提供一种家庭关系识别方法和系统,所述方法包括:S1、获取存在通话记录的两个号码作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;S2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。基于人类社会关系和生活习性的相对稳定性考量,自适应地增强信令位置数据的重要性,弥补传统模型的不足,更准确合理地划分用户为家庭成员关系。

A Family Relations Recognition Method and System

【技术实现步骤摘要】
一种家庭关系识别方法和系统
本专利技术涉及通信
,更具体地,涉及一种家庭关系识别方法和系统。
技术介绍
随着智能手机的普及,智能穿戴、智能家居设备的浪潮涌起,从个人需求到家庭需求,通信运营商、手机制造商、家电制造商、安防设备商、软件厂商等都瞄准家庭应用市场。对于中国移动来说,家庭市场有广阔的增长空间,除了手机通信卡、家庭短号网等业务外,还有家庭宽带,以及建构在宽带上的IPTV、家庭智能设备等全产业链的开拓和布局。基于家庭市场的开拓需要,对家庭用户的识别是重点之一。现有的家庭用户识别模型,往往是基于用户的通话记录等数据构建“社交网络”模型,通过“社群发现”算法挖掘紧密联系的群体作为疑似家庭客户。做法一般是:通过用户的通话记录作为构建连线的依据;确定用户间的连线关系后,利用社群划分算法等划分出联系紧密的社群,以此作为疑似家庭客户。传统的家庭关系成员识别模型由于使用通话记录作为两个号码连线的依据,存在以下几点缺点:一是建立的家庭成员关系容易受到出度入度较大的中间节点干扰,如房产中介、外卖员这类需要以通话维系客户关系为手段的人群,在进行社群划分时由于这些中间节点的存在,容易将两个非家庭成员群体划分为同一家庭;二是由于偶然性的通话行为也会对构成稳定家庭关系造成干扰,传统模型构建时没有对这些偶然性节点识别与剔除,因此不同月份数据训练划分的同一家庭成员关系存在较大差别;三是传统模型忽略用户在地理位置上的联系,家庭成员共同生活位置是识别家庭关系的重要指标,因此传统模型识别的依据不够全面,得到的结果稳定性和准确率均不高。
技术实现思路
本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种家庭关系识别方法和系统,解决了现有技术中家庭关系识别易受中间节点干扰,且无法结合地理位置进行有效识别的问题。根据本专利技术的一个方面,提供一种家庭关系识别方法,包括:S1、获取存在通话记录的两个号码作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;S2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。作为优选的,所述信令位置数据指标包括夜间信令位置小区相同个数、常驻top10信令位置小区相同个数、周末常驻top10信令位置小区相同个数。作为优选的,所述步骤S1前还包括:构建评估两个号码家庭关系的多维度的指标,对样本数据进行逻辑回归模型训练;对各指标的指标模型系数进行调整,使信令位置数据指标的指标模型系数大于其他指标的指标模型系数,建立基于信令位置数据的逻辑回归模型。作为优选的,构建评估两个号码家庭关系的多维度的指标具体包括:构建评估两个号码间家庭关系的多维度的指标;对指标进行分箱处理,计算各个指标的证据权重WOE值,并根据WOE值计算各个指标的信息价值IV值;根据IV值对各指标进行降序排序,选取前20%的指标作为预测能力强的指标。作为优选的,所述样本数据包括正样本和负样本,所述正样本为同一家庭短号网的两个号码,所述负样本为非同一家庭短号网中存在通话记录的两个号码。作为优选的,所述正样本的两个号码之间需同时满足:属于同一家庭短号网、存在互为代付费关系、同一常住小区。作为优选的,对各指标的指标模型系数进行调整,使信令位置数据指标的指标模型系数大于其他指标的指标模型系数具体包括:记信令位置数据指标为对应的指标模型系数为基于指标模型系数建立惩罚项λ为惩罚系数,s为总指标个数;通过惩罚项约束每一项非信令位置数据指标的指标模型系数,以使信令位置数据指标的指标模型系数大于非信令位置数据指标的指标模型系数。一种家庭关系识别系统,包括:号码对抽取模块,抽取存在通话记录的两个号码作为待识别家庭成员;数据提取模块,并提取两个号码中用于评估两个号码家庭关系的指标;家庭关系识别计算模块,用于基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;其中,所述家庭关系识别模型为基于信令位置的逻辑回归模型,所述基于信令位置的逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数,所述信令位置数据指标为表征家庭成员共同生活位置的指标。一种家庭关系识别设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述家庭关系识别方法。一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如上述家庭关系识别方法。本专利技术提出一种家庭关系识别方法和系统,通过选取的家庭关系较为确定的两个号码作为正样本,抽取存在通话记录的两个号码作为负样本数据,利用IV值筛选重要变量,然后构建基于信令位置的自适应逻辑回归模型,确保信令位置数据起到较高的重要性,有效地建立用户之间存在的家庭关系,在训练模型时,基于人类社会关系和生活习性的相对稳定性考量,自适应地增强信令位置数据的重要性,弥补传统模型的不足,提升传统模型识别的稳定性,降低算法的误判率,更准确合理地划分用户为家庭成员关系。附图说明图1为根据本专利技术实施例的家庭关系识别方法流程框图;图2为根据本专利技术实施例的家庭关系识别方法具体流程示意图图3为根据本专利技术实施例的家庭关系识别模型应用示意图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。如图1和图2所示,图中示出了一种家庭关系识别方法,包括:S1、获取存在通话记录的两个号码(可称为号码对)作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;S2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。具体的,在本实施例中,上述信令位置数据指标包括夜间信令位置小区相同个数、常驻top10信令位置小区相同个数、周末常驻top10信令位置小区相同个数。在本实施例中,所述步骤S1前还包括:构建评估两个号码家庭关系的多维度的指标,对样本数据进行逻辑回归模型训练;对各指标的指标模型系数进行调整,使信令位置数据指标的指标模型系数大于其他指标的指标模型系数,建立基于信令位置数据的逻辑回归模型。具体的,构建评估两个号码家庭关系的多维度的指标具体包括:构建评估两个号码间家庭关系的多维度的指标;在本实施例中,具体的,所述样本数据包括正样本和负样本,所述正样本为同一家庭短号网的号码对,所述负样本为非同一家庭短号网中存在通话记录的号码对。要建立号码间的家庭关系识别模型,必须先选本文档来自技高网...

【技术保护点】
1.一种家庭关系识别方法,其特征在于,包括:S1、获取存在通话记录的两个号码作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;S2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。

【技术特征摘要】
1.一种家庭关系识别方法,其特征在于,包括:S1、获取存在通话记录的两个号码作为待识别家庭成员,并分别提取两个号码中用于评估两个号码间家庭关系的指标;所述指标包括信令位置数据指标,以及表征两个号码间关联性的指标,所述信令位置数据指标为表征家庭成员共同生活位置的指标;S2、基于已训练的家庭关系识别模型,对两个号码的家庭关系进行识别;其中,所述家庭关系识别模型为逻辑回归模型,所述逻辑回归模型中,信令位置数据指标的指标模型系数大于其他指标的指标模型系数。2.根据权利要求1所述的家庭关系识别方法,其特征在于,所述信令位置数据指标包括夜间信令位置小区相同个数、常驻top10信令位置小区相同个数、周末常驻top10信令位置小区相同个数。3.根据权利要求1所述的家庭关系识别方法,其特征在于,所述步骤S1前还包括:构建评估两个号码家庭关系的多维度的指标,对样本数据进行逻辑回归模型训练;对各指标的指标模型系数进行调整,使信令位置数据指标的指标模型系数大于其他指标的指标模型系数,建立基于信令位置数据的逻辑回归模型。4.根据权利要求3所述的家庭关系识别方法,其特征在于,构建评估两个号码家庭关系的多维度的指标具体包括:构建评估两个号码间家庭关系的多维度的指标;对指标进行分箱处理,计算各个指标的证据权重WOE值,并根据WOE值计算各个指标的信息价值IV值;根据IV值对各指标进行降序排序,选取前20%的指标作为预测能力强的指标。5.根据权利要求3所述的家庭关系识别方法,其特征在于,所述样本数据包括正样本和负样本,所述正样本为同一家庭短号网的两个号码,所述负样本为非同一家庭短号网中存在通话记录的两个号码。6.根据权利要求5所述的家庭关系识别方法,其特征在于,所述正...

【专利技术属性】
技术研发人员:张湛梅张晓川徐睿崔志顺
申请(专利权)人:中国移动通信集团广东有限公司中国移动通信集团公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1