【技术实现步骤摘要】
一种通信行业家庭圈智能识别的方法、装置及设备
[0001]本专利技术涉及通信
,更具体地说,它涉及一种通信行业家庭圈智能识别的方法、装置及设备。
技术介绍
[0002]家庭市场是通信行业重点竞争的市场之一,随着全业务、融合套餐的发展,家庭市场越来越重要,同时家庭市场拥有广阔的增长空间,除了手机通信卡、异网拉新等业务外,还有家庭宽带以及建构在宽带上的IPTV、家庭智能设备等全产业链的开拓和布局。因此准确识别家庭成员关系,具有非常重要的现实意义。
[0003]基于家庭市场的开拓需要,对家庭用户的识别是重点之一。现有的家庭用户识别模型,往往是基于用户的通话记录等数据构建“社交网络”模型,通过“社群发现”算法挖掘紧密联系的群体作为疑似家庭客户。做法一般是:通过用户的通话记录作为构建连线的依据;确定用户间的连线关系后,利用社群划分算法等划分出联系紧密的社群,以此作为疑似家庭客户。
[0004]传统的家庭圈识别模型使用通话行为作为两个号码配对的依据,存在以下缺点:一是建立的家庭成员关系容易受到出度入度较大的中间节点 ...
【技术保护点】
【技术特征摘要】
1.一种通信行业家庭圈智能识别的方法,其特征在于,包括:设计宽带分类模型宽表需求,并从数据库中提取宽带dpi类数据;对所述宽带dpi类数据进行去极值和MinMax标准化处理后,进行聚类分析对比得到宽带分类模型结果;从数据库中提取有通话行为的号码对,获取号码对的通话行为数据和号码的位置数据;将所述通话行为数据和号码的位置数据关联所述宽带分类模型结果,并计算不同配对号码在其中的重合度得到初始宽表数据;检验所述初始宽表数据的字段质量及分布情况,对字段的缺失值、异常值进行处理,再对变量两两进行相关系数检验,对检验未通过的变量对,计算iv值,剔除变量对中iv值较低的变量,最后得到预处理数据;从所述预处理数据中选取全部正样本,并抽取设定比例的负样本;将所述正样本、负样本输入决策树算法模型进行训练得到家庭圈智能识别模型;使用所述家庭圈智能识别模型预测实际数据的家庭关系概率,对概率大于设定阈值的家庭圈打上潜在家庭圈标签。2.根据权利要求1所述的一种通信行业家庭圈智能识别的方法,其特征在于,将所述家庭圈智能识别模型的预测结果和原始数据进一步整合,并导入知识图谱中得到家庭关系图谱。3.根据权利要求1所述的一种通信行业家庭圈智能识别的方法,其特征在于,将所述正样本、负样本输入多种决策树算法模型进行训练得到多种预选模型,使用测试样本对各预选模型的效果进行测试,通过评价指标对各预选模型的性能进行评估,以及对各预选模型的结果进行stacking处理得到家庭圈智能识别模型。4.根据权利要求3所述的一种通信行业家庭圈智能识别的方法,其特征在于,多种决策树算法模型至少包括LightGBM、RandomForest、xgboost算法模型。5.根据权利要求1所述的一种通信行业家庭圈智能识别的方法,其特征在于,采用五折交叉验证方法来对所述家庭圈智能识别模型进行模型预测稳健性综合评估。6.根据权利要求1所述的一种通信行业家庭圈智能识别的方法,其特征在于,所述正样本的号码对之间同时满足以下3个条件:存在主副卡关系、有通话行为、同一常住小区或同一常连宽带...
【专利技术属性】
技术研发人员:谢国城,张伟斌,陈静旋,徐少强,杜昭,贾雪飞,廖小文,
申请(专利权)人:广东亿迅科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。