外卖号码识别的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33633235 阅读:12 留言:0更新日期:2022-06-02 01:41
本发明专利技术涉及一种外卖号码识别的方法、装置、电子设备及存储介质,外卖号码识别的方法包括步骤:S1、输入外卖号码黑白名单数据和信令话单数据,对数据进行清洗,通过数据关联融合得到模型所需的原始数据集;S2、采用SMOTE TomeK算法对原始数据集进行综合采样,形成模型样本数据集;S3、将模型样本数据集划分为训练集和验证集,然后在训练集上划分留出集,在剩下的样本训练集上分别采用XGboost模型、NGboost模型、Catboost型进行模型的训练,形成第一层基础分类器模型;S4、分别将训练集上留出集和全部验证集输入第一层基分类器模型,以分别输出训练集预测值集合和验证集预测值集合;S5、合并形成新的验证集预测值集合;S6、基于LightGBM算法构建第二层模型,从而形成XNCLBoost模型。XNCLBoost模型。

【技术实现步骤摘要】
外卖号码识别的方法、装置、电子设备及存储介质


[0001]本专利技术涉及网络通信技术,具体而言,涉及一种外卖号码识别的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着新一代5G通信技术的不断发展,通信用户在体验通信技术给生活和工作上带来便捷;同时,骚扰电话给人们带来困扰,不仅打乱了通信用户正常的生活和工作秩序,也极大的危害了一些正常号码的通话。如外卖电话等被识别为骚扰电话,则给人民群众切身利益带来了危害。如何能从现网中识别出外卖号码,从而为用户提供来电号码的精准识别和提示,已成为通信运营商们普遍关注的技术问题。但因为外卖号码识别问题过于复杂,目前还没有得到彻底解决。
[0003]生活中,外卖号码和诈骗号码均具有呼出频次高,呼出量大,通话时间短等特征,同时外卖号码具有和用餐时间段强相关的特征。
[0004]现有技术并没有涉及外卖号码高效识别的解决方案。专利申请名称:一种基于通话行为的快递号码识别方法(CN109274834A),基于构建黑白名单通话记录表和快递特征识别规则,然后获取每个通信指标的阈值进行快递号码的识别,该方法没有充分考虑通信指标信息内容,同时黑白名单通话记录表具有一定的局限性。专利申请名称:一种快递号码识别方法、设备及计算机存储介质(CN110519466A),其中,采用XGB模型训练通信指标信息数据进行快递号码识别,因XGB模型超参数较多,容易陷入局部最优解,处理超高维度特征变量时,性能会降低。
[0005]因此,有效地从信令话单数据中高准确度、高稳定性地识别出外卖号码,就成了目前亟待解决的技术问题。

技术实现思路

[0006]本专利技术要解决的技术问题是提供一种高准确度、高稳定性地自动化智能外卖号码识别方法,为广大移动用户提供来电号码的正确识别和展示,以提高外卖号码的接通率和沟通效率,营造良好通信网络环境。
[0007]为解决上述技术问题,根据本专利技术的一个方面,提供一种外卖号码识别的方法,方法包括如下步骤:S1、输入外卖号码黑白名单数据和信令话单数据,对数据以数据ETL工程方式清洗数据,数据ETL工程包括数据抽取(Extract)、转换(Transform)、加载(Load),进而通过数据关联融合得到模型所需的原始数据集;S2、采用SMOTE TomeK(综合采样)算法对原始数据集进行综合采样,形成模型样本数据集;S3、将训练样本按x:y比列将模型样本数据集划分为训练集和验证集,其中,x∈[0,1],y∈[0,1],x+y=1,然后在训练集上划分a%的留出集,在1

a%的样本训练集上分别采用XGboost(eXtreme gradient boosting,极端梯度提升树)模型、NGboost(Natural gradient boosting,自然梯度提升树)模型、Catboost(Categoricalgradient boosting,类别梯度提升树)模型进行模型的训练,形成第一层基
础分类器模型;S4、分别将训练集上a%留出集和全部验证集输入第一层基分类器模型的XGboost模型、NGboost模型、Catboost模型中,由XGboost模型、NGboost模型、Catboost模型分别输出训练集预测值集合和验证集预测值集合;S5、将第一层基分类器模型输出的训练集预测值集合进行合并形成新的训练集特征值集合,将第一层基分类器输出的验证集预测值集合进行合并形成新的验证集预测值集合;S6、基于LightGBM(Light Gradient Boosting Machine,梯度提升机)算法构建第二层模型,将新训练集特征值和原始测试集输入LightGBM模型,经训练后输出满足预先设定模型精度的模型,从而形成XNCLBoost模型(以上XGboost、NGboost、Catboost、、LightGBM四种算法的首字母缩写简称),其中,XNCLBoost模型基于Blending策略融合,其中,LightGBM模型超参数较多时,采用高斯贝叶斯算法优化超参数的取值范围,提升模型的预测准确度及稳健性,其中,基于高斯过程改进贝叶斯优化算法,采用多策略组合形式的协方差函数用来同时捕捉目标函数的平滑性和振幅。
[0008]根据本专利技术的实施例,上述a%留出集,其中a可为30。也可为其他1

100间的数值,具体依据实际需要而定,不受此限。
[0009]根据本专利技术的实施例,外卖号码识别的方法还可包括如下步骤:S7、待测的信令话单数据输入XNCLBoost模型,经模型预测后,将预测结果输出,依据预测结果进行异议数据剔除。
[0010]进一步地,外卖号码识别的方法还可包括如下步骤:S8、将输出的模型预测数据应用在来电名片和码号识别业务场景,为用户识别和标识来电号码;S9、收集业务场景应用中,外卖标记平台反馈的数据及投诉数据,将外卖平台反馈数据及投诉数据,更新外卖黑白名单数据集,形成建模流程闭环。
[0011]根据本专利技术的实施例,输入的外卖黑白名单数据可为平台现有的号码标识数据,且可由经模型计算后的预测数据和平台应用后验证的数据优化和更新。
[0012]根据本专利技术的实施例,输入的信令话单数据可为待测通话话单数据(号码加密),通话话单基于对应号码的通话记录数据集,通话记录数据采集周期可为近一个月、近两个月或近三个月。具体数据采集周期依据实际需要而定,不受此限。
[0013]根据本专利技术的实施例,通话记录数据包括主叫号码通话记录数据和被叫号码通话记录数据,通话记录数据具有特征变量,特征变量可包括:主叫号码通话区域热力值,用于记录号码发起主动呼叫时,通话信令中小区/楼宇位置数总和;主叫号码呼出频次,用于记录号码发起主动呼叫时,通话信令中呼叫的次数总和;主叫号码接通频次,用于记录号码发起主动呼叫时,通话信令中主动呼叫的次数中成功接通次数总和;主叫号码平均振铃时长,用于记录号码发起主动呼叫时,通话信令中呼叫的振铃时长总和;主叫号码平均通话时长,用于记录号码发起主动呼叫时,通话信令中呼叫的正常通话时长总和;被叫号码通话区域热力值,用于记录号码接受被动呼叫时,通话信令中小区/楼宇位置数总和;被叫号码呼入频次,用于记录号码接受被动呼叫时,通话信令中的呼出次数总和。具体特征变量不受此限,例如可以为:主叫联系人离散度(号码发起主动呼叫时,通话信令中呼叫的被叫号码去重总和)、主叫号码每天活跃小时数(基于通话话单信令数据,统计号码日发起主动呼叫的自然小时个数)、主叫号码每周活跃天数(基于通话话单信令数据,统计号码每周发起主动呼叫的自然天数)、主叫号码每月活跃天数(基于通话话单信令数据,统计号码每月发起主
动呼叫的天数)、主叫号码月语音话费消费额(基于通话话单信令数据,统计号码当月语音话费金额)、主叫号码月流量花费(基于通话话单信令数据,统计号码当月流量花费金额)等;还可以为:被叫号码接通频次(号码接受被动呼叫时,通话信令中被动接受的次数中成功接通次数总和)、被叫号码振铃时长(号码接受被动呼叫时,通话信令中的振铃时长总和)、被叫本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种外卖号码识别的方法,所述方法包括如下步骤:S1、输入外卖号码黑白名单数据和信令话单数据,对数据以数据ETL工程方式清洗数据,所述数据ETL工程包括数据抽取、转换、加载,进而通过数据关联融合得到模型所需的原始数据集;S2、采用SMOTE TomeK算法对所述原始数据集进行综合采样,形成模型样本数据集;S3、将训练样本按x:y比列将所述模型样本数据集划分为训练集和验证集,其中,x∈[0,1],y∈[0,1],x+y=1,然后在训练集上划分a%的留出集,在1

a%的样本训练集上分别采用XGboost模型、NGboost模型、Catboost模型进行模型的训练,形成第一层基础分类器模型;S4、分别将训练集上a%留出集和全部验证集输入所述第一层基分类器模型的XGboost模型、NGboost模型、Catboost模型中,由所述XGboost模型、NGboost模型、Catboost模型分别输出训练集预测值集合和验证集预测值集合;S5、将第一层基分类器模型输出的训练集预测值集合进行合并形成新的训练集特征值集合,将第一层基分类器输出的验证集预测值集合进行合并形成新的验证集预测值集合;S6、基于LightGBM算法构建第二层模型,将新训练集特征值和原始测试集输入LightGBM模型,经训练后输出满足预先设定模型精度的模型,从而形成XNCLBoost模型,其中,所述XNCLBoost模型基于Blending策略融合,其中,所述LightGBM模型超参数较多时,采用高斯贝叶斯算法优化超参数的取值范围,提升模型的预测准确度及稳健性,其中,基于高斯过程改进贝叶斯优化算法,采用多策略组合形式的协方差函数用来同时捕捉目标函数的平滑性和振幅。2.如权利要求1所述的方法,其中,所述a%留出集,其中a=30。3.如权利要求1所述的方法,所述方法还包括如下步骤:S7、待测的信令话单数据输入所述XNCLBoost模型,经模型预测后,将预测结果输出,依据预测结果进行异议数据剔除。4.如权利要求3所述的方法,所述方法还包括如下步骤:S8、将所述输出的模型预测数据应用在来电名片和码号识别业务场景,为用户识别和标识来电号码;S9、收集所述业务场景应用中,外卖标记平台反馈的数据及投诉数据,将外卖平台反馈数据及投诉数据,更新所述外卖黑白名单数据集,形成建模流程闭环。5.如权利要求4所述的方法,其中,输入的外卖黑白名单数据为平台现有的号码标识数据,且可由经模型计算后的预测数据和平台应用后验证的数据优化和更新。6.如权利要求1所述的方法,其中,输入的所述信令话单数据为待测通话话单数据,所述通话话单基于对应号码的通话记录数据集,所述通话记录数据采集周期为近一个月、近两个月或近三个月。7.如权利要求6所述的方法,其中,所述通话记录数据包括主叫号码通话记录数据和被叫号码通话记录数据,所述通话记录数据具有特...

【专利技术属性】
技术研发人员:周晓辉陈美陈益辉
申请(专利权)人:号百信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1