行业分类与异常识别的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37819419 阅读:16 留言:0更新日期:2023-06-09 09:52
本发明专利技术涉及一种行业分类与异常识别的方法、装置、电子设备及存储介质。行业分类与异常识别方法包括步骤:S1、样本筛选,筛选行业内多家企业的注册电话号码;S2、持续学习算法计算,应用机器学习算法提取样本对象通信信息记录,持续跟踪训练行业/企业样本通信特征;S3、学习结果校正,以随机抽样方式选取待审核校正号码对象,采用多点校正,获取该号码对象所属行业信息、企业信息对其归属行业进行研判识别,不一致情况基于研判结果修正;S4、异常波动检测,针对异常偏离状态及时发现并检出,用于管理预警。依据本发明专利技术的行业分类与异常识别方法能够及时识别、预先发现企业/号码对象出现的不同以往常态行为的异常波动。以往常态行为的异常波动。以往常态行为的异常波动。

【技术实现步骤摘要】
行业分类与异常识别的方法、装置、电子设备及存储介质


[0001]本专利技术涉及通信领域,具体而言,涉及一种基于通话行为持续学习实现的行业分类与异常识别的方法、装置、电子设备及存储介质。

技术介绍

[0002]电信运营商在面向中小微企业、商户等提供外呼服务过程中,存在中小微企业外呼号码资源被转卖、盗用等,从事非法外呼用途,在运营商通信数据行为中会出现对外呼叫时从事不良骚扰、违法诈骗的呼叫。这类行为往往偏离其申请业务之初填报的所属行业通用常态化行为,或偏离其企业填报的服务属性应具备的常态化行为,或与其既往呼叫行为表现差异波动大。
[0003]针对当前运营商面向中小微企业提供外呼服务中可能存在的诈骗电话、骚扰电话问题,现有主流解决方案以诈骗电话/骚扰电话黑样本进行诈骗行为、骚扰行为分析建模的技术措施为主,此类方式以短期时间粒度(天级/小时级)进行通信数据记录提取,用于建模分析预测。其弊端在于短期分析模型必须通过严格的筛选条件精准识别,筛选条件宽松会导致误识别率高,筛选条件严格会导致覆盖率低,难以避免隐蔽性高、骚扰或诈骗行为特征表现不显著的号码呼叫漏网。
[0004]随着技术的发展,基于通话行为数据分析得到运用,例如,中国专利:CN109274834B,一种基于通话行为的快递号码识别方法;中国专利:CN112101046A,一种基于通话行为的会话分析方法、装置和系统。针对以上小微企业外呼号码资源,偏离其申请业务之初填报的所属行业通用常态化行为时,亟需研发一种基于通话行为持续学习实现行业分类与异常波动识别的方法,及时识别企业/号码对象出现的不同以往常态行为的异常波动,以预先发现被利用实施盗打、篡改等违规通信的企业对象、号码对象,提高预测风险的及时性与可行性。

技术实现思路

[0005]本专利技术要解决的技术问题是小微企业外呼号码资源偏离其申请业务之初填报的所属行业通用常态化行为,以致于出现对外呼叫时从事不良骚扰、违法诈骗的呼叫,对于外呼号码资源的异常波动行为如何及时识别、预先发现。
[0006]为解决上述技术问题,根据本专利技术的一个方面,提供一种行业分类与异常识别的方法,方法基于通话行为,通过持续学习实现行业分类与异常识别,行业分类与异常识别的方法包括如下步骤:S1、样本筛选,选择某一待识别是否存在异常的行业,在行业内选择多家企业,筛选多家企业的注册电话号码,其中,筛选出的企业与其对应的注册电话号码没有出现被举报记录,号码开通并且持续活跃时长N个月以上,收集号码归属企业填写行业信息和呼叫行为信息;S2、持续学习算法计算,针对指定行业和企业分别进行通信行为常态化学习,在典型行业中筛选行业/企业对象白样本;应用机器学习算法,提取样本对象最近1至N个月通信信息记录,持续跟踪训练行业/企业样本通信特征,包括日常呼叫活跃日期分布、
活跃时段分布、外呼/入呼行为特征、静默时段分布等;结合行业业务方向人工专家经验归纳总结企业常态行为显著特征指标阈值范围,输出企业/行业/号码的常态行为习惯;S3、学习结果校正,以随机抽样方式选取待审核校正号码对象,采用多点校正,获取该号码对象所属行业信息、企业信息对其归属行业进行研判识别,结果综合校正当前号码所属行业及企业是否与持续学习结果一致,不一致情况基于研判结果修正;基于持续学习及校正结果,将确认可信号码、企业对象及其常态化行为特征信息入库;S4、异常波动检测,包括行业异常行为检测和企业异常行为检测,持续跟踪计算指定企业/企业号码通信特征,定时比对被监测对象与其所属企业或行业常态行为显著特征阈值偏离情况,针对异常偏离状态及时发现并检出,用于管理预警。
[0007]根据本专利技术的实施例,步骤S1中,呼叫行为信息可包括注册电话号码的1至N个月的提取通话记录、提取访问地区记录和提取短信收发记录。
[0008]根据本专利技术的实施例,步骤S2中,机器学习算法采用持续学习算法思路可为寻找一个超平面将样本中的正样本圈,用这个超平面做决策预测,在圈内的样本就是预测到的目标对象。
[0009]进一步地,持续学习算法思路为寻找一个超平面将样本中的正样本圈,通过设产生的超球体参数为中心o和对应的超球体半径r>0,超球体体积V(r)被最小化,中心o是支持向量的线性组合,和传统SVM方法相似,可以要求所有训练数据点x到中心的距离严格小于r,其中,x=(x1,

,x
n
)=(通话行为特征因子集,行业/企业业务属性行为特征因子集),
[0010]但同时构造一个惩罚系数为C的松弛变量ξ
i
,优化问题如下所示:
[0011][0012]||X
i

O||2≤r+ξ
i
,=1,2,3...m
[0013]ξ
i
≥0,i=1,2,...m
[0014]在采用拉格朗日对偶求解之后,可以判断新的数据点y是否在类内,如果y到中心的距离小于等于半径r则是目标点,如果在超球体以外,则不是目标点。
[0015]根据本专利技术的实施例,步骤S3中,多点校正可包括如下步骤:S31、人工电话回访方式获取该号码对象所属行业信息、企业信息;S32、业务专家结合号码通话记录信息、业务属性信息对其归属行业进行研判识别;S33、企业业务主管自查复核方式确认当前号码行为与企业发展服务是否一致。
[0016]根据本专利技术的实施例,步骤S4可包括如下步骤:
[0017]S41、持续跟踪计算指定企业/企业号码包括号码最新通话记录、最新访问地区记录和最新短信收发记录的通信特征,进行最新行为计算;
[0018]S42、行为比对异常检测,比对被监测对象与其所属企业或行业常态行为显著特征阈值偏离情况;
[0019]S43、异常报送,针对异常偏离状态及时发现并检出,用于管理预警。
[0020]根据本专利技术的第二个方面,提供一种行业分类与异常识别的装置,包括:
[0021]样本筛选模块,用于选择某一待识别是否存在异常的行业,在行业内选择多家企业,筛选多家企业的注册电话号码,其中,筛选出的企业与其对应的注册电话号码没有出现被举报记录,号码开通并且持续活跃时长N个月以上,收集号码归属企业填写行业信息和呼
叫行为信息;持续学习算法模块,用于针对指定行业和企业分别进行通信行为常态化学习,在典型行业中筛选行业/企业对象白样本;应用机器学习算法,提取样本对象最近1至N个月通信信息记录,持续跟踪训练行业/企业样本通信特征,包括日常呼叫活跃日期分布、活跃时段分布、外呼/入呼行为特征、静默时段分布等;结合行业业务方向人工专家经验归纳总结企业常态行为显著特征指标阈值范围,输出企业/行业/号码的常态行为习惯;学习结果校正模块,用于以随机抽样方式选取待审核校正号码对象,采用多点校正,获取该号码对象所属行业信息、企业信息对其归属行业进行研判识别,结果综合校正当前号码所属行业及企业是否与持续学习结果一致,不一致情况基于研判结果修正;基于持续学习及校正结果,将确认可信号码、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种行业分类与异常识别的方法,所述方法基于通话行为,通过持续学习实现行业分类与异常识别,所述行业分类与异常识别的方法包括如下步骤:S1、样本筛选,选择某一待识别是否存在异常的行业,在所述行业内选择多家企业,筛选所述多家企业的注册电话号码,其中,筛选出的所述企业与其对应的注册电话号码没有出现被举报记录,号码开通并且持续活跃时长N个月以上,收集号码归属企业填写行业信息和呼叫行为信息;S2、持续学习算法计算,针对指定行业和企业分别进行通信行为常态化学习,在典型行业中筛选行业/企业对象白样本;应用机器学习算法,提取样本对象最近1至N个月通信信息记录,持续跟踪训练行业/企业样本通信特征,包括日常呼叫活跃日期分布、活跃时段分布、外呼/入呼行为特征、静默时段分布等;结合行业业务方向人工专家经验归纳总结企业常态行为显著特征指标阈值范围,输出企业/行业/号码的常态行为习惯;S3、学习结果校正,以随机抽样方式选取待审核校正号码对象,采用多点校正,获取该号码对象所属行业信息、企业信息对其归属行业进行研判识别,结果综合校正当前号码所属行业及企业是否与持续学习结果一致,不一致情况基于研判结果修正;基于持续学习及校正结果,将确认可信号码、企业对象及其常态化行为特征信息入库;S4、异常波动检测,包括行业异常行为检测和企业异常行为检测,持续跟踪计算指定企业/企业号码通信特征,定时比对被监测对象与其所属企业或行业常态行为显著特征阈值偏离情况,针对异常偏离状态及时发现并检出,用于管理预警。2.如权利要求1所述的方法,步骤S1中,所述呼叫行为信息包括所述注册电话号码的1至N个月的提取通话记录、提取访问地区记录和提取短信收发记录。3.如权利要求1所述的方法,步骤S2中,所述机器学习算法采用持续学习算法思路为寻找一个超平面将样本中的正样本圈,用这个超平面做决策预测,在圈内的样本就是预测到的目标对象。4.如权利要求3所述的方法,所述持续学习算法思路为寻找一个超平面将样本中的正样本圈,通过设产生的超球体参数为中心o和对应的超球体半径r>0,超球体体积V(r)被最小化,中心o是支持向量的线性组合,和传统SVM方法相似,可以要求所有训练数据点x到中心的距离严格小于r,其中,x=(x1,

,x
n
)=(通话行为特征因子集,行业/企业业务属性行为特征因子集),但同时构造一个惩罚系数为C的松弛变量ξ
i
,优化问题如下所示:||x
i

o||2≤r+ζ
i
,i=1,2,3...mξ
i
≥0,i=1,2,...m在采用拉格朗日对偶求解之后,可以判断新的数据点y是否在类内,如果y到中心的距离小于等于半径r则是目标点,如果在超球体以外,则不是目标点。5.如权利要求1所述的方法,步骤S3中,所述多点校正包括如下步骤:S31、人工电话回访方式获取该号码对象所属行业信息、企业信息;
S32、业务专家结合号码通话记录信息、业务属性信息对其归属行业进行研判识别;S33、企业业务主管自查复核方式确认当前号码行为与企业发展服务是否一致。6.如权利要求1所述的方法,步骤S4包括如下步骤:S41、持续跟踪计算指定企业/企...

【专利技术属性】
技术研发人员:黄鸿志蔡扬仝丰源柯崴淏刘婷玥金晓蕾吴维鼎
申请(专利权)人:号百信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1