【技术实现步骤摘要】
基于算法组件库分析的未知诈骗的识别方法及系统
[0001]本专利技术属于电信反诈及机器学习
,具体涉及基于算法组件库分析的未知诈骗的识别方法及系统。
技术介绍
[0002]随着通信及互联网企业的业务规模不断扩大,电信安全风险也在不断增加,电信诈骗趋于规模化、团体化、复杂化。由于各种新型的诈骗手段层出不穷,识别新型诈骗与未知诈骗成为较难攻克的难题。
[0003]针对目前算法组件库与人工智能的发展,如何动态更新研判模型,及时发现未知诈骗,减少损失,是当前亟需解决的难题。
技术实现思路
[0004]基于现有技术中存在的上述缺点和不足,本专利技术的目的是提供基于算法组件库分析的未知诈骗的识别方法及系统。
[0005]为了达到上述专利技术目的,本专利技术采用以下技术方案:基于算法组件库分析的未知诈骗的识别方法,包括以下步骤:S1、采集目标行业对应的全量数据中的部分诈骗数据和部分正常数据,分别进行诈骗类和正常类的标注;S2、通过算法组件库进行目标行业内综合性能TopN算法推荐,之后进行AutoML建 ...
【技术保护点】
【技术特征摘要】
1.基于算法组件库分析的未知诈骗的识别方法,其特征在于,包括以下步骤:S1、采集目标行业对应的全量数据中的部分诈骗数据和部分正常数据,分别进行诈骗类和正常类的标注;S2、通过算法组件库进行目标行业内综合性能TopN算法推荐,之后进行AutoML建模以建立分类模型;其中,综合性能TopN算法为综合性能排名前N位的算法;S3、利用分类模型对目标行业对应的全量数据进行初始标注,即诈骗类和正常类的标注;S4、在标注完成的全量数据中取部分诈骗类样本和部分正常类样本,分别进行诈骗小类和正常小类的标注;S5、通过算法组件库分别建立初始诈骗小类分类模型和初始正常小类分类模型,作为根节点模型;S6、利用根节点模型对全量数据进行初始标注以预测样本类别;S7、利用测试数据对根节点模型进行评估,若评估精度低于阈值则进行未知诈骗类别分析;S8、对测试数据、部分诈骗类样本、部分正常类样本分别进行GMM聚类分析和Isolation Forest离群点检测;S9、对GMM聚类后的每一簇进行内聚度和耦合度的计算,之后根据内聚度和耦合度进行簇的合并,对合并后的各个簇根据每类样本的最大占比簇确定原始类别簇并对其余簇分别进行内聚度是否低于阈值的判断,若是,则相应簇的样本为困难样本;若否,则对相应簇进行新类别分析,转至步骤S10;S10、判断最大类别的占比是否小于设定阈值;若是,则进行混合新类别分析,并通过算法组件库建立下层分支模型;若否,则进行边缘新类别分析,并通过算法组件库建立下层分支模型;S11、对下层分支模型进行性能测试,判断性能是否提升;若是,则保存模型树;S12、循环上述步骤S8~S11,直至模型树的精度达到要求。2.根据权利要求1所述的基于算法组件库分析的未知诈骗的识别方法,其特征在于,所述步骤S2、步骤S5及步骤S10中相应的模型建立之后,还对算法组件库中相应的模型对应的算法的综合性能评分进行更新。3.根据权利要求2所述的基于算法组件库分析的未知诈骗的识别方法,其特征在于,所述算法的综合性能评分根据算法的泛化能力评分、鲁棒性评分、拟合能力评分、推理耗时评分和训练耗时评分计算得到。4.根据权利要求3所述的基于算法组件库分析的未知诈骗的识别方法,其特征在于,所述泛化能力评分为:通过模型的类型计算r2
‑
Score或accuracy作为分数;鲁棒性评分为:通过模型的指标变化方差和训练超调之和为m,取所有算法中最小m为m0,比值m0/m作为分数;拟合能力评分为:通过计算模型达到指定指标所花费的最小时间为p,取所有算法中最小p为p0,比值p0/p作为分数;推理耗时评分为:通过模型推理的时间为q,取所有算法中的最小q为q0,比值q0/q作为分数;
训练耗时评分为:通过模型训练的每次trial合在一起的时间为s,取所有算法中最小s为s0,s0/s作为分数;算法的综合性能评分为泛化能力评分、鲁棒性评分、拟合能力评分、推理耗时评分和训练耗时评分的加权平均。5.根据权利要求1所述的基于算法组件库分析的未知诈骗的识别方法,其特征在于,所述算法组件库通过TPE、Random、Anneal、Evolution、BatchTuner、MetisTuner中的至少一个优化算法进行模型的自动选型和模型...
【专利技术属性】
技术研发人员:马峰,林建洪,潘昊,赵祥廷,聂宜君,
申请(专利权)人:浙江鹏信信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。