基于半监督学习的销售风险点检测方法、系统、装置制造方法及图纸

技术编号:21549051 阅读:50 留言:0更新日期:2019-07-06 22:07
本发明专利技术属于机器学习领域,具体涉及了一种基于半监督学习的销售风险点检测方法、系统、装置,旨在解决销售风险点分析效率低、准确率不高、应用场景局限以及大数据环境下难以应用的问题。本发明专利技术方法包括:获取数据并构建图数据库;将图数据库中的数据清洗成原始状态;对数据聚类,找出平均轮廓系数接近1时的k值;标记k个聚类数据的特征并设置规则,采用随机森林法分类数据;分析数据之间的相关性,找出风险产品组合;采用知识图谱展示风险点。本发明专利技术结合有监督与无监督学习,可以有效地检测出企业可能存在的金融风险并为企业提供建议,优化团队组合,丰富产品搭配。

Detection Method, System and Device of Sales Risk Point Based on Semi-supervised Learning

【技术实现步骤摘要】
基于半监督学习的销售风险点检测方法、系统、装置
本专利技术属于机器学习领域,具体涉及了一种基于半监督学习的销售风险点检测方法、系统、装置。
技术介绍
当今中国正处在互联网经济飞速发展时期,科技创新成为了社会极为重要的需求,对未来经济的增长将起到奠定性作用。机器学习技术自20世纪50年代以来,历时60多年的发展,已经在各行业各领域的大数据分析预测方面显露头角,大数据在互联网时代所蕴含的内在价值得以不断被挖掘,其中的价值已引起各国政府、企业界、学术界的高度重视。我们可以依据多个维度的数据或单维的数据对企业行业进行全方位多角度的挖掘剖析。针对销售风险问题,多数金融机构企业通常采用调研、统计、分析等传统方法。这一类方法对已发生的风险问题进行溯源,找到现存问题,或对可能出现的问题进行预判,提前预知未来风险。然而,传统方法没有结合大数据和机器学习的相关技术,难以挖掘出深层潜在问题,同时传统方法应用范围领域过于狭窄,无法兼顾效率与准确率。随着互联网影响力的不断加深以及移动终端设备的广泛普及,大数据的价值不断体现,机器学习相关技术在金融领域的应用日益增多,但绝大多数应用仅限于银行、证券、保险行业等专业性金融场景,而传统行业金融数据仍然具备极大的可挖掘价值。
技术实现思路
为了解决现有技术中的上述问题,即为了解决销售风险点分析效率低、准确率不高、应用场景局限以及大数据环境下难以应用的问题,本专利技术的第一方面,提供了一种基于半监督学习的销售风险点检测方法,包括:步骤S10,基于获取的数据信息构建第一图数据库;所述第一图数据库包括设定类别产品销售数据、对应产品销售人员数据、销售区域数据;步骤S20,基于所述第一图数据库,采用Pandas方法获得原始状态数据,并基于该数据构建第二图数据库;步骤S30,采用K均值聚类法对所述第二图数据库的数据进行聚类,计算平均轮廓系数;获得所述平均轮廓系数接近1时对应的k值和聚类集合;步骤S40,分别提取所述k个聚类集合中各聚类的数据的特征,并利用该特征分别对所述第二图数据库中数据进行标记,获得第三图数据库;步骤S50,按照所述第三图数据库的数据特征设置随机森林决策规则,构建随机森林;采用随机森林分类器对所述第三图数据库进行数据分类,获得第四图数据库;所述随机森林,由对应k个特征的k棵分类树构成;步骤S60,采用Pearson相关系数计算所述第四图数据库各分类数据之间的相关性,输出相关系数值低于预设阈值的产品组合;所述相关系数值低于预设值的产品组合为销售风险点。在一些优选的实施例中,步骤S30中“对所述第二图数据库的数据进行聚类”之前还设置有坏点数据去除的步骤,包括:步骤M10,计算相应产品的销售数据的加权平均值:其中,为销售数据的加权平均值,x1、x2……xt为对应的各类产品,f1、f2……ft为相应产品的函数值,t为产品总数量;步骤M20,销售数据的加权平均值高于预设阈值的对应的销售数据为坏点数据,删除所述坏点数据。在一些优选的实施例中,步骤S30中所述平均轮廓系数的计算方法为:其中,s(i)为聚类集合的平均轮廓系数,a(i)为向量到同一聚类集合内其他点不相似程度的平均值,b(i)为向量到其他聚类集合的平均不相似程度的最小值。在一些优选的实施例中,步骤S50中“采用随机森林分类器对所述第三图数据库进行数据分类”之后还设置有验证步骤,其方法为:采用10重交叉验证法对所述分类结果进行验证,分类结果未达到预设的准确率则重复进行步骤S50直至分类结果达到预设准确率。在一些优选的实施例中,所述Pearson相关系数,其计算方法为:其中,r为Pearson相关系数,i为销售数据序列,xi、yi分别为对应的预测值;N为销售产品的总数。在一些优选的实施例中,步骤S30中“获得所述平均轮廓系数接近1时对应的k值和聚类集合”之后还设置有重新聚类的步骤,包括:选取所述平均轮廓系数接近1时对应的k个聚类中心,进行K均值聚类,找出离群点数据,离群点数据对应的团队为异常团队;所述异常团队为销售团队风险点。在一些优选的实施例中,所述销售风险点、销售团队风险点可以采用知识图谱的方法展示。本专利技术的第二方面,提出了一种基于半监督学习的销售风险点检测系统,包括数据整合模块、数据深加工模块、聚类模块、特征标记模块、分类模块、相关性分析模块、风险展示模块;所述数据整合模块,配置为将获取的数据信息整合存储为第一图数据库;所述数据深加工模块,配置为将第一图数据库的数据深加工为原始状态数据,构成第二图数据库;所述聚类模块,配置为采用K均值聚类法对所述第二图数据库的数据进行聚类,计算平均轮廓系数;获得所述平均轮廓系数接近1时对应的k值和聚类集合;所述特征标记模块,配置为分别提取所述k个聚类集合中各聚类的数据的特征,并利用该特征分别对所述第二图数据库中数据进行标记,获得第三图数据库;所述分类模块,配置为按照所述第三图数据库的数据特征设置随机森林决策规则,构建随机森林;采用随机森林分类器对所述第三图数据库进行数据分类,获得第四图数据库;所述相关性分析模块,配置为采用Pearson相关系数计算所述第四图数据库各分类数据之间的相关性,输出相关系数值低于预设阈值的产品组合;所述风险展示模块,配置为采用知识图谱的方法展示风险点。本专利技术的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于半监督学习的销售风险点检测方法。本专利技术的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于半监督学习的销售风险点检测方法。本专利技术的有益效果:(1)本专利技术方法采用有监督学习与无监督学习相结合的金融风险点检测方法,可通过销售运营数据有效地检测出企业可能存在的金融风险,可以为企业提供建议,优化团队组合,丰富产品搭配。(2)本专利技术方法可以更有效地挖掘企业存在的风险点,从而达到为企业节约成本,规避未来风险的效果。(3)本专利技术方法可以应用于传统行业的销售数据的风险评估,也可以应用于医疗、教育、IT、金融等第三产业的金融大数据风险预测。(4)本专利技术方法丰富了机器学习技术应用的领域场景,提升了传统统计分析方法的效率与准确性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本专利技术基于半监督学习的销售风险点检测方法的流程示意图;图2是本专利技术基于半监督学习的销售风险点检测方法实施例的Kmeans算法原理示意图;图3是本专利技术基于半监督学习的销售风险点检测方法实施例的RandomForest算法原理示意图;图4是本专利技术基于半监督学习的销售风险点检测方法实施例的Pearson相关系数示意图;图5是本专利技术基于半监督学习的销售风险点检测方法实施例的风险点知识图谱展示图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅出示了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详本文档来自技高网...

【技术保护点】
1.一种基于半监督学习的销售风险点检测方法,其特征在于,包括:步骤S10,基于获取的数据信息构建第一图数据库;所述第一图数据库包括设定类别产品销售数据、对应产品销售人员数据、销售区域数据;步骤S20,基于所述第一图数据库,采用Pandas方法获得原始状态数据,并基于该数据构建第二图数据库;步骤S30,采用K均值聚类法对所述第二图数据库的数据进行聚类,计算平均轮廓系数;获得所述平均轮廓系数接近1时对应的k值和聚类集合;步骤S40,分别提取所述k个聚类集合中各聚类的数据的特征,并利用该特征分别对所述第二图数据库中数据进行标记,获得第三图数据库;步骤S50,按照所述第三图数据库的数据特征设置随机森林决策规则,构建随机森林;采用随机森林分类器对所述第三图数据库进行数据分类,获得第四图数据库;所述随机森林,由对应k个特征的k棵分类树构成;步骤S60,采用Pearson相关系数计算所述第四图数据库各分类数据之间的相关性,输出相关系数值低于预设阈值的产品组合;所述相关系数值低于预设值的产品组合为销售风险点。

【技术特征摘要】
1.一种基于半监督学习的销售风险点检测方法,其特征在于,包括:步骤S10,基于获取的数据信息构建第一图数据库;所述第一图数据库包括设定类别产品销售数据、对应产品销售人员数据、销售区域数据;步骤S20,基于所述第一图数据库,采用Pandas方法获得原始状态数据,并基于该数据构建第二图数据库;步骤S30,采用K均值聚类法对所述第二图数据库的数据进行聚类,计算平均轮廓系数;获得所述平均轮廓系数接近1时对应的k值和聚类集合;步骤S40,分别提取所述k个聚类集合中各聚类的数据的特征,并利用该特征分别对所述第二图数据库中数据进行标记,获得第三图数据库;步骤S50,按照所述第三图数据库的数据特征设置随机森林决策规则,构建随机森林;采用随机森林分类器对所述第三图数据库进行数据分类,获得第四图数据库;所述随机森林,由对应k个特征的k棵分类树构成;步骤S60,采用Pearson相关系数计算所述第四图数据库各分类数据之间的相关性,输出相关系数值低于预设阈值的产品组合;所述相关系数值低于预设值的产品组合为销售风险点。2.根据权利要求1所述的基于半监督学习的销售风险点检测方法,其特征在于,步骤S30中“对所述第二图数据库的数据进行聚类”之前还设置有坏点数据去除的步骤,包括:步骤M10,计算相应产品的销售数据的加权平均值:其中,为销售数据的加权平均值,x1、x2……xt为对应的各类产品,f1、f2……ft为相应产品的函数值,t为产品总数量;步骤M20,销售数据的加权平均值高于预设阈值的对应的销售数据为坏点数据,删除所述坏点数据。3.根据权利要求1或5所述的基于半监督学习的销售风险点检测方法,其特征在于,步骤S30中所述平均轮廓系数的计算方法为:其中,s(i)为聚类集合的平均轮廓系数,a(i)为向量到同一聚类集合内其他点不相似程度的平均值,b(i)为向量到其他聚类集合的平均不相似程度的最小值。4.根据权利要求1所述的基于半监督学习的销售风险点检测方法,其特征在于,步骤S50中“采用随机森林分类器对所述第三图数据库进行数据分类”之后还设置有验证步骤,其方法为:采用10重交叉验证法对所述分类结果进行验证,分类结果未达到预设的准确率则重复进行步骤S50直至分类结果达到预设准确率。5.根据权利要求1所述...

【专利技术属性】
技术研发人员:王乾宇何赛克郑晓龙曾大军
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1