基于半监督学习的销售风险点检测方法、系统、装置制造方法及图纸

技术编号：21549051 阅读：50 留言：0更新日期：2019-07-06 22:07

本发明专利技术属于机器学习领域，具体涉及了一种基于半监督学习的销售风险点检测方法、系统、装置，旨在解决销售风险点分析效率低、准确率不高、应用场景局限以及大数据环境下难以应用的问题。本发明专利技术方法包括：获取数据并构建图数据库；将图数据库中的数据清洗成原始状态；对数据聚类，找出平均轮廓系数接近1时的k值；标记k个聚类数据的特征并设置规则，采用随机森林法分类数据；分析数据之间的相关性，找出风险产品组合；采用知识图谱展示风险点。本发明专利技术结合有监督与无监督学习，可以有效地检测出企业可能存在的金融风险并为企业提供建议，优化团队组合，丰富产品搭配。

Detection Method, System and Device of Sales Risk Point Based on Semi-supervised Learning

全部详细技术资料下载

【技术实现步骤摘要】
基于半监督学习的销售风险点检测方法、系统、装置
本专利技术属于机器学习领域，具体涉及了一种基于半监督学习的销售风险点检测方法、系统、装置。
技术介绍
当今中国正处在互联网经济飞速发展时期，科技创新成为了社会极为重要的需求，对未来经济的增长将起到奠定性作用。机器学习技术自20世纪50年代以来，历时60多年的发展，已经在各行业各领域的大数据分析预测方面显露头角，大数据在互联网时代所蕴含的内在价值得以不断被挖掘，其中的价值已引起各国政府、企业界、学术界的高度重视。我们可以依据多个维度的数据或单维的数据对企业行业进行全方位多角度的挖掘剖析。针对销售风险问题，多数金融机构企业通常采用调研、统计、分析等传统方法。这一类方法对已发生的风险问题进行溯源，找到现存问题，或对可能出现的问题进行预判，提前预知未来风险。然而，传统方法没有结合大数据和机器学习的相关技术，难以挖掘出深层潜在问题，同时传统方法应用范围领域过于狭窄，无法兼顾效率与准确率。随着互联网影响力的不断加深以及移动终端设备的广泛普及，大数据的价值不断体现，机器学习相关技术在金融领域的应用日益增多，但绝大多数应用仅限于银行、证券、保险行业等专业性金融场景，而传统行业金融数据仍然具备极大的可挖掘价值。
技术实现思路
为了解决现有技术中的上述问题，即为了解决销售风险点分析效率低、准确率不高、应用场景局限以及大数据环境下难以应用的问题，本专利技术的第一方面，提供了一种基于半监督学习的销售风险点检测方法，包括：步骤S10，基于获取的数据信息构建第一图数据库；所述第一图数据库包括设定类别产品销售数据、对应产品销售人员数据、销售区...

【技术保护点】
1.一种基于半监督学习的销售风险点检测方法，其特征在于，包括：步骤S10，基于获取的数据信息构建第一图数据库；所述第一图数据库包括设定类别产品销售数据、对应产品销售人员数据、销售区域数据；步骤S20，基于所述第一图数据库，采用Pandas方法获得原始状态数据，并基于该数据构建第二图数据库；步骤S30，采用K均值聚类法对所述第二图数据库的数据进行聚类，计算平均轮廓系数；获得所述平均轮廓系数接近1时对应的k值和聚类集合；步骤S40，分别提取所述k个聚类集合中各聚类的数据的特征，并利用该特征分别对所述第二图数据库中数据进行标记，获得第三图数据库；步骤S50，按照所述第三图数据库的数据特征设置随机森林决策规则，构建随机森林；采用随机森林分类器对所述第三图数据库进行数据分类，获得第四图数据库；所述随机森林，由对应k个特征的k棵分类树构成；步骤S60，采用Pearson相关系数计算所述第四图数据库各分类数据之间的相关性，输出相关系数值低于预设阈值的产品组合；所述相关系数值低于预设值的产品组合为销售风险点。

【技术特征摘要】
1.一种基于半监督学习的销售风险点检测方法，其特征在于，包括：步骤S10，基于获取的数据信息构建第一图数据库；所述第一图数据库包括设定类别产品销售数据、对应产品销售人员数据、销售区域数据；步骤S20，基于所述第一图数据库，采用Pandas方法获得原始状态数据，并基于该数据构建第二图数据库；步骤S30，采用K均值聚类法对所述第二图数据库的数据进行聚类，计算平均轮廓系数；获得所述平均轮廓系数接近1时对应的k值和聚类集合；步骤S40，分别提取所述k个聚类集合中各聚类的数据的特征，并利用该特征分别对所述第二图数据库中数据进行标记，获得第三图数据库；步骤S50，按照所述第三图数据库的数据特征设置随机森林决策规则，构建随机森林；采用随机森林分类器对所述第三图数据库进行数据分类，获得第四图数据库；所述随机森林，由对应k个特征的k棵分类树构成；步骤S60，采用Pearson相关系数计算所述第四图数据库各分类数据之间的相关性，输出相关系数值低于预设阈值的产品组合；所述相关系数值低于预设值的产品组合为销售风险点。2.根据权利要求1所述的基于半监督学习的销售风险点检测方法，其特征在于，步骤S30中“对所述第二图数据库的数据进行聚类”之前还设置有坏点数据去除的步骤，包括：步骤M10，计算相应产品的销售数据的加权平均值：其中，为销售数据的加权平均值，x1、x2……xt为对应的各类产品，f1、f2……ft为相应产品的函数值，t为产品总数量；步骤M20，销售数据的加权平均值高于预设阈值的对应的销售数据为坏点数据，删除所述坏点数据。3.根据权利要求1或5所述的基于半监督学习的销售风险点检测方法，其特征在于，步骤S30中所述平均轮廓系数的计算方法为：其中，s(i)为聚类集合的平均轮廓系数，a(i)为向量到同一聚类集合内其他点不相似程度的平均值，b(i)为向量到其他聚类集合的平均不相似程度的最小值。4.根据权利要求1所述的基于半监督学习的销售风险点检测方法，其特征在于，步骤S50中“采用随机森林分类器对所述第三图数据库进行数据分类”之后还设置有验证步骤，其方法为：采用10重交叉验证法对所述分类结果进行验证，分类结果未达到预设的准确率则重复进行步骤S50直至分类结果达到预设准确率。5.根据权利要求1所述...

【专利技术属性】
技术研发人员：王乾宇，何赛克，郑晓龙，曾大军，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人