一种基于大数据和机器学习技术的风险控制系统及方法技术方案

技术编号：41288938 阅读：3 留言：0更新日期：2024-05-11 09:38

本发明专利技术公开了一种基于大数据和机器学习技术的风险控制系统及方法，通过获取海量数据管理的机器学习中的的学习算法，并对海量数据进行数据预处理得到初始数据，根据初始数据的数据类型对大数据网格进行隐私分析得到隐私保护数据，将隐私保护数据进行数据匿名化得到得到样本数据，将样本数据输入已训练好的神经网络中进行训练得到训练结果，将训练结果进行风险预测分析以完成风险控制，借助离散小波变换对网格密度进行分级，并分别合并邻域相同密度水平的均匀网格和空网格形成聚类统计发布结构，实现对发布数据的隐私保护，通过建模用户风险序列可以有效克服以往模型对序列建模的不足，提高了数据的安全性，增强了数据可用性和减少数据信息损失。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据处理，尤其涉及一种基于大数据和机器学习技术的风险控制系统及方法。

技术介绍

1、近年来，大数据技术的演进和发展加速了大数据应用向传统行业的渗透，也与各行各业实现了创新的融合式发展，各类电子商务、出行服务、智能家居、医疗健康等新业态发展迅猛。数据信息以其可处理性等特点，一直被视为重要的战略资源，类型多样、体量巨大、更新迅速的大数据蕴含着不可估量的价值。然而，基于位置的大数据统计信息发布在给人们带来各种便捷服务的同时，也引发了数据滥用，个人隐私泄露、商业机密受侵犯等诸多问题，其原因在于与数据紧密相关的位置信息可以反映出设备具体位置、系统关键程度和个人隐私等敏感信息，对基于位置的大数据统计信息的不当发布或反向推理分析不仅可能暴露关键设备与节点的具体位置，在系统中发挥的作用、威胁相关设备和节点的物理安全和通信安全。

技术实现思路

1、有鉴于此，本专利技术提供了一种可以提高数据的安全性、增强数据可用性和减少数据信息损失的基于大数据和机器学习技术的风险控制系统及方法，来解决上述存在的技术问题，具体采用以下技术方案来实现。

2、第一方面，本专利技术提供了一种基于大数据和机器学习技术的风险控制系统，包括：

3、数据获取单元，用于获取海量数据管理的机器学习中的的学习算法，并对海量数据进行数据预处理得到初始数据；

4、数据分析单元，用于根据初始数据的数据类型对大数据网格进行隐私分析得到隐私保护数据，其中，数据类型包括静态数据和动态数据；

>5、数据聚类单元，用于将隐私保护数据进行数据匿名化得到得到样本数据，其中，匿名化用于将隐私数据生成在准标识属性上不可区分的等价类，若将数据表的记录当作空间上的点，生成等价类的过程为聚类任务；

6、风险控制单元，用于将样本数据输入已训练好的神经网络中进行训练得到训练结果，将训练结果进行风险预测分析以完成风险控制。

7、作为上述技术方案的进一步优化，根据初始数据的数据类型对大数据网格进行隐私分析得到隐私保护数据，包括：

8、将基于位置的数据所覆盖的二维空间划分为大小相等的底层网格，并计算每个网格中位置点的统计值，将其用作每个底层网格的密度；

9、对网格单元设置均匀分布判断条件以确定非空网格的分别特征，其中，采用离散小波变换对网格密度进行分级；

10、采用网格聚类算法将位置空间分布稀疏和均匀的区域进行划分，根据领域相似度对属于相同密度水平的均匀网格和空网格分布进行聚类合并以得到静态数据对应的隐私保护数据。

11、作为上述技术方案的进一步优化，根据领域相似度对属于相同密度水平的均匀网格和空网格分布进行聚类合并以得到静态数据对应的隐私保护数据，包括：

12、网格均匀性：预设密度为den(g)的网格g，预设den(d1)、den(d2)…den(di)是从水平、垂直、对角线和其他方向划分的网格g的子区域密度；

13、若构造行向量v＝{den(d1)、den(d2)…den(di)}，则网格g分布的均匀性可由向量v的方差var(v)来表示，若满足表达式其中，lfc＝lg(var(v))，i表示多方向划分后的子区域数量，θ表示阈值；

14、领域网格：预设ci为网格gi的中心，且具有相同领边的任意两个网格之间的距离为1，若网格gi和gj之间的距离满足表达式为网格gj表示网格gi的领域网格；

15、网格密度分级：预设ll表示二维空间中dwt变换后原始网格密度矩阵的低频系数，设定两个阈值，和原始网格密度矩阵可分为三个等级的表达式为

16、对位置数据集覆盖的二维空间执行均匀网格划分和密度统计，通过均匀性判断，初始空间被划分为空网格即flag＝0、均匀网格即flag＝1和非均匀网格flag＝2，均匀网格根据其密度进一步分级。

17、作为上述技术方案的进一步优化，将基于位置的大数据所覆盖的二维空间划分为m×m个均匀网格，以用户的移动速度确定每个网格的最大覆盖范围和最小覆盖范围并作为约束判断条件，对每个网格在更新时刻的用户统计值进行预测，包括：

18、预设用户的移动速度为v，当前采样时刻用户的移动区域为s＝v(ti-ti-1)，取最大网格覆盖范围和最小网格覆盖范围下的网格用户统计值的平均值为更新时刻网格用户数量的预测统计值；

19、预设maxcnt和mincnt分别为最大网格覆盖范围和最小网格覆盖范围下用户的统计值，将maxcnt和mincnt的平均值作为更新时刻网格用户数量的预测统计值，对应的表达式为

20、预设数据发布时刻ti与ti-1之间的动态数据序列为dsi，发布时刻ti-1与ti-2之间的动态数据序列为dsi-1，以此类推，将相邻的数据序列之间的相关性之差为数据变化差，使用皮尔逊相关系数衡量数据序列之间的相关性，则数据变化差的计算表达式为其中，l表示数据序列长度，dsi和分别表示的样本平均值和标准差，dsi-1和表示的样本平均值和标准差，采用dri表示相邻的数据序列之间的数据变化差，皮尔逊系数越接近1表示数据序列之间相关性越好；若dri大于0，可认为动态数据序列dst与dsi-1之间的数据相关性更好，即动态数据序列dri之间的数据变化趋势无明显改变且需要增加采样间隔；反之，则需要减小采样间隔。

21、作为上述技术方案的进一步优化，对于任意数据发布时刻ti，预设划分区域内的实际统计值和预测统计值分别为rc和pc，则反馈误差的表达式为其中，n表示划分区域的数量，和σrc分别表示rcx的样本平均值和标准差，和σpc表示pcx的样本平均值和标准差；

22、根据pic控制的基本策略将比例误差、积分误差和微分误差结合形成pid统计误差，具体计算的表达式为其中，dp、di和dd分别表示比例增益、积分增益和微分增益，满足dp、di、dd均大于0，dp+di+dd＝1，ti表示积分时间窗口，n表示发生错误的总数，fet和fet-1表示相邻时刻反馈误差；

23、根据划分结构下发布时刻的数据快照中用户数量的预测值和统计值之间的差距形成的反馈误差，作为pid调整采样间隔的重要参数，通过比较相邻采样时刻之间的数据序列的相关性获得数据变化差dr以作为调整采样间隔的另一个重要参数，则动态采样时间间隔调整的算法为其中，inew表示新的采样时间间隔，i表示初始的固定采样时间间隔，表示pid统计误差，dr表示数据变化差，β表示规定参数用来确保pid统计误差控制的采样间隔变化幅度，i0表示给定的最小采样时间间隔以确保采样间隔不等于0。

24、作为上述技术方案的进一步优化，将隐私保护数据进行数据匿名化得到得到样本数据，包括：

25、预设s(pid，q，a)为一个不完整数据流，其中，pid表示每个元组的标识符，q＝{q1，q2…qm}表示元组准标识符属性集合，a＝{a1，a2…an}表示元组的其他属性集合，当称s*表示一条k一匿名的不完整数据流，当满足下列条件为：...

【技术保护点】

1.一种基于大数据和机器学习技术的风险控制系统，其特征在于，包括：

2.根据权利要求1所述的基于大数据和机器学习技术的风险控制系统，其特征在于，根据初始数据的数据类型对大数据网格进行隐私分析得到隐私保护数据，包括：

3.根据权利要求1所述的基于大数据和机器学习技术的风险控制系统，其特征在于，根据领域相似度对属于相同密度水平的均匀网格和空网格分布进行聚类合并以得到静态数据对应的隐私保护数据，包括：

4.根据权利要求3所述的基于大数据和机器学习技术的风险控制系统，其特征在于，将基于位置的大数据所覆盖的二维空间划分为m×m个均匀网格，以用户的移动速度确定每个网格的最大覆盖范围和最小覆盖范围并作为约束判断条件，对每个网格在更新时刻的用户统计值进行预测，包括：

5.根据权利要求4所述的基于大数据和机器学习技术的风险控制系统，其特征在于，对于任意数据发布时刻ti，预设划分区域内的实际统计值和预测统计值分别为rc和pc，则反馈误差的表达式为其中，N表示划分区域的数量，和σrc分别表示rcx的样本平均值和标准差，和σpc表示pcx的样本平均值和标准差；

6.根据权利要求1所述的基于大数据和机器学习技术的风险控制系统，其特征在于，将隐私保护数据进行数据匿名化得到得到样本数据，包括：

7.根据权利要求6所述的基于大数据和机器学习技术的风险控制系统，其特征在于，当窗口中元组数量达到阈值δ时，强制输出老元组即到期元组，将有新的元组进入窗口，预设每个元组以相同的单位时间间隔到达，则元组在窗口中的停留时间不超过δ-1时间间隔。

8.根据权利要求1所述的基于大数据和机器学习技术的风险控制系统，其特征在于，将样本数据输入已训练好的神经网络中进行训练得到训练结果，包括：

9.根据权利要求8所述的基于大数据和机器学习技术的风险控制系统，其特征在于，将风险因素量化构建成函数，设定相应的阈值，当某项业务的风险因素数值达到或超过阈值时，视为触发风险；

10.根据权利要求1-9任一项所述的基于大数据和机器学习技术的风险控制系统的基于大数据和机器学习技术的风险控制方法，其特征在于，包括以下步骤：

...

【技术特征摘要】

1.一种基于大数据和机器学习技术的风险控制系统，其特征在于，包括：

5.根据权利要求4所述的基于大数据和机器学习技术的风险控制系统，其特征在于，对于任意数据发布时刻ti，预设划分区域内的实际统计值和预测统计值分别为rc和pc，则反馈误差的表达式为其中，n表示划分区域的数量，和σrc分别表示rcx的样本平...

【专利技术属性】
技术研发人员：林乐新，周超，
申请(专利权)人：深圳闪回科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人