基于大规模关联群组计算引擎技术实现期货监管的方法技术

技术编号：41151024 阅读：5 留言：0更新日期：2024-04-30 18:17

本发明专利技术公开了一种基于大规模关联群组计算引擎技术实现期货监管的方法，数据库中收集数据；确定DAG等效子图；将整个关注按的原子化条件集均衡的分配到所有工作节点上；工作节点i将分配到的原子化条件集读取对应的DAG等效子图并联接成联合图G<subgt;i</subgt;；计算联合图G<subgt;i</subgt;的DAG等效子图从DAG等效子图中删除非TOI节点及其对应的边；从每个工作节点收集仅包含TOI节点的DAG等效子图到主节点，并联接为再次对联接DAG图进行不相交集合操作；将主节点上的不相交集合作为最终不相交集合返回。本发明专利技术构建了一个正确的乐观锁策略，能够实现大幅压缩超大规模拓扑图不相交集合的计算速度的同时，保证TOI节点的不相交集合的正确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种期货监管，更具体地说，涉及基于大规模关联群组计算实现的期货监管技术。

技术介绍

1、数字经济时代下，金融科技与金融市场加速融合。这种趋势不仅改变了交易模式和策略，提高了市场运行效率，同时也使得一些潜在的违法违规行为愈发隐蔽化和复杂化，对市场监管带来了新的挑战。

2、作为市场监管中的一项重要组成部分，疑似关联账户的监测，主要聚焦在海量的数据中，围绕账户注册信息、行为特征、资金来源、交易终端信息等多角度，识别账户之间的密切联系。在具体监测过程中，任何具有直接或间接一致信息的账户，都会被分为一组。反之，未被分为一组的账户之间，不会存在任何直接或间接的一致关系。这种分组方式在数学上称为disjoint set(并查集)。

3、然而在实际的业务流程中，对疑似关联账户的监测是一个摸索的过程，需要频繁、反复地筛查。单次监测过程涉及超大规模拓扑图，其节点数量可达百万级以上，边的数量更是可达数十亿级，对于传统技术是一项严峻的挑战。更为重要的是，过长的disjoint set计算时间严重影响业务监管效率。

4、目前,disjoint set问题的最先进技术(soat)是union find算法，其秘诀在于建立一个有向无环图(dag)索引。根据现有技术的理论和实验研究，并查集的计算复杂度下界可能不低于o(n)。这也在实践中得到了证实。因此，本专利技术主体思路是基于分布式方式，优化union find形成新的解决方案。。

5、聚焦分布式问题，首先需要面对分布式锁策略问题。大体上，分布式锁

6、自1984年以来，union find算法已经历了40年的历史[1]。作为解决不相交集问题的最佳实践，它被广泛应用于大数据框架，如graphx，spark中的mll ib，以及图形数据库，如neo4j，geabase或aws中的neptune等。本专利技术的hide union find算法也是建立在其基础之上。接下来，我们将从单进程和多进程两个方向总结与hide union find相关的工作。

7、单进程上，union find算法有许多优化策略。一种经典的策略是低层树索引(路径压缩)，它本质上对搜索部分很友好。然而，这种策略对边数据集的顺序非常敏感。在最坏的情况下，索引将被重复更新为新的根。即使使用按大小合并，合并部分在实践中仍然需要大量的计算时间。

8、诸如路径压缩、路径分裂、路径折半或rem策略等折衷策略，平衡了合并部分、查找部分和最终结果部分。因此，这些策略的实际计算成本对数据集的顺序敏感，并且与朴素查找或路径折叠相比并不显著突出。

9、根据以前的实验研究，不同策略之间存在很小的差异。根据我们的实际经验，懒惰并查集在具有十亿规模的小世界拓扑图中实现了最佳平均性能，本质上接近于与路径压缩和按大小链接相结合。总的来说，对于任何单个进程并查集策略，它们的时间复杂度下限不会低于o(n)。

10、那么改进方向必须转向分布式集群。在分布式系统中，集群由部署在同一网络中的多个节点组成。这些节点可以分为主节点和工作节点。主节点用于分配任务，聚合和计算最终不相交集合。工作节点负责计算主节点分配的拓扑子图范围内的任务。

11、为了利用硬件资源，并行算法不可避免地要面对分布式锁挑战。分布式锁主要有两种策略：乐观锁和悲观锁。悲观锁和乐观锁是分布式锁策略中两种常见的锁定策略。悲观锁指在执行操作之前获取锁，以确保操作的排他性并避免其他线程修改数据。另一方面，乐观锁指在执行操作时不获取锁。在更新dag索引时，它将直接更新dag索引，而不管它是否被其他进程更改。

12、dag索引是一种多进程不安全的索引策略。因此，乐观锁最终会导致dag索引维护的根统一不精确，这对业务部门来说是不可接受的。而悲观锁在实践中会将大部分计算能力消耗推到主节点上。这就是为什么现有技术的分布式并查集策略总是被定义为负载均衡分布式并查集。根据实战研究，问题不在于分布式，而在于将拓扑图视为纯粹的同构拓扑导致的。综上所述，过往的union find类解决方案，并不能有效解决业务部门的核心痛点。

技术实现思路

1、针对上述问题，本专利技术解决的业务部门的核心痛点是在有限的时间内完成大规模拓扑图的disjoint set，其中超级拓扑图可能包含数百万个节点和数十亿条边。本专利技术提供一种用以解决金融期货账户监管领域的一项分布式图论解决方案。

2、本专利技术提出分布式架构hide并查集，用于极大压缩不相交集合任务的响应时间。然后将从理论上进一步讨论解决方案的极限，揭示加速的奥秘并建议策略的上限。本专利技术提供的架构由两部分组成：响应部分和缓存部分，将被称为空间维度策略和时间维度策略。

3、对于空间维度策略，拓扑图将在分布式集群中的各个服务器之间在空间上分布。所有空间维度策略的计算过程都将在给出组划分条件后发生，也称为响应部分。

4、对于时间维度策略，将为空间维度的缓存做准备。原子化条件包含两个维度，日期片段维度和非toi节点的实体类型维度。对于每个原子化条件缓存片，可以为每天和每个非toi节点的实体类型计算一个dag等效子图。因此，在空间维度策略中，在具有相同非toi节点维度的时间片段缓存，被合并计算dag等效子图后，就可以删除非toi节点。

5、时间维度策略和空间维度策略的处理步骤可如下所示。

6、时间维度策略：

7、·根据原子化条件<实体，日期>从sql数据库中收集数据。

8、·计算收集数据上的dag等效子图，这意味着对收集的数据进行不相交集合操作，提取dag索引并将其填充到边集中。

9、·如果实体类型是“巨大”实体，则根据非toi节点的哈希码将边集拆分为多个非toi哈希桶。并将它们保存到本地或对象存储服务器。否则，直接将边列表存储到本地或目标存储服务器作为缓存，而无需拆分。

10、空间维度策略：

11、·根据分组条件计算关注的原子化条件集。

12、·使用背包算法，根据dag等效子图的规模，将整个关注的原子化条件集分成n个图规模平衡的组。值得注意的是，具有相同类型但不同日期的原子化条件将被分配到一个平衡组中。

13、·从缓存中读取每个工作节点上分布的每个平衡组的子dag图并联接为工作节点i的联合图gi。

14、·根据每个工作节点i上的gi计算dag等效子图giφ。

15、本文档来自技高网...

【技术保护点】

1.一种基于大规模关联群组计算引擎技术实现期货监管的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于大规模关联群组计算引擎技术实现期货监管的方法，其特征在于，首先下文符号←表示赋值或等于的含义；

3.根据权利要求1所述基于大规模关联群组计算引擎技术实现期货监管的方法，其特征在于，所述实体类型是“巨大”实体，含义为：即该实体图的规模大于所有实体图规模的10％中位数。

【技术特征摘要】

1.一种基于大规模关联群组计算引擎技术实现期货监管的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于大规模关联群组计算引擎技术实现期货监管的方法，其特征在于，首先下文符号←表示赋...

【专利技术属性】
技术研发人员：陈亮，苗元军，
申请(专利权)人：大连飞创信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人