一种分布式并行向量比对计算方法及系统技术方案

技术编号：36400275 阅读：19 留言：0更新日期：2023-01-18 10:07

本发明专利技术公开了一种分布式并行向量比对计算方法及系统，该方法包括以下步骤：S1、主控单元基于分布式资源调度将向量数据库中内容均衡分发至若干计算单元，形成比对向量集；S2、所述主控单元接收计算指令，将待计算的向量数据集发送至各个计算单元；S3、所述计算单元将向量数据集与所述比对向量集进行对比计算；S4、将计算结果按照相关性进行排序；S5、将前十个相关性最高的比对结果反馈至主控单元；S6、主控单元接收结果再次按照相关性进行排序。通过设置单主控计算单元配合多计算单元集成模块的分布式集群处理及资源调度原理，能够同时进行大量数据的并行计算，从而大幅提高任务的计算效率与反馈速度。算效率与反馈速度。算效率与反馈速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式并行向量比对计算方法及系统

[0001]本专利技术涉及向量数据计算
，具体来说，涉及一种分布式并行向量比对计算方法及系统。

技术介绍

[0002]用于机器学习和人工智能的处理通常需要对大型数据的集合执行数学操作，并且通常包括求解多重卷积层和池化层。机器学习和人工智能技术通常利用矩阵操作和非线性函数(诸如激活函数)。机器学习的应用包括自动驾驶汽车和驾驶员辅助汽车。在一些场景中，计算机处理器用于执行机器学习训练和推理。传统计算机处理器能够非常快速地执行单个数学操作，但是通常只能同时地对有限数量的数据进行操作。
[0003]向量基础数学库的计算过程为：首先，获取需要计算的向量数值和计算函数；然后，串行检测向量中包括的多个标量数值的状态，判断向量中的每个标量数值是否正常，若所有标量数值均处于正常状态，则将计算函数采用幂级数转换为多项式，再用SIMD指令集并行将所有标量数值代入多项式计算，得到多项式计算结果输出。
[0004]作为改进方案，可以利用图形处理单元(GPU)，并且该GPU能够执行相同数学操作，但是可以对更大数据的集合执行并行数学操作。通过利用多个处理器核，GPU可以并行执行多个任务，并且通常能够完成比传统计算机处理器更快利用并行性的大型图形处理任务。然而，GPU和传统计算机处理器均非最初为机器学习或人工智能操作而设计。机器学习和人工智能操作通常依赖于对非常大的数据集重复应用特定机器学习处理器操作的集合。因此，在面对较大数量的向量集合计算时，传统的计算方式会因为存在较多重复的计算，以及...

【技术保护点】

【技术特征摘要】
1.一种分布式并行向量比对计算方法，其特征在于，该方法包括以下步骤：S1、主控单元基于分布式资源调度将向量数据库中内容均衡分发至若干计算单元，形成比对向量集；S2、所述主控单元接收计算指令，将待计算的向量数据集发送至各个计算单元；S3、所述计算单元将向量数据集与所述比对向量集进行对比计算；S4、将计算结果按照相关性进行排序；S5、将前十个相关性最高的比对结果反馈至主控单元；S6、主控单元接收结果再次按照相关性进行排序，将前十个相关性最高比对结果作为输出并展示。2.根据权利要求1所述的一种分布式并行向量比对计算方法，其特征在于，所述主控单元将向量数据库中内容均衡分发至若干计算单元，分别形成比对向量集，包括以下步骤：S11、主控单元连接大数据平台获取向量数据库并实时更新；S11、建立所述主控单元与计算单元之间用于分布式数据匹配的通信连接；S12、所述计算单元建立基于海杜普的分布式存储；S13、建立数据分发数学模型并进行数据分发算法；S14、基于数据分发算法将向量数据库内容随机且均衡分发至若干计算单元中；S15、所述计算单元接收向量数据进行分布式存储形成比对向量集。3.根据权利要求2所述的一种分布式并行向量比对计算方法，其特征在于，所述建立数据分发数学模型并进行数据分发算法包括以下步骤：S131、定义并初始化变量；S132、计算任务与文件对应关系矩阵，定义任务序号变量，并计算理论上每个节点的平均任务量；S133、为混合整数线性规划一般形式的参数进行值设置；S134、计算任务分配结果矩阵。4.根据权利要求1所述的一种分布式并行向量比对计算方法，其特征在于，所述计算单元将向量数据与所述比对向量集进行对比计算包括以下步骤：S31、获取待计算的向量数据集并计算均值向量，计算公式为：式中，μ表示向量数据集的均值向量，N表示向量数据集中向量的数量，i取值为(0，1，2，3，
…
，N)，x表示向量数据集中的单个向量；S32、利用数学模型依次计算所述均值向量与所述比对向量集的相似度；其中，所述数学模型包括相似度计算数学模型与欧氏距离数学模型。5.根据权利要求4所述的一种分布式并行向量比对计算方法，其特征在于，所述相似度计算数学模型的公式为：
式中，S(X
i
)表示向量数据集的相似度，即均值向量与比对向量集的相似度，cos(Y
m
,μ)表示对比数据集与向量数据集的均值向量之间的余弦值，D表示向量所在的...

【专利技术属性】
技术研发人员：刘鹏，张真，刘子扬，
申请(专利权)人：南京云创大数据科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人