一种分布式并行向量比对计算方法及系统技术方案

技术编号:36400275 阅读:19 留言:0更新日期:2023-01-18 10:07
本发明专利技术公开了一种分布式并行向量比对计算方法及系统,该方法包括以下步骤:S1、主控单元基于分布式资源调度将向量数据库中内容均衡分发至若干计算单元,形成比对向量集;S2、所述主控单元接收计算指令,将待计算的向量数据集发送至各个计算单元;S3、所述计算单元将向量数据集与所述比对向量集进行对比计算;S4、将计算结果按照相关性进行排序;S5、将前十个相关性最高的比对结果反馈至主控单元;S6、主控单元接收结果再次按照相关性进行排序。通过设置单主控计算单元配合多计算单元集成模块的分布式集群处理及资源调度原理,能够同时进行大量数据的并行计算,从而大幅提高任务的计算效率与反馈速度。算效率与反馈速度。算效率与反馈速度。

【技术实现步骤摘要】
一种分布式并行向量比对计算方法及系统


[0001]本专利技术涉及向量数据计算
,具体来说,涉及一种分布式并行向量比对计算方法及系统。

技术介绍

[0002]用于机器学习和人工智能的处理通常需要对大型数据的集合执行数学操作,并且通常包括求解多重卷积层和池化层。机器学习和人工智能技术通常利用矩阵操作和非线性函数(诸如激活函数)。机器学习的应用包括自动驾驶汽车和驾驶员辅助汽车。在一些场景中,计算机处理器用于执行机器学习训练和推理。传统计算机处理器能够非常快速地执行单个数学操作,但是通常只能同时地对有限数量的数据进行操作。
[0003]向量基础数学库的计算过程为:首先,获取需要计算的向量数值和计算函数;然后,串行检测向量中包括的多个标量数值的状态,判断向量中的每个标量数值是否正常,若所有标量数值均处于正常状态,则将计算函数采用幂级数转换为多项式,再用SIMD指令集并行将所有标量数值代入多项式计算,得到多项式计算结果输出。
[0004]作为改进方案,可以利用图形处理单元(GPU),并且该GPU能够执行相同数学操作,但是可以对更大数据的集合执行并行数学操作。通过利用多个处理器核,GPU可以并行执行多个任务,并且通常能够完成比传统计算机处理器更快利用并行性的大型图形处理任务。然而,GPU和传统计算机处理器均非最初为机器学习或人工智能操作而设计。机器学习和人工智能操作通常依赖于对非常大的数据集重复应用特定机器学习处理器操作的集合。因此,在面对较大数量的向量集合计算时,传统的计算方式会因为存在较多重复的计算,以及冗余的处理步骤与数据筛选,影响向量数据的计算效率,不能满足日益提高的计算需求。
[0005]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]针对相关技术中的问题,本专利技术提出一种分布式并行向量比对计算方法及系统,以克服现有相关技术所存在的上述技术问题。
[0007]为此,本专利技术采用的具体技术方案如下:
[0008]根据本专利技术的一个方面,提供了一种分布式并行向量比对计算方法,该方法包括以下步骤:
[0009]S1、主控单元基于分布式资源调度将向量数据库中内容均衡分发至若干计算单元,形成比对向量集;
[0010]S2、所述主控单元接收计算指令,将待计算的向量数据集发送至各个计算单元;
[0011]S3、所述计算单元将向量数据集与所述比对向量集进行对比计算;
[0012]S4、将计算结果按照相关性进行排序;
[0013]S5、将前十个相关性最高的比对结果反馈至主控单元;
[0014]S6、主控单元接收结果再次按照相关性进行排序,将前十个相关性最高比对结果
作为输出并展示。
[0015]进一步的,所述主控单元将向量数据库中内容均衡分发至若干计算单元,分别形成比对向量集,包括以下步骤:
[0016]S11、主控单元连接大数据平台获取向量数据库并实时更新;
[0017]S11、建立所述主控单元与计算单元之间用于分布式数据匹配的通信连接;
[0018]S12、所述计算单元建立基于海杜普(Hadoop)的分布式存储;
[0019]S13、建立数据分发数学模型并进行数据分发算法;
[0020]S14、基于数据分发算法将向量数据库内容随机且均衡分发至若干计算单元中;
[0021]S15、所述计算单元接收向量数据进行分布式存储形成比对向量集。
[0022]进一步的,所述建立数据分发数学模型并进行数据分发算法包括以下步骤:
[0023]S131、定义并初始化变量;
[0024]S132、计算任务与文件对应关系矩阵,定义任务序号变量,并计算理论上每个节点的平均任务量;
[0025]S133、为混合整数线性规划一般形式的参数进行值设置;
[0026]S134、计算任务分配结果矩阵。
[0027]进一步的,所述计算单元将向量数据与所述比对向量集进行对比计算包括以下步骤:
[0028]S31、获取待计算的向量数据集并计算均值向量,计算公式为:
[0029][0030]式中,μ表示向量数据集的均值向量,N表示向量数据集中向量的数量,i取值为(0,1,2,3,

,N),x表示向量数据集中的单个向量;
[0031]S32、利用数学模型依次计算所述均值向量与所述比对向量集的相似度;
[0032]其中,所述数学模型包括相似度计算数学模型与欧氏距离数学模型。
[0033]进一步的,所述相似度计算数学模型的公式为:
[0034][0035]式中,S(X
i
)表示向量数据集的相似度,即均值向量与比对向量集的相似度,cos(Y
m
,μ)表示对比数据集与向量数据集的均值向量之间的余弦值,D表示向量所在的维度,j表示维度的层数取值为(1,2,

,D),μ表示向量数据集的均值向量,μ
j
表示均值向量在第j维的值,Y
m
表示比对向量集,y
mj
表示比对向量集内的向量第j维的值。
[0036]进一步的,所述欧氏距离数学模型的公式为:
[0037][0038]式中,ρ表示欧氏距离,即均值向量与比对向量集的相似度,(X1,Y1,Z1)表示均值向量的坐标值,(X2,Y2,Z2)表示比对向量集内向量的坐标值。
[0039]进一步的,所述将计算结果按照相关性进行排序包括以下步骤:
[0040]S41、对相似度计算结果进行相关性筛选排序,得到计算结果序列;
[0041]S42、对所述计算结果序列进行相关度分类,得到分类结果序列;
[0042]S43、对所述分类结果序列进行重复数据筛选,并将筛选的重复数据进行指数降分计算,得到筛选结果序列;
[0043]S44、将所述筛选结果序列中所有数据按照其对应相关度分数进行排序,得到反馈结果序列。
[0044]进一步的,所述对所述计算结果序列进行相关度分类,得到分类结果序列,包括以下步骤:
[0045]S421、根据计算结果序列构建分值区间,且余弦相似度所述分值区间包括(

1≤t<0)与(0≤t≤1),欧氏距离所述分值区间包括(0≤ρ<+∞),其中t,ρ表示相似度计算结果;
[0046]S422、利用所述分值区间对所述计算结果序列进行分类,得到所述分类结果序列。
[0047]进一步的,所述对所述分类结果序列进行重复数据筛选,并将筛选的重复数据进行指数降分计算,得到筛选结果序列,包括以下步骤:
[0048]S431、利用预设算法对所述分类结果序列中每个数据进行编码,得到对应的数据编码;
[0049]S432、计算所述分类结果序列对应的所有数据编码中任意两个数据编码的文本距离;
[0050]S433、将小于预设阈值的所述文本距离确定为相似文本距离;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式并行向量比对计算方法,其特征在于,该方法包括以下步骤:S1、主控单元基于分布式资源调度将向量数据库中内容均衡分发至若干计算单元,形成比对向量集;S2、所述主控单元接收计算指令,将待计算的向量数据集发送至各个计算单元;S3、所述计算单元将向量数据集与所述比对向量集进行对比计算;S4、将计算结果按照相关性进行排序;S5、将前十个相关性最高的比对结果反馈至主控单元;S6、主控单元接收结果再次按照相关性进行排序,将前十个相关性最高比对结果作为输出并展示。2.根据权利要求1所述的一种分布式并行向量比对计算方法,其特征在于,所述主控单元将向量数据库中内容均衡分发至若干计算单元,分别形成比对向量集,包括以下步骤:S11、主控单元连接大数据平台获取向量数据库并实时更新;S11、建立所述主控单元与计算单元之间用于分布式数据匹配的通信连接;S12、所述计算单元建立基于海杜普的分布式存储;S13、建立数据分发数学模型并进行数据分发算法;S14、基于数据分发算法将向量数据库内容随机且均衡分发至若干计算单元中;S15、所述计算单元接收向量数据进行分布式存储形成比对向量集。3.根据权利要求2所述的一种分布式并行向量比对计算方法,其特征在于,所述建立数据分发数学模型并进行数据分发算法包括以下步骤:S131、定义并初始化变量;S132、计算任务与文件对应关系矩阵,定义任务序号变量,并计算理论上每个节点的平均任务量;S133、为混合整数线性规划一般形式的参数进行值设置;S134、计算任务分配结果矩阵。4.根据权利要求1所述的一种分布式并行向量比对计算方法,其特征在于,所述计算单元将向量数据与所述比对向量集进行对比计算包括以下步骤:S31、获取待计算的向量数据集并计算均值向量,计算公式为:式中,μ表示向量数据集的均值向量,N表示向量数据集中向量的数量,i取值为(0,1,2,3,

,N),x表示向量数据集中的单个向量;S32、利用数学模型依次计算所述均值向量与所述比对向量集的相似度;其中,所述数学模型包括相似度计算数学模型与欧氏距离数学模型。5.根据权利要求4所述的一种分布式并行向量比对计算方法,其特征在于,所述相似度计算数学模型的公式为:
式中,S(X
i
)表示向量数据集的相似度,即均值向量与比对向量集的相似度,cos(Y
m
,μ)表示对比数据集与向量数据集的均值向量之间的余弦值,D表示向量所在的...

【专利技术属性】
技术研发人员:刘鹏张真刘子扬
申请(专利权)人:南京云创大数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1