【技术实现步骤摘要】
一种面向流式数据的协作计算方法
[0001]本专利技术涉及边缘计算领域,具体涉及一种面向流式数据的协作计算方法。
技术介绍
[0002]随着移动设备和各类智能设备的普及,用户在日常使用这些设备的过程中会产生大量的数据,而且数据,包含数据内容、数据标签等,产生的过程是持续的、不断的。如用户在使用聊天软件过程中不断利用输入法打字;用户在输入法中输入的英文符号,如用于拼音,作为数据内容,在输入法中选择对应的中文词组作为数据标签。
[0003]这些数据往往会被各类服务提供商、软件开发者所使用。如输入法公司会用这些用户产生的数据进行各类分析计算,如模型训练等,用于日后在其他用户输入符号的过程中进行热点词汇的识别和联想。传统上,这些服务提供商或是软件开发者需要先收集用户的所有数据,再进行计算。但是这些数据会包含用户的隐私,用户不愿意将原始数据直接交付给服务提供商或是软件开发者。因此,现今的做法是在用户和服务提供商之间进行协作计算,即各用户不断上传各自计算的中间结果而非原始数据。服务提供商不断使用用户上传的这些中间结果聚合成最终所 ...
【技术保护点】
【技术特征摘要】
1.一种面向流式数据的协作计算方法,其特征在于:该方法包括在流式数据不断到达的过程中,在设备上进行一定的局部计算,并通过局部计算调控的方式降低设备的瞬时计算负载;在全局计算聚合时进行合适的边缘服务器选择,以求在不超过设备峰值负载、满足全局计算效果下,节省整体的协作计算开销;具体如下:将协作计算的每一轮迭代拆解成为两个部分,第一部分为各设备使用流式到达的数据进行局部计算,并持续一段时间;第二部分为选择合适的边缘服务器,并将本轮迭代内各设备计算所得的中间结果进行全局计算聚合;在每轮迭代的第一部分里,在流式数据到达的过程中,调控的是进行局部计算的样本数量,一个样本包含数据内容及其对应的数据标签,并用这些样本进行基于梯度的局部计算;在每轮迭代的第二部分里,利用各设备局部计算所得的中间结果进行全局计算聚合,并通过边缘服务器选择,降低每轮迭代的传输时延。2.根据权利要求1所述的面向流式数据的协作计算方法,其特征在于,时间被分为若干个时隙,每一个时隙对应着一轮迭代;每个时隙的长度提前设定;在每个时隙t内部,也就是这段时间之内样本不断地到达,各设备在这段时间内陆续对这些样本进行局部计算,并更新其所维护的中间结果;等到这段时隙结束的时候,各设备将自己维护的计算中间结果传输至指定的边缘服务器进行全局计算聚合;其包含的工作流程为:21)对于当前时隙,在时隙开始的时候,各设备的局部计算调控模块决策确定,在数据到达时进行的最大样本参与数,其中i为设备编号;在各设备计算完各自的中间结果后,也即当前时隙末,全局计算聚合模块决策确定需要进行全局计算聚合的边缘服务器,并利用该服务器进行全局计算聚合;该迭代计算不断重复,直到租借预算B被用完;22)在当前时隙的整个时间范围内,各设备上的样本不断到达;各设备利用这些不断到达的流式数据进行局部计算。3.根据权利要求2所述的面向流式数据的协作计算方法,其特征在于,以设备i为例,涉及的局部计算过程如下:31)时隙进一步被划分为许多时间片;每一个时间片会到达一部分样本;这里记时隙中的第j个时间片上设备到达的样本数量为;将这些样本全部纳入到一个缓冲区Buf中;这个缓冲区在每个时隙开始时初始化为空;32)每个时间片进行至多次操作,每次操作涉及从Buf中选出一个样本,并对当前设备维护的中间结果进行更新,以达到局部计算的目的;在这里,每个设备还会维护一个集合 S,用以保存那些已经处理的样本;用户产生的样本本身就是要存储的;每次选取样本并更新中间结果的操作如下:随机从Buf中获取一个样本,并初始化的权重为0,记为;这里的粗体表示向量;每个设备维护一个集合S,用以保存那些已经处理的样本;将该数据样本从Buf移动到S;计算S中所有样本的权值均值 ,也就是;从 S中再随机挑选一个样本;利用该样本计算更新梯度;梯度更新的方式为
这其中为设备维护的中间结果,其下标z表示经历过的“样本
‑
梯度
‑
更新”的次数;为学习率,提前设定;这里的初始化是上一时隙全局计算聚合的反馈;也就是,上一时隙全局计算聚合得到的结果作为当前时隙所有设备维护的中间结果的初始;梯度的计算方式为;其中为损失函数,是关于单个样本和中间结果的函数;其含义为,用未更新的中间结果和样本,理想上...
【专利技术属性】
技术研发人员:吴鹏,李辉,杨定坤,仇红剑,
申请(专利权)人:江苏电力信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。