一种在嵌入式设备上加速深度卷积网络计算速度的方法技术

技术编号:16885734 阅读:76 留言:0更新日期:2017-12-27 03:32
本发明专利技术提供了一种在嵌入式设备上加速深度卷积网络计算速度的方法,包括:根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;在进行深度卷积网络计算时,高性能浮点运算设备逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;当监控线程发现低性能浮点运算设备处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。本发明专利技术能够更好地发挥嵌入式设备的计算能力,减少深度卷积网络的计算时间。

A method for accelerating the computing speed of deep convolution network on embedded devices

The present invention provides a method on embedded devices to accelerate the calculation speed of the convolutional neural networks include: according to the embedded equipment CPU and GPU floating-point operation speed, identify high performance floating-point devices and low performance floating-point devices; in convolutional network computing, high performance floating-point processing equipment frame the image data acquisition; CPU to create a thread for monitoring, continuous monitoring of low load performance floating-point devices; when the monitor thread found low performance floating-point devices at low load or no load condition, to high performance floating-point devices to send signals to high performance floating-point equipment forced the end of the depth of the current frame image data of the convolutional network the calculation task and start computing tasks by convolutional neural networks next frame image data; at the same time, the current frame diagram Residual computing tasks like data are continued to be processed by a low performance floating point operation device. The invention can give full play to the computing power of the embedded equipment and reduce the computing time of the deep convolution network.

【技术实现步骤摘要】
一种在嵌入式设备上加速深度卷积网络计算速度的方法
本专利技术涉及基于嵌入式设备的高性能计算及深度学习领域,具体涉及一种在嵌入式设备上加速深度卷积网络计算速度的方法。
技术介绍
最近,深度学习(DeepLearning)在图像(视频)理解以及语音(文本)识别等各个领域得到了广泛应用。深度学习常常被看作是通向真正人工智能的重要一步,因而很多公司对深度学习的应用带有比较浓厚的兴趣。在很多学术领域,深度学习与非深度学习算法相比,往往有20-30%成绩的提高。很多大公司也逐渐开始出手投资这种算法,并成立自己的深度学习团队。深度卷积网络(CNN)是一种多层神经网络,擅长处理图像特别是大图像的相关深度学习问题,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。深度卷积网络是深度学习技术中极具代表的网络结构之一,在图像处理领域取得了很大的成功。CNN相较于传统的图像处理算法的优点之一在于,避免了对图像复杂的前期预处理过程(提取人工特征等),可以直接输入原始图像。然而深度学习真正应用于实际的工程应用中缺很少,主要的原因是本文档来自技高网...
一种在嵌入式设备上加速深度卷积网络计算速度的方法

【技术保护点】
一种在嵌入式设备上加速深度卷积网络计算速度的方法,所述嵌入式设备包括至少一个CPU和至少一个GPU,其特征在于,所述方法包括:根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;在进行深度卷积网络计算时,高性能浮点运算设备逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;当监控线程发现低性能浮点运算设备处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮...

【技术特征摘要】
1.一种在嵌入式设备上加速深度卷积网络计算速度的方法,所述嵌入式设备包括至少一个CPU和至少一个GPU,其特征在于,所述方法包括:根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;在进行深度卷积网络计算时,高性能浮点运算设备逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;当监控线程发现低性能浮点运算设备处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。2.根据权利要求1所述的方法,其特征在于,根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备的方法为:嵌入式设备的CPU和GPU分别单独获取一帧图像并进行处理,其中,先处理完的定义为高性能浮点运算设备,后处理完的定义为低性能浮点运算设备。3.根据权利要求1所述的方法,其特征在于,所述CPU包括浮点运算单元和监控单元;其中,浮点运算单元用于作为高性能浮点运算设备或低性能浮点运算设备进行深度卷积网络计算;监控单元用于建立监控线程,监控低性能浮点运算设备的负载状态。4.根据权利要求3所述的方法,其特征在于,所述CPU的浮点运算单元利用单指令多数据(SingleInstructionMultipleData)并行处理深度卷积网络的浮点运算。5.根据权利要求4所述的...

【专利技术属性】
技术研发人员:林倞王可泽郑会钿
申请(专利权)人:广州深域信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1