ARM二进制代码的NEON向量化转换方法技术

技术编号：12705641 阅读：76 留言：0更新日期：2016-01-14 02:04

本发明专利技术公开一种ARM二进制代码的NEON向量化转换方法，包括以下步骤：第一步、反汇编；第二步、流图生成；第三步、循环检测；第四步、内存分析；第五步、指令翻译；第六步、汇编指令输出。本发明专利技术通过将ARM的二进制代码反汇编后建立控制流图和做到达定值分析，找到目标优化对象所在的基本块，并分析要优化的基本块中访存模式，同时跟据片上空闲的扩展寄存器和核心寄存器的资源调度，将部分重复访存结果存储在空闲的片上寄存器中，利用访问高速的寄存器来减少程序访存的时间开销，从而达到加速的目的。

全部详细技术资料下载

【技术实现步骤摘要】
【专利说明】ARM二进制代码的NEON向量化转换方法
本专利技术属于嵌入式虚sn?自动并行化
，特别涉及一种ARM二进制代码的 NEON向量化转换方法，适用适用于图像处理、矩阵计算相关领域的底层函数加速。【
技术介绍
】ARM处理器因为其高性能和低功耗，成为了最受欢迎的嵌入式应用处理器。随着用户对ARM程序执行时间要求越来越苛刻，部分存在大量的数据计算的ARM程序需要进行加速。在原ARM程序无法得到的情况下要实现对ARM程序的加速，可以利用SMID单元从二进制代码层面着手加速。目前利用sn?指令加速的算法中SLP算法较为完善，且根据相关文章中的测试结果来看，SLP算法具有较好的加速效果，因此首先使用SLP算法对ARM二进制代码指令加速。然而将SLP算法实现后经测试发现：SLP算法优化后的程序没有加速，甚至部分优化结果耗时大于原程序耗时。原因有以下三点：首先，原SLP算法没有减少循环次数。尽管SLP算法在局部有将几条计算指令合并为一条NEON指令，然而和从循环量级上减少指令数量相比，SLP算法减少的总指令执行次数非常少。其次，也是最主要的一点，ARM程序中主要的耗时指令是访存指令（STR/LDR，这里不考虑特殊的ARM指令），SLP算法并没有大量减少访存指令的数量或大量优化访存模式。在ARM程序中，一般性的计算指令如ADD、SUB、LSL、MUL等指令，实际耗时远小于一次访问内存的时间。而且SLP算法由于主要是以ARM指令为基础，优化少量的计算语句为NEON指令，因此尽管减少了部分计算指令的数量，但是增加了N...
ARM二进制代码的NEON向量化转换方法

【技术保护点】
ARM二进制代码的NEON向量化转换方法，其特征在于，包括以下步骤：第一步、反汇编：对ARM程序的二进制代码文件进行反汇编，得到每条二进制代码对应的原ARM指令信息；第二步、流图生成：在ARM指令反汇编的基础上建立基本块的控制流图，在已有控制流图的基础上，对各个基本块进行到达定值分析；第三步、循环检测：通过循环检测寻找嵌套层数最多的循环，并将其最内层循环的组成基本块进行标记；第四步、内存分析：寻找优化目标中需要成组翻译的ARM指令，将其标记，标记后的指令将不进行内存优化；寻找指令中完成循环功能的指令，同样将其标记且不参与内存优化；在以上的标记基础上，寻找所有访存指令，并且将访问相同内存的访存指令进行合并；合并后根据内存分析方案，标记每个访存指令的访存类型；第五步、指令翻译：将循环指令、成组翻译的指令、访存指令及其地址偏移计算指令、热计算指令、不随循环变化的指令进行翻译；第六步、汇编指令输出：根据第五步的翻译结果进行汇编并输出。

【技术特征摘要】

【专利技术属性】
技术研发人员：梅魁志，温哲西，李博良，张少愚，刘辉，黄雄，高榕，付帅，伍健，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人