用于分析二进制文件的基于生物序列的方案制造技术

技术编号：17102330 阅读：52 留言：0更新日期：2018-01-21 12:36

在动态计算环境中，验证在环境中运行的代码是一项不平凡的任务，因为用于软件相似性的大多数方法需要二进制文件的大量且耗时的分析，或者这些方案无法识别相似但非完全相同的可执行文件。用于量化可执行二进制文件的相似性的基于生物序列的方法被用于标识在真实世界的多用户环境中允许的代码。

A biological sequence based scheme for analyzing binary files

In the dynamic computing environment, verification code running in the environment is a non trivial task, because for most of the similar software method needs a lot of analysis and time-consuming binary files, or these schemes cannot identify similar but non identical executable file. A biological sequence based approach used to quantify the similarity of executable binary files is used to identify the code allowed in a multi user environment in the real world.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于分析二进制文件的基于生物序列的方案相关申请的交叉引用本申请根据35U.S.C.§119(e)要求于2015年4月17日提交的标题为“What'sReallyRunningonYourCluster：ABiosequence-BasedApproachtoWhitelistingHPCApplicationsinaDevelopmentEnvironment”的美国临时专利申请系列No.62/149,126的优先权，其全部内容为了所有目的通过引用方式并入本文。美国政府机构和政府合同本专利技术部分地由美国政府机构资助或与美国政府机构签订合同。美国政府机构的名称和政府合同编号为：经由数据密集计算倡议(DICI)、信息和基础设施完整性倡议(14)、和签名发现倡议(SDI)在太平洋西北国家实验室(PNNL)处的实验室指导研究与开发(LDRD)。西北太平洋国家实验室PNNL由Battelle根据合同DE-ACO6-76RL0-1830为DOE运行。
本专利技术涉及计算机分析领域。更具体地，本专利技术涉及软件身份验证。
技术介绍
对于诸如高性能计算(HPC)中心和云平台的许...
用于分析二进制文件的基于生物序列的方案

【技术保护点】
一种在设备的非暂时性存储器中编程的方法，包括：a.将软件二进制文件反汇编成汇编指令序列；b.规范化所述汇编指令序列；c.将所规范化的所述汇编指令序列映射为文本序列；以及d.对所述文本序列执行序列比对，以使用算法找到相关子序列。

【技术特征摘要】
【国外来华专利技术】2015.04.17 US 62/149,1261.一种在设备的非暂时性存储器中编程的方法，包括：a.将软件二进制文件反汇编成汇编指令序列；b.规范化所述汇编指令序列；c.将所规范化的所述汇编指令序列映射为文本序列；以及d.对所述文本序列执行序列比对，以使用算法找到相关子序列。2.根据权利要求1所述的方法，还包括：接收所述文本序列、包含用于文本比对和未比对事件的奖励值的评分矩阵、以及在所述算法处的评分参数，其中所述评分矩阵是基于所选择的字母表的即插即用评分矩阵。3.根据权利要求1所述的方法，其中所述算法被一般化为可应用于超过标准20个氨基酸字符的字符串字母表，其中所述字符串字母表包括近似任何可打印的ASCII字符。4.根据权利要求1所述的方法，其中反汇编被自动化，以生成用于序列分析的、适当地被格式化的文件。5.根据权利要求1所述的方法，其中规范化所述汇编指令序列包括：移除所有参数并分类地对相似的操作码进行分组，将每个类别映射为单个字母，其中分类地对相似的操作码进行分组包括：生成每个集群的表示。6.根据权利要求5所述的方法，其中生成所述每个集群的表示是通过一致性或隐藏标记的，其中一致性包括：比对所述集群中的项目并提供比对的分段，并且隐藏标记包括：通过找到相同的分段和不同的分段来生成集群的一个或多个简档。7.根据权利要求1所述的方法，还包括：消除短于第一阈值的文本序列，并且将长于第二阈值的文本序列分成固定长度的多个序列，其中长于所述第二阈值的所述文本序列是基于可用存储器的数量而被分割的。8.根据权利要求1所述的方法，还包括：为史密斯-沃特曼计算初始分配一次存储器，并且针对每个比对重新使用所述存储器，其中所分配的所述存储器的大小是可配置的。9.根据权利要求1所述的方法，其中所述算法利用主机/工作机/任务概念，其中任务由主机被给予工作机内核，其中在启动时，所述主机打开查询文件并等待请求，所述工作机内核分配存储器以运行本地史密斯-沃特曼计算，其中节点上的每个工作机内核一次分配一个存储器，并且如果不存在足够的剩余存储器，则稍后联机的所述工作机内核不分配存储器或运行，进一步地，其中一旦工作机内核分配存储器，所述工作机内核就从所述主机请求任务而不等待其他工作机内核分配存储器。10.根据权利要求9所述的方法，其中每个节点分配可变数量的工作机内核和存储器。11.根据权利要求9所述的方法，其中如果工作机内核处理长于阈值的查询，则所述工作机内核请求所述主机帮助，并且如果所述其他工作机内核仍然繁忙，则所述主机拒绝，否则，所述主机帮助所述工作机内核。12.一种系统，包括：a.反汇编模块，被配置用于将软件二进制文件代码反汇编成汇编指令序列；b.规范化模块，被配置用于规范化所述汇编指令序列；c.映射模块，被配置用于将所规范化的所述汇编指令序列映射为文本序列；以及d.比对模块，被配置用于对所述文本序列执行序列比对，以使用算法找到相关子序列。13.根据权利要求12所述的系统，其中所述反汇编模块还被配置用于：接收所述文本序列、包含用于文本比对和未比对事件的奖励值的评分矩阵、以及在所述算法处的评分参数，其中所述评分矩阵是基于所选择的字母表的即插即用评分矩阵。14.根据权利要求12所述的系统，其中所述算法被一般化为可应用于超过标准20个氨基酸字符的字符串字母表，其中所述字符串字母表包括近似任何可打印的ASCII字符。15.根据权利要求12所述的系统，其中反汇编被自动化，以生成用于序列分析的、适当地被格式化的文件。16.根据权利要求12所述的系统，其中规范化所述汇编指令序列包括：移除所有参数并分类地对相似的操作码进行分组，将每个类别映射为单个字母，其中分类地对相似的操作码进行分组包括：生成每个集群的表示。17.根据权利要求16所述的系统，其中生成所述每个集群的表示是通过一致性或隐藏标记的，其中一致性包括：比对所述集群中的项目并提供比对的分段，并且隐藏标记包括：通过找到相同的分段和不同的分段来生成集群的一个或多个简档。18....

【专利技术属性】
技术研发人员：E·S·彼得森，C·S·奥门，A·R·菲利普斯，D·S·库尔蒂斯，
申请(专利权)人：巴特尔纪念研究所，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人