利用计算机安全技术进行基因数据保护的方法技术

技术编号:37674025 阅读:12 留言:0更新日期:2023-05-26 04:37
本发明专利技术涉及基因数据隐私保密护,具体涉及一种利用计算机安全技术进行基因数据保护的方法和系统。本发明专利技术基于DNA存储的隐私保护程序的编码、解码以及释放的过程,流程主要分为两个模块:数据保护序列的设计与生成模块,以及数据保护序列的释放与执行模块。保护生物数据安全的计算机程序可编码为DNA序列并存入测序文件或基因载体如质粒中,并实现在释放后中断当前进程从而无法读取真实数据,或获取未授权设备的控制权并追踪访问设备信息,以此保护生物信息安全。有望应用于保护敏感基因测序数据及其相关信息,并进一步广泛应用于DNA存储、生物安全及国防建设等领域。生物安全及国防建设等领域。

【技术实现步骤摘要】
利用计算机安全技术进行基因数据保护的方法


[0001]本专利技术涉及基因数据隐私保密护,具体涉及一种利用利用计算机安全技术进行基因数据保护的方法。

技术介绍

[0002]基因测序技术也称作DNA测序技术,即获得目的DNA片段碱基排列顺序的技术,获得目的DNA片段的序列是研究基础生物学过程和遗传疾病成因,以及进行基因操作的基础。随着测序技术的迅速发胀,使得新一代测序平台具有高通量与并行测序等优点,这使得测序速度及测序通量大幅提升,仅需要一次测序实验即可产生海量序列数据。通过高质量和可靠的测序数据,研究者能够快速获得研究目标的全基因组序列信息。因此,全基因组测序技术能帮助研究者快速获得研究目标的整个基因组序列信息。测序技术的进步使研究者对基因测序有了更高的分辨率,其有助于产生更多来自大量个体的新功能基因组数据集,并超越现有的测序基因组信息规模。例如,对细胞表观遗传和转录状态的测序研究,可了解基因表达水平或DNA结合蛋白水平,并用于临床治疗(如癌症基因组图谱TCGA);单细胞RNA测序(scRNA

seq)和单细胞转座酶染色质测序(scATAC

seq)已经达到在单细胞水平对组织进行功能注释。
[0003]基因组测序在产生海量数据信息的同时,也面临着严峻的数据安全问题,尤其是广泛传递分享包含原始脱氧核糖核酸(DeoxyriboNucleic Acid, DNA)信息的测序文件,使得防范盗用或篡改这些基因数据具有重要的现实意义。然而,随着基因数据规模的不断增长,隐私问题阻碍了基因数据的开放,以保护隐私的安全方式进行基因数据共享的需求迫在眉睫。从这些数据中可以推断个体的遗传变异,其数据携带疾病易感性信息涉及其来源个体及近亲。例如,可利用其DNA测序文件的原始读段推断的遗传变异信息,同时功能基因组数据可通过将特定表型与样品联系进行进一步的隐私分析。另外,测序数据门槛降低,使更多人能够获取测序数据,以推断研究参与者的敏感信息。测序数据一旦公开就不可撤回,可能导致未来隐私泄露风险。而不同样本间的基因数据具有一定的独特性,以最大限度开放共享测序数据有利于疾病等方向的科学研究。因此,保护测序数据的安全问题是未来研究的重点。
[0004]目前,基于电子加密解决测序数据隐私的方法已取得一定研究进展。电子加密通过对测序文件进行数字加密实现隐私信息的保护。例如,同态加密(HME)通过加密函数对测序的数字文件进行环上的加法和乘法以保障基因信息的隐私,但这种方法速度慢且消耗大量内存,因此仅适用于较小的数据集;SMC协议在满足保护基因信息的同时又保证了基因数据的准确性,但其计算成本更高;基于加密技术的基因数据安全分析的解决方案还包括基于乱码回路的方法和基于秘密共享的安全基因组关联方法等。但是由于其较高的计算成本,这些技术都无法大规模推广,无法满足现实中测序数据防护所需的性能。基于DNA存储加密解决基因数据隐私的方式是一种区别于电子加密的崭新形式。DNA存储加密则是在信息编码过程中通过计算机算法将DNA合成中写入的数据进行加密,并将加密后的信息转化
为DNA使基因数据的表达形式不变但内容发生变化,从而解决基因数据的隐私问题。例如,加法加密通过移动碱基的位数实现加密和解密,具有操作简单、复杂度低并易被破解的特点;哈夫曼编码(Huffman Coding)通过概率对测序文件进行重编码,实现了信息的压缩和隐私保护。随着DNA存储技术的快速发展,DNA将作为一种新型存储材料,已经实现对文本、图像、音频和视频等格式的信息的储存。理论上,计算机程序作为一种信息也可实现在DNA序列中的存储,因此将可执行的计算机程序以DNA序列的形式实现加密与信息的保护,是一种新型的DNA存储技术与计算机安全技术的结合手段,将突破传统的仅基于计算机技术的数据隐私加密方式。

技术实现思路

[0005]针对保障基因测序数据安全的需求,本专利技术首次采用生物

计算机安全(Cyberbiosecurity)技术作为生物安全工具,将用于数据防护的数据保护程序编码为DNA序列并存入测序文件中,其可强制终止分析受保护的数据及远程保护访问设备的信息,以此保护测序文件安全。
[0006]本专利技术中,计算机程序首先可以通过DNA存储技术转码保存于核酸序列中,并在解码后实现执行计算机指令的功能;其次,存入DNA序列中的本地保护程序可实现在释放后获得计算机本地权限并中断分析从而无法读取真实数据;再次,还可以在受保护文件解码完成后获取未授权设备的控制权并追踪访问设备信息。本专利技术具有较强的可行性,适用于二代Illumina平台和三代Nanopore平台等测序数据。本专利技术提出基于DNA存储的计算机数据保护系统有望应用于保护敏感基因测序数据及其相关信息,并进一步广泛应用于DNA存储、生物安全及国防建设等领域。
[0007]本专利技术提供一种利用计算机安全技术进行基因数据保护的方法,其包括如下步骤:通过DNA存储技术将隐私保护代码转码并插入保存于受保护的核酸序列的保护文件中;在解码后实现执行计算机指令的功能;在未授权情况下,对于存入DNA序列中的本地保护程序可实现在释放后获得计算机本地权限并中断当前进程从而无法读取真实数据;远程保护程序可在受保护文件解码完成后获取未授权设备的控制权并追踪访问设备信息。
[0008]更具体地,包括如下步骤:一、数据保护序列的设计与生成,具体包括:第一步:启动shell的C语言程序;第二步:将C语言程序转换为汇编语言;第三步:转换为十六进制,并插入TAG;第四步:转化为二进制序列,并进行加密处理;第五步:转换为DNA序列。
[0009]二、数据保护序列的存储:将所述这DNA序列保存于生物体内,例如插入有需要保密基因序列的质粒、载体中;或者将该段DNA序列插入需保护的测序文件中;或者存储于有需要保密的基因数据的基因数据库中;三、数据保护序列的释放与执行,包括:如果非授权数据使用方获取了上述DNA序列,获取含有所述DNA序列的质粒或载
体,通过测序得到fastq文件后, 使用生物信息软件对测序文件进行分析,软件运行中启动fastq文件中DNA形式的程序,中止分析过程;如果非授权数据使用方获取了上述DNA序列,读取了基因数据库中所述DNA序列,通过读取数据得到fastq文件后, 使用生物信息软件对测序文件进行分析,软件运行中启动fastq文件中DNA形式的程序,中止分析过程,从而阻止访问设备读取真实数据;或者更进一步地,远程保护程序在受保护文件解码完成后获取访问设备的控制权并追踪到其信息;如果是授权数据使用方,授权方输入密钥,使软件可以正常运行。
[0010]在一个具体实施方式中,所述远程保护程序中,如果是未经授权者获取了测序文件,在其将测序文件使用计算机软件进行生物信息学分析,则特定DNA序列解码为计算机可执行代码;执行稳私保护操作,例如隐私保护程序利用计算机软件的栈溢出漏洞对未授权者的计算机发起特定指令以保护测序文件。
[0011]进一步地,在测试过程中,执行隐私保护任务关闭Lin本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用计算机安全技术进行基因数据保护的方法,其包括如下步骤:通过DNA存储技术将隐私保护代码转码并插入保存于受保护的核酸序列的保护文件或基因载体如质粒中;在解码后实现执行计算机指令的功能;在未授权情况下,对于存入DNA序列中的本地保护程序可实现在释放后获得计算机本地权限并中断当前进程从而无法读取真实数据,远程保护程序可在受保护文件解码完成后获取未授权设备的控制权并追踪访问设备信息。2.如权利要求1所述的方法,其特征在于,包括如下步骤:一、数据保护序列的设计与生成,具体包括:第一步:启动shell的C语言程序;第二步:将C语言程序转换为汇编语言;第三步:转换为十六进制,并插入TAG;第四步:转化为二进制序列,并进行加密处理;第五步: 转换为DNA序列;二、数据保护序列的存储:将所述这DNA序列保存于生物体内,例如插入有需要保密基因序列的质粒、载体中;或者将该段DNA序列插入需保护的测序文件中;或者存储于有需要保密的基因数据的基因数据库中;三、数据保护序列的释放与执行,包括:如果是授权数据使用方,授权方输入密钥,使软件可以正常运行;如果非授权数据使用方获取了上述存储的DNA序列,获取含有所述DNA序列的质粒或载体,通过测序得到fastq文件后, 使用生物信息软件对测序文件进行分析,软件运行中启动fastq文件中DNA形式的程序,中止分析过程;如果非授权数据使用方获取了上述DNA序列,读取了基因数据库中所述DNA序列,通过读取数据得到fastq文件后, 使用生物信息软件对测序文件进行分析,软件运行中启动fastq文件中DNA形式的程序,中止分析过程,从而阻止访问设备读取真实数据;更进一步地,提供远程保护方法,即通过远程保护程序在受保护文件解码完成后获取访问设备的控制权并追踪到其信息;优选地,在远程保护方法中,C语言格式的数据保护程序借助netcat网络工具通过TCP 和UDP协议在网络中读写数据,完成对非授权用户的远程保护。3.如权利要求2所述的方法,其特征在于,包括如下步骤:在远程保护方法中,如果是未经授权者获取了测序文件,在其将测序文件使用计算机软件进行生物信息学分析,则特定DNA序列解码为隐私保护代码的计算机可执行程序;执行稳私保护操作,例如隐私保护程序利用计算机软件的栈溢出漏洞对未授权者的计算机发起特定指令以保护测序文件。4.如权利要求3所述的方法,其特征在于,在测试过程中,执行隐私保护任务关闭Linux系统的地址保护、栈保护和栈不可执行等程序。5.如权利要求1所述的方法,其特征在于,所述C语言使用gdb程序调试工具获取汇编代码,汇编代码使用objdump工具转为十六进制机器码;更具体方法如下述:首先使用gdb程序调试工具将C语言程序转换为汇编代码,其次利用objdump汇编工具将汇编代码转换为十六进制机器码,进而通过进制转换为二进制代码,
最后采用DNA存储编码将二进制机器码编码为DNA序列,DNA序列以FASTQ格式进行储存;更具体实施过程如下,第一步先编写隐私保护代码的C语言程序,之后通过C语言代码获取该程序的汇编代码;第二步使用编译工具对汇编代码进行编译,获得十六进制表示的机器码,生成的十六进制机器码中不应出现“x00”,并增加TAG;第三步将隐私保护代码的十六进制机器码转为二进制编码;第四步将二进制序列按字节分组,每个字节的前四位取反,后四位不变;第五步再使用A、T、G和C将二进制数替换为DNA序列,其中A、T、G、C与二进制数的编码关系为A(00)、T(10)、C(01)、G(11);所述将该段DNA序列插入需保护的测序文件中是采取DNA序列以FASTQ格式进行储存。6.如权利要求1所述的方法,其特征在于,所述数据保护序列的释放与执行,具体是获得包含特定DNA序列的文件后,未经授权者使用DNA处理流程中的某一包含漏...

【专利技术属性】
技术研发人员:滕越刘拓宇
申请(专利权)人:中国人民解放军军事科学院军事医学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1