一种基于同态加密的隐私基因序列距离矩阵计算方法技术

技术编号:34775819 阅读:8 留言:0更新日期:2022-08-31 19:47
本发明专利技术提供一种基于同态加密的隐私基因序列距离矩阵计算方法,包括重复的编码:密钥生成和碱基加密、密文运算、密文解密、统计距离等步骤,直到计算出参与方之间所有基因序列的距离分数;进一步计算基因序列组的距离矩阵以及最终生成进化树。本发明专利技术使用高效的半同态加密算法Paillier,实现安全求解两方基因序列之间的距离矩阵,并以此进行进化树分析。并以此进行进化树分析。并以此进行进化树分析。

【技术实现步骤摘要】
一种基于同态加密的隐私基因序列距离矩阵计算方法


[0001]本专利技术涉及基于同态加密的隐私基因序列距离矩阵计算方法领域。

技术介绍

[0002]进化树:是一种利用树状分支图形来表示各物种或基因间的亲缘关系。
[0003]进化树分析:是用来研究物种或序列进化和系统分类的一种方法。一般研究对象是碱基序列或氨基酸序列,通过数理统计算法来计算生物间进化关系。
[0004]构建进化树通常分为如下阶段:
[0005](1)基因对齐:常见的算法有Needleman

Wunsch算法。
[0006](2)距离矩阵计算:用来分析一对基因序列之间的进化距离,常见的算法有p

distance,Jukes

Cantor distance等。
[0007](3)基于距离矩阵,构建进化树,常见的算法有NJ。
[0008]进化树分析除了学术研究之外,对我们的日常生活也有重大指导意义,如新冠病毒的基因组演化分析:由于新冠病毒毒性大,隐密性、变异性强,扩散快,稍有松懈便可酿成大患,后疫情时代,新型冠状病毒基因组演化分析,为全面评估疫情风险、启动公共卫生应对措施及制定医疗对策提供全面、有效的数据支撑。
[0009]隐私计算是指一种在不泄露原始数据的前提下,对数据进行分析处理验证等计算的一类技术。隐私计算范围也包括数据的生产、存储、计算、应用等信息处理流程的全过程。
[0010]隐私计算的意义在于可全面打通各数据源之间的数据孤岛,突破数据分析门槛,提升数据利用率,促进多中心合作共享及成果转化。
[0011]隐私计算常用技术种类包括但不限于联邦学习(Federated Learning,FL)、可信计算环境(Trusted Execution Environment,TEE)、安全多方计算(SecureMultiparty Computation,MPC)、同态加密(Homomorphic Encryption,HE)等技术。
[0012]同态加密是一种可以直接对密文进行计算,其解密结果与明文进行同样的计算结果相同的一种加密算法。
[0013]同态加密又主要分为全同态加密,半同态加密和有限级数的全同态加密。
[0014](1)全同态加密
[0015]全同态加密是一种对密文可以进行任意计算(分为算术上的加法,乘法,或者逻辑比特位上的异或与AND)的一种同态加密算法。
[0016](2)半同态加密,有限级数的全同态加密
[0017]目前,由于全同态加密在应用上往往存在效率和存储上的限制,应用更加广泛的是半同态加密,或者有限级数的全同态加密。其中半同态加密算法只支持密文加法或者乘法的同态运算,而有限级数的全同态加密则支持加法同态及有限层数的乘法同态运算。
[0018]基因序列分析,在医疗保健,生物医学,生物身份认证等方面具有巨大的商业应用价值。另一方面,近年来,随着基因测序、分析方面技术飞速发展,越来越多的个人的基因数据被拿来做基因研究,疾病针对性治疗等用途,如 Genome

Wide Association Studies
(GWAS)、Personal Genome Project(PGP)、 HapMap等基因工程。
[0019]基因工程往往非常庞大,且基因数据也占用非常大的存储,一般企业,医疗机构等都难以独立去做基因分析,往往需要多企业、多机构合作,进行数据共享,外包存储计算等。
[0020]因此这些工程一方面虽然促进了基因分析上技术的进步,但也使得大量个人基因数据被分发、共享、泄露。而基因数据属于个人极其敏感的信息,一旦泄露,可能造成人生安全等严重后果。
[0021]近几年,各国逐渐重视个人信息隐私,尤其随着GDPR,CCPA,《中华人民共和国个人信息保护法》等法律法规的发布,各企业和个人在收集使用数据的同时,同时也有了保护数据的义务。这也就意味着敏感的个人基因数据不能再也不能像之前一样被随意共享,需要受严格管控。
[0022]另一方面,隐私计算这几年也在飞速发展中,各项技术逐渐由学术研究拓展到了实际应用中,如可信执行环境TEE,同态加密HE,多方计算MPC,联邦学习等等。
[0023]其中同态加密可以在不泄露明文数据的情况下,直接对密文进行计算分析,是隐私计算技术的一个重要分支。尽管早期的同态加密算法,尤其是全同态加密,效率很低,占用存储很大。但是近年来,随着学术研究的深入,全同态加密的计算效率不断提升,也扩大了其商业应用场景,不少云厂商都开始提供全同态加密服务。其在金融,医疗,大数据等方向也都有了应用场景。
[0024]因此,为了保护用户的敏感基因数据,同时又能继续进行基因数据分析,使用同态加密,逐渐成为一个可行的解决方案。比如参考资料[1]中,使用全同态加密技术实现了隐私基因序列搜索。参考资料[2]则通过同态加密计算汉明距离来实现基因序列对齐工作。
[0025]目前,参考资料[1]和参考资料[2]等研究通过全同态加密来做基因序列对齐,基因搜索等基因分析工作。这些方法尚无法利用同态加密技术计算距离矩阵来做进化树分析的研究,且这类研究采用的是全同态加密算法,效率上来说没有半同态Paillier算法高效。另外还有参考资料[3]中利用全同态加密来计算基因向量之间的汉明距离以用来做生物认证。这类通过同态加密计算汉明距离的研究和我们要做的分析计算工作有些类似,但其编码方式为二进制,而二进制并不满足多个常见碱基(ACGT)及其他异常碱基的编码,无法直接用来计算距离矩阵,且同样利用全同态加密,效率低下。

技术实现思路

[0026]本专利技术的目的是提供一种基于同态加密的隐私基因序列距离矩阵计算方法,该方法使用高效的半同态加密算法Paillier,实现安全求解两方基因序列之间的距离矩阵,并以此进行进化树分析。
[0027]本专利技术为实现以上技术要求而采用的技术方案是:一种基于同态加密的隐私基因序列距离矩阵计算方法,包括以下步骤:
[0028]步骤1、编码:将A、B双方需要做比较的碱基编码成整数;
[0029]步骤2、密钥生成和碱基加密:其中A方生成同态加密公、私钥,并将本地基因序列编码后整数做同态加密,同时将密文和公钥发给B方;
[0030]步骤3、密文运算:B方通过同态加密对同位置碱基密文进行隐私求相等协议中的密文计算,生成计算后的密文,并发送给A方;
[0031]步骤4、密文解密:A方将B方发回的密文解密;
[0032]步骤5、统计距离:统计时,若在同位置A方,B方的碱基相同,解密结果为一固定常数;若同位置A方,B方的碱基不相同,那么解密结果不等于这个固定常数,且大小在一定范围内;
[0033]步骤6、重复上述步骤,直到计算出参与方之间所有基因序列的距离分数;进一步计算基因序列组的距离矩阵以及最终生成进化树。
[0034]进一步的,上述的基于同态加密的隐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于同态加密的隐私基因序列距离矩阵计算方法,其特征在于:包括以下步骤:步骤1、编码:将A、B双方需要做比较的碱基编码成整数;步骤2、密钥生成和碱基加密:其中A方生成同态加密公、私钥,并将本地基因序列编码后整数做同态加密,同时将密文和公钥发给B方;步骤3、密文运算:B方通过同态加密对同位置碱基密文进行隐私求相等协议中的密文计算,生成计算后的密文,并发送给A方;步骤4、密文解密:A方将B方发回的密文解密;步骤5、统计距离:统计时,若在同位置A方,B方的碱基相同,解密结果为一固定常数;若同位置A方,B方的碱基不相同,那么解密结果不等于这个固定常数,且大小在一定范围内;步骤6、重复上述步骤,直到计算出参与方之间所有基因序列的距离分数;进一步计算基因序列组的距离矩阵以及最终生成进化树。2.根据权利要求1所述的基于同态加密的隐私基因序列距离矩阵计算方法,其特征在于:步骤1中碱基编码成整数,编码规则如下:步骤1

1、4大碱基,编码如下:A:1C:2G:3T:4;步骤1

2、碱基缺省值编码,缺省值N,n,

:1000;步骤1

3、其他异常值:与字母A的距离+4;A方本地某条基因序列X编码为(x1,x2,

,xn),B方本地基因序列Y编码为(y1,y2,

,yn)。3.根据权利要求1所述的基于同态加密的隐私基因序列距离矩阵计算方法,其特征在于:步骤2中A...

【专利技术属性】
技术研发人员:谈扬
申请(专利权)人:深圳前海新心数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1