当前位置: 首页 > 专利查询>中南大学专利>正文

基于隐私保护的基因相似度计算方法及基因信息获取方法技术

技术编号:25274058 阅读:109 留言:0更新日期:2020-08-14 23:06
本发明专利技术公开了一种基于隐私保护的基因相似度计算方法,包括数据库端和用户端分别进行初始化;用户端和数据库端对各自的基因序列进行字符填充;用户端得到用户基因移动序列;数据库端得到存储基因移动序列;用户端得到用户基因移动序列向量;数据库端得到存储基因移动序列向量;用户端对用户基因移动序列向量加密并发送数据库端;数据库端解密并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度并得到最终的基因相似度计算结果。本发明专利技术还公开了包括所述基于隐私保护的基因相似度计算方法的基因信息获取方法。本发明专利技术实现了对用户基因序列与数据库中基因序列的相似度计算、比对和保密传输,而且可靠性高、实用性、保密性和准确性好。

【技术实现步骤摘要】
基于隐私保护的基因相似度计算方法及基因信息获取方法
本专利技术属于生物信息
,具体涉及一种基于隐私保护的基因相似度计算方法及基因信息获取方法。
技术介绍
人类的全部生物信息可以由基因数据反映出来,并存储在人类的脱氧核糖核酸(deoxyribonucleicacid,简称DNA)序列之中。生物的遗传和变异都与DNA密切相关。如今基因测序技术飞速发展,基因测序的成本正在逐渐降低;基因数据在很多领域有着广泛的应用。在医学上,为了给病人提供最佳的治疗方案,医生需要将病人的DNA与远程基因组数据库进行比对。数据库中存储个体基因组序列,每个序列都标有此人的医疗状况(MedicalConditions)。医生需要在数据库中找到与病人基因组序列最相似的少数个体,并了解这些个体的医疗状况。这种在数据库中的查询称为相似病人查询(SimilarPatientQueries,简称SPQ)。SPQ有利于确定疾病背后的基因突变,也有利于避免无法治愈疾病的痛苦治疗方案,提供更准确的疾病预测和指导。人类有99.9%以上的DNA是相同的,剩下部分由于遗传变异而不同。最常见的变异只涉及单个核苷酸,这种变异称为单核苷酸多态性(singlenucleotidepolymorphism,简称SNP)。在基因组序列中只需30~80个独立的SNP位点就可以唯一重识别个体,并含有该个体的隐私敏感信息,例如,载脂蛋白E(apolipoproteinE)基因的两个SNP(rs429358和rs7412)会增加患阿尔茨海默病(Alzheimer’sdisease)的风险。现阶段,信息技术快速发展,医生能够较为轻松的将病人的基因组数据与远程数据库中的若干个体基因组数据进行比对,从而获取相应的相似基因组的相关数据。但是,随着信息技术的发展,病人基因组数据的发送和接收,以及数据库中基因组数据的传输等过程,极易受到攻击,从而导致数据的泄露,紧接着可能会造成严重的隐私泄露,并给社会带来重要的影响。为了安全地使用数据库中的人类基因数据,需要隐私保护技术保证基因数据的隐私性。目前主要有三种保护基因隐私的思路:基于加密算法的方法、基于差分隐私的方法和基于安全计算协议的方法。为了解决微生物测序的隐私问题,Wagner等人使用安全计算实现宏基因组分析。Baldi等人提出的PSI协议和Brudno等人提出的PSIS协议是基于海明距离(hammingdistance)近似计算基因数据的相似性。虽然保护了基因数据的隐私性,但只能处理较短的基因组片段。Wang等人通过基因编辑距离(editdistance)近似算法和PrivateSetDifferenceSize协议提出了隐私编辑距离协议。但在一些情况下的计算结果并不理想,因为序列的字符排列方式会影响到单字符编辑操作(single-characteredits)集合的计算结果,使得相似度计算的偏差,从而导致相似病人查询结果不准确。
技术实现思路
本专利技术的目的之一在于提供一种可靠性高、实用性好、保密性好且准确性好的基于隐私保护的基因相似度计算方法。本专利技术的目的之二在于提供一种包括了所述基于隐私保护的基因相似度计算方法的基因信息获取方法。本专利技术提供的这种基于隐私保护的基因相似度计算方法,包括如下步骤:S1.数据库端和用户端分别进行初始化;S2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;S3.用户端对用户基因序列进行移动划分,从而得到用户基因移动序列;S4.数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列;S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;S6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;S7.数据库端对接收的步骤S6发送的数据进行解密,并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果。步骤S1所述的数据库端和用户端分别进行初始化,具体为数据库端初始化划分窗口值b;用户端初始化公钥pk和私钥sk。步骤S2所述的用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充,具体为用户端对用户基因序列Q进行字符填充,数据库端对数据库存储的存储基因序列S进行字符填充,且填充字符的个数均为为向上取整函数;b为划分窗口值。步骤S3所述的用户端对用户基因序列进行移动划分,从而得到用户基因移动序列,具体为用户端对用户基因序列Q进行一次移动划分,从而得到用户基因移动序列步骤S4所述的数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列,具体为数据库端对存储基因序列S进行b次移动划分,从而得到存储基因移动序列其中b为划分窗口值。步骤S4所述的数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列,具体为采用如下步骤进行划分:A.初始化序列参数n=1;B.初始化循环参数t=1;C.将划分窗口移动到距离序列Sn首字符t-1的位置;D.移动划分序列Sn得到其中的元素个数为l,且l≤b;Sn的元素个数为L,且满足b为划分窗口值;E.根据步骤C的结果,得到序列F.将循环参数t增加1,并重复步骤C~步骤E,直至循环参数t等于b;其中b为划分窗口值;F.将序列参数n增加1,并重复步骤B~步骤F,直至序列参数n等于k;其中k为存储基因序列的元素个数。步骤S5所述的用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量,具体为采用如下步骤得到用户基因移动序列向量和存储基因移动序列向量:a.设定集合M={m1,m2,...,mL},且满足用户基因移动序列和其中为序列中的元素,且i∈[1,k],t=1,2,...,b;b.采用如下规则,用户端构建得到用户基因移动序列向量数据库端构建得到存储基因移动序列向量其中b为划分窗口值。步骤S6所述的用户端对用户基因移动序列向量加密,具体为用户端采用公钥,利用同态加密算法对用户基因移动序列向量进行加密。步骤S7所述的计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,具体为采用如下步骤计算序列相似度:(1)将相似度值δ初始化为0;(2)初始化第二循环参数i=1;(3)初始化中间参数ω=0;(4)令第二中间参数γ=min(α,β);(5)初始化第三循环参数t=1;(6)初始化第四循环参数j=1;(7)数据库端采用如下本文档来自技高网
...

【技术保护点】
1.一种基于隐私保护的基因相似度计算方法,包括如下步骤:/nS1.数据库端和用户端分别进行初始化;/nS2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;/nS3.用户端对用户基因序列进行移动划分,从而得到用户基因移动序列;/nS4.数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列;/nS5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;/nS6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;/nS7.数据库端对接收的步骤S6发送的数据进行解密,并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果。/n

【技术特征摘要】
1.一种基于隐私保护的基因相似度计算方法,包括如下步骤:
S1.数据库端和用户端分别进行初始化;
S2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;
S3.用户端对用户基因序列进行移动划分,从而得到用户基因移动序列;
S4.数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列;
S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;
S6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;
S7.数据库端对接收的步骤S6发送的数据进行解密,并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果。


2.根据权利要求1所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S1所述的数据库端和用户端分别进行初始化,具体为数据库端初始化划分窗口值b;用户端初始化公钥pk和私钥sk。


3.根据权利要求2所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S2所述的用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充,具体为用户端对用户基因序列Q进行字符填充,数据库端对数据库存储的存储基因序列S进行字符填充,且填充字符的个数均为为向上取整函数;b为划分窗口值。


4.根据权利要求3所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S3所述的用户端对用户基因序列进行移动划分,从而得到用户基因移动序列,具体为用户端对用户基因序列Q进行一次移动划分,从而得到用户基因移动序列


5.根据权利要求4所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S4所述的数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列,具体为数据库端对存储基因序列S进行b次移动划分,从而得到存储基因移动序列其中b为划分窗口值。


6.根据权利要求5所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S4所述的数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列,具体为采用如下步骤进行划分:
A.初始化序列参数n=1;
B.初始化循环参数t=1;
C.将划分窗口移动到距离序列Sn首字符t-1的位置;
D.移动划分序列Sn得到其中的元素个数为l,且l≤b;Sn的元素个数为L,且满足b为划分窗口值;
E.根据步骤C的结果,得到序列
F.将循环参数t增加1,并重复步骤C~步骤E,直至循环参数t等于b;其中b为划分窗口值;
F.将序列参数n增加1,并重复步骤B~步骤F,...

【专利技术属性】
技术研发人员:汪洁张由甲
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1