基因组数据的重新识别的前摄抗性制造技术

技术编号:24950003 阅读:29 留言:0更新日期:2020-07-18 00:06
一种用于评估与来自调查者的请求相关联的风险的方法(100),所述请求是针对来自基因数据的数据库(242)的等位基因频率的,所述方法包括:(i)生成(120)等位基因数据库(280),其包括针对多个等位基因中每个的等位基因频率信息和请求频率信息;(ii)生成(130)调查者数据库(290),其包括关于多个调查者的等位基因请求信息;(iii)接收(140)来自调查者的针对基因数据的请求,包括针对一个或多个等位基因的等位基因频率的请求和所述调查者的标识符;(iv)基于接收到的请求来更新(150)请求频率信息;(v)更新(160)针对请求调查者的等位基因请求信息;(vi)计算(170)等位基因风险评分;(vii)计算(180)调查者风险评分;并且(viii)基于所述等位基因风险评分和所述调查者风险评分来评估(190)与接收到的请求相关联的风险。

【技术实现步骤摘要】
【国外来华专利技术】基因组数据的重新识别的前摄抗性
本公开总体上涉及用于评估与对来自基因序列的数据库的信息的请求相关联的风险的方法和系统。
技术介绍
通过共享和比较数百万个体的基因型,临床医师和研究人员可以更好地预测基因变体的临床影响,在罕见病例之间实现链接,更好地理解基因型-表现型相关性,并且开发新颖处置。因此,存在使能共享基因组和临床数据的解决方案。来自全球基因组学与健康联盟的灯塔项目是这样的解决方案的仅一个范例。该项目允许研究人员针对关于特定等位基因的信息查询基因序列的数据库。这通过防止提供基因序列的个体的重新识别来减轻风险,但是解决方案也可以任选地公开与查询的等位基因相关联的额外的元数据,诸如等位基因频率、致病性评分、以及相关联的表现型、以及其他数据。尽管罕见等位基因常常证明对于研究人员而言是特别感兴趣的,但是这些罕见等位基因还增加了重新识别的概率或简易性。因此,这些数据库可能易受重新识别攻击影响,诸如属性泄露攻击和在其中攻击者查询大量变体的攻击。属性泄露攻击是攻击者试图确定关于个体的敏感属性是否可以通过可从基因序列的数据库泄露的属性(诸如HIV状态和/或金属健康状态)推断的重新识别攻击,并且通常要求一些先验属性信息。查询大量变体的攻击者正试图基于基因序列的先验知识或者怀疑来确定基因序列的数据库是否包括特定基因组序列。遗憾的是,用于群体等位基因的模型可以被用于降低这样的攻击中要求的查询的数目。尽管阈值可以针对基因组序列的数据库的查询的数目来设置,但是将阈值设置太低可能使得具有先前信息的攻击者能够获得足够的基因信息,并且将阈值设置太高可能阻止有效研究人员。
技术实现思路
存在针对与基因序列的数据库的查询相关联的风险的经改进的评估的继续需要。本公开总体上涉及用于评估与针对来自基因序列的数据库的信息的请求的相关联的风险的专利技术方法和系统。本文中的各种实施例和实施方式涉及一种系统,包括:等位基因数据库,其包括针对多个等位基因中的每个的等位基因频率信息和请求频率信息;以及调查者数据库,其包括关于多个调查者的等位基因请求信息。所述系统接收来自调查者的基因数据的请求,其包括针对至少一个等位基因的等位基因频率的请求,以及所述调查者的标识符。所述系统基于接收到的请求来更新等位基因数据库和调查者数据库,并且基于经更新的等位基因数据库来计算等位基因风险评分,并且基于经更新的调查者数据库来计算调查者风险评分。所述系统然后可以基于所述等位基因评分和所述调查者风险评分来评估与接收到的请求相关联的风险。通常在一个方面中,提供了一种用于评估与针对来自基因数据的数据库的等位基因频率的来自调查者的请求相关联的风险的方法。所述方法包括以下步骤:(i)生成等位基因数据库,所述等位基因数据库包括针对多个等位基因中的每个等位基因的等位基因频率信息和请求频率信息,其中,所述等位基因频率信息是从多个基因序列提取的,并且其中,针对所述多个基因序列中的每个基因序列,所述请求频率信息包括针对关于在相应基因序列内找到的所述多个等位基因中的每个等位基因的信息的先前请求的计数;(ii)生成调查者数据库,所述调查者数据库包括关于多个调查者的等位基因请求信息,其中,所述等位基因请求信息包括关于由多个调查者中的每个调查者先前请求的等位基因频率信息的信息;(iii)接收来自调查者的针对基因数据的请求,所述请求包括针对一个或多个等位基因的等位基因频率的请求和所述调查者的标识符;(iv)在所述等位基因数据库中针对包括所述一个或多个等位基因的所述多个基因序列中的每个基因序列基于接收到的请求来更新所述请求频率信息;(v)在所述调查者数据库中基于接收到的调查者标识符来更新针对请求调查者的所述等位基因请求信息;(vi)基于经更新的等位基因数据库来计算等位基因风险评分;(vii)基于经更新的调查者数据库来计算调查者风险评分;并且(viii)基于所述等位基因风险评分和所述调查者风险评分来评估与所述接收到的请求相关联的风险。根据实施例,评估与接收到的请求相关联的风险的步骤包括以下步骤:(i)将所计算的等位基因风险评分和调查者风险评分进行加和以生成总风险评估评分;并且(ii)将所述总风险评估与预定阈值进行比较。根据实施例,所述方法还包括在与所述接收到的请求相关联的所述风险被评估为低于预定阈值的情况下允许来自所述调查者的针对基因数据的所述请求的步骤。根据实施例,所述方法还包括在与所述接收到的请求相关联的所述风险被评估为高于预定阈值的情况下拒绝来自所述调查者的针对基因数据的所述请求的步骤。根据实施例,所述方法还包括报告与所述接收到的请求相关联的所述风险的步骤。根据实施例,所述等位基因风险评分是使用以下等式计算的:其中,Ri是所述基因序列的风险水平,n是罕见等位基因的数目,F(j)是等位基因j的频率,并且指数(i,j)是针对基因序列i的等位基因j的请求的数目。根据实施例,所述调查者风险评分是使用以下等式计算的:其中,Dj是针对调查者j的风险水平,m是所述基因序列,n是罕见等位基因的数目,指数(i,j)是针对基因序列i的等位基因j的请求的数目,F(i)是等位基因i的频率,并且Rk是风险水平。根据实施例,所述方法还包括请求来自所述调查者的额外识别信息的步骤。根据一方面是一种风险评估系统,其被配置为评估与针对来自基因数据的数据库的等位基因频率的来自调查者的请求相关联的风险。所述系统包括:(i)等位基因数据库,其包括针对多个等位基因中的每个等位基因的等位基因频率信息和请求频率信息,其中,所述等位基因频率信息是从多个基因序列提取的,并且其中,针对所述多个基因序列中的每个基因序列,所述请求频率信息包括针对关于在相应基因序列内找到的所述多个等位基因中的每个等位基因的信息的先前请求的计数;(ii)调查者数据库,其包括关于多个调查者的等位基因请求信息,其中,所述等位基因请求信息包括关于由多个调查者中的每个调查者先前请求的等位基因频率信息的信息;(iii)处理器,其被配置为接收来自调查者的针对基因数据的请求,所述请求包括针对一个或多个等位基因的等位基因频率的请求和所述调查者的标识符,所述处理器包括:等位基因数据库生成器,其被配置为在所述等位基因数据库中针对包括所述一个或多个等位基因的所述多个基因序列中的每个基因序列基于接收到的请求来更新所述请求频率信息;调查者数据库生成器,其被配置为在所述调查者数据库中基于接收到的调查者标识符来更新针对请求调查者的所述等位基因请求信息;以及风险分析器生成器,其被配置为:(i)基于经更新的等位基因数据库来计算等位基因风险评分;(ii)基于经更新的调查者数据库来计算调查者风险评分;并且(ii)基于所述等位基因风险评分和所述调查者风险评分来评估与所述接收到的请求相关联的风险。。根据实施例,所述系统还包括被配置为报告所述评估风险的用户接口。在各种实施方式中,处理器或者控制器可以与一个或多个存储介质(通常地在本文中被称为“存储器”,例如易失性和非易失性计算机存储器,诸如RA本文档来自技高网
...

【技术保护点】
1.一种用于评估与针对来自基因数据的数据库(242)的等位基因频率的来自调查者的请求相关联的风险的方法(100),包括:/n生成(120)等位基因数据库(280),所述等位基因数据库包括针对多个等位基因中的每个等位基因的等位基因频率信息和请求频率信息,其中,所述等位基因频率信息是从多个基因序列提取的,并且其中,针对所述多个基因序列中的每个基因序列,所述请求频率信息包括针对关于在相应基因序列内找到的所述多个等位基因中的每个等位基因的信息的先前请求的计数;/n生成(130)调查者数据库(290),所述调查者数据库包括关于多个调查者的等位基因请求信息,其中,所述等位基因请求信息包括关于由多个调查者中的每个调查者先前请求的等位基因频率信息的信息;/n接收(140)来自调查者的针对基因数据的请求,所述请求包括针对一个或多个等位基因的等位基因频率的请求和所述调查者的标识符;/n在所述等位基因数据库中针对包括所述一个或多个等位基因的所述多个基因序列中的每个基因序列基于接收到的请求来更新(150)所述请求频率信息;/n在所述调查者数据库中基于接收到的调查者标识符来更新(160)针对请求调查者的所述等位基因请求信息;/n基于经更新的等位基因数据库来计算(170)等位基因风险评分;/n基于经更新的调查者数据库来计算(180)调查者风险评分;并且/n基于所述等位基因风险评分和所述调查者风险评分来评估(190)与所述接收到的请求相关联的风险。/n...

【技术特征摘要】
【国外来华专利技术】20180130 EP 18154200.2;20171130 CN PCT/CN2017/11381.一种用于评估与针对来自基因数据的数据库(242)的等位基因频率的来自调查者的请求相关联的风险的方法(100),包括:
生成(120)等位基因数据库(280),所述等位基因数据库包括针对多个等位基因中的每个等位基因的等位基因频率信息和请求频率信息,其中,所述等位基因频率信息是从多个基因序列提取的,并且其中,针对所述多个基因序列中的每个基因序列,所述请求频率信息包括针对关于在相应基因序列内找到的所述多个等位基因中的每个等位基因的信息的先前请求的计数;
生成(130)调查者数据库(290),所述调查者数据库包括关于多个调查者的等位基因请求信息,其中,所述等位基因请求信息包括关于由多个调查者中的每个调查者先前请求的等位基因频率信息的信息;
接收(140)来自调查者的针对基因数据的请求,所述请求包括针对一个或多个等位基因的等位基因频率的请求和所述调查者的标识符;
在所述等位基因数据库中针对包括所述一个或多个等位基因的所述多个基因序列中的每个基因序列基于接收到的请求来更新(150)所述请求频率信息;
在所述调查者数据库中基于接收到的调查者标识符来更新(160)针对请求调查者的所述等位基因请求信息;
基于经更新的等位基因数据库来计算(170)等位基因风险评分;
基于经更新的调查者数据库来计算(180)调查者风险评分;并且
基于所述等位基因风险评分和所述调查者风险评分来评估(190)与所述接收到的请求相关联的风险。


2.根据权利要求1所述的方法,其中,评估与所述接收到的请求相关联的风险的步骤包括以下步骤:
将所计算的等位基因风险评分和调查者风险评分进行加和以生成总风险评估评分;并且
将所述总风险评估评分与预定阈值进行比较。


3.根据权利要求1所述的方法,还包括在与所述接收到的请求相关联的所述风险被评估为低于预定阈值的情况下允许(192)来自所述调查者的针对基因数据的所述请求的步骤。


4.根据权利要求1所述的方法,还包括在与所述接收到的请求相关联的所述风险被评估为高于预定阈值的情况下拒绝(192)来自所述调查者的针对基因数据的所述请求的步骤。


5.根据权利要求1所述的方法,还包括报告(194)与所述接收到的请求相关联的所述风险的步骤。


6.根据权利要求1所述的方法,其中,所述等位基因风险评分是使用以下等式来计算的:



其中,Ri是所述基因序列的风险水平,n是罕见等位基因的数目,F(j)是等位基因j的频率,并且指数(i,j)是针对基因序列i的等位基因j的请求的数目。


7.根据权利要求1所述的方法,其中,所述调查者风险评分是使用以下等式来计算的:



其中,Dj是针对调查者j的风险水平,...

【专利技术属性】
技术研发人员:屈劲夏伏彪毛勇A·R·曼科维赫R·J·克拉辛斯基
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1