基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统制造方法及图纸

技术编号:36352899 阅读:24 留言:0更新日期:2023-01-14 18:08
本发明专利技术公开了基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统,具体来说该方案包含两个阶段:预处理阶段和查询阶段。在预处理阶段,数据提供方先将数据集中的所有基因序列根据参数分割成一系列不重复的块,并建立对应的索引,再将所有的块进行拼接形成一条代表整个数据集的“基因序列”,并进行编码,采用K

【技术实现步骤摘要】
基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统


[0001]本专利技术涉及隐私保护与安全
,尤其涉及一种基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统。

技术介绍

[0002]随着生物技术的不断发展,基因测序的成本越来越低,个体可以轻易地通过一些生物科技公司提供的测序服务来提取基因组数据上的重要片段,这一过程所产生的大量基因数据被第三方机构收集和存储起来。与此同时,关于基因组数据的研究和应用也越来越广泛,对基因数据的研究有利于提升人类医疗保健质量,促进基因数据的重复利用和二次分析,在生物医药研究和发展中扮演着关键的角色。基于基因数据的相似患者查询是近年来西方国家新兴的一个研究热点。相似患者查询是指医生通过健康交换系统查询出与自己病人有相似基因序列的其他患者的电子医疗记录,参考这些记录来为自己的病人提供更好的诊断。基因组数据包含着个人的大量隐私信息,这些隐私一旦被泄露将会对用户以后的生活造成严重的影响,这就决定了我们对基因数据进行相似患者查询时,必须提供有效的隐私保护,来防止基因数据库中患者敏感信息的泄露。
[0003]负数据库是一种新型的隐私保护方法,是信息负表示的主要模型之一。一般数据库存储的是原始数据本身,而负数据库存储的是原始数据的补集信息,以此来保护原始数据的安全。对负数据库求逆并恢复出原始数据已经被证明是NP难问题,而负数据库的生成算法已经得到了广泛的研究。负数据库由于其具有严格的形式化证明和较好的隐私保护效果,已经被应用到诸多场景中。但是目前为止,基于负数据库上的基因数据隐私保护还未得到有效的推广和应用。
[0004]在基因数据的相似患者查询场景中,基因序列进行相似性比较的所采用的度量指标一般为编辑距离,目前已有的研究直接将基因序列转化为负数据库,然后将数据集所转化的负数据库信息上传至服务器,最后在服务器上估算两个基因序列之间的编辑距离。当数据集较大或基因序列较长时,这种方式所带来的转化负数据库和计算负数据库上编辑距离的时间开销、服务器端的存储成本都是难以接受的。

技术实现思路

[0005]本专利技术提供了一种基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统,用以解决或者至少部分解决现有技术中的方法存在的计算代价和通信开销较大的技术问题。
[0006]为了解决上述技术问题,本专利技术第一方面提供了一种基于块状编辑距离的相似患者诊断记录的查询方法,包括:
[0007]接收用户提交的查询请求,其中,查询请求中包括预处理后的查询序列和控制参数,预处理后的查询序列通过数据提供方的预处理方法得到对应的块、索引和块负数据库
信息,控制参数用以控制返回与查询序列最相似的基因序列的数量,
[0008]计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,并根据计算出的块状编辑距离和控制参数,获取与预处理后的查询序列最相似的k条基因序列的标识符,并发送给数据提供方,将得到对应的诊断记录返回给用户,其中,块状编辑距离为查询序列和服务器中存储的基因序列之间的对应块之间的编辑距离,预先存储在服务器的基因序列通过数据提供方的预处理方法获得后上传至服务器,数据提供方的预处理方法具体包括:将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块,并为分割得到的每个块建立对应的索引,然后将所有的块进行拼接得到预处理后的基因序列,并编码为二进制形式;然后采用K

hidden算法对编码后的基因序列生成负数据库,并进行分割,得到每个索引对应的块负数据库信息,再将索引对应的块负数据库信息以及对应的索引上传至服务器进行存储。
[0009]在一种实施方式中,数据提供方的预处理方法中,将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块,并为分割得到的每个块建立对应的索引,包括:
[0010]从数据集D中选取任意一条基因序列作为参考序列r;
[0011]根据基因序列s
i
与参考序列之间的编辑矩阵(在计算两个序列之间的编辑距离时用于记录动态转移方程的状态,记作PTR)和预设分割参数,对待处理基因序列s
i
进行分割,得到一系列不重复的块,并为每个块建立索引,加入至分割集中。
[0012]在一种实施方式中,数据提供方的预处理方法中,将所有的块进行拼接得到预处理后的基因序列,并编码为二进制形式,包括:
[0013]将分割集中每一个基因序列所对应的块进行拼接,得到一个代表整个数据集的基因序列,作为预处理后的基因序列;
[0014]采用二进制字符对预处理后的基因序列的碱基进行替代,编码为二进制串。
[0015]在一种实施方式中,数据提供方的预处理方法中,采用K

hidden算法对编码后的基因序列生成负数据库,并进行分割,得到每个索引对应的块负数据库信息,包括:
[0016]采用K

hidden算法生成编码为二进制形式的基因序列的负数据库NDB
bs

[0017]根据分割集中索引所对应的原始块的长度信息,对负数据库进行分割,以获取每个索引对应的块负数据库信息,块负数据库信息表示一个块对应的负数据库信息。
[0018]在一种实施方式中,计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,通过下式实现:
[0019][0020]其中,N表示查询序列q通过数据提供方的预处理方法分割得到的总块数, NDB
q
[block
l
]和分别表示查询序列q和基因序列s
i
的第l块的负数据库信息, NDB_ED为用于估算两条基因序列在负数据库上的编辑距离的函数,为负数据库上的编辑距离估算函数,用于估算查询序列q和基因序列s
i
之间的编辑距离。
[0021]在一种实施方式中,根据计算出的块状编辑距离和控制参数,获取与预处理后的查询序列最相似的k条基因序列的标识符,并发送给数据提供方,将得到对应的诊断记录返回给用户,包括:
[0022]将计算出的块状编辑距离进行升序排序,选取前k条基因序列的标识符,发送给数
据提供方,由数据提供方根据基因序列的标识符得到对应的基因序列以及诊断记录,返回给服务器;
[0023]将得到的诊断记录返回给用户。
[0024]基于同样的专利技术构思,本专利技术第二方面提供了基于块状编辑距离的相似患者诊断记录的查询装置,所述装置为服务器,包括:
[0025]查询请求接收模块,用于接收用户提交的查询请求,其中,查询请求中包括预处理后的查询序列和控制参数,预处理后的查询序列通过与数据提供方相同的预处理方法得到对应的块、索引和块负数据库信息,控制参数用以控制返回与查询序列最相似的基因序列的数量;
[0026]查询模块,用于计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,并根据计算出的块状编辑距离和控制参数,获取与预处理后的查询序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于块状编辑距离的相似患者诊断记录的查询方法,其特征在于,包括:接收用户提交的查询请求,其中,查询请求中包括预处理后的查询序列和控制参数,预处理后的查询序列通过与数据提供方相同的预处理方法得到对应的块、索引和块负数据库信息,控制参数用以控制返回与查询序列最相似的基因序列的数量;计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,并根据计算出的块状编辑距离和控制参数,获取与预处理后的查询序列最相似的k条基因序列的标识符,并发送给数据提供方,将得到对应的诊断记录返回给用户,其中,块状编辑距离为查询序列和服务器中存储的基因序列之间的对应块之间的编辑距离,预先存储在服务器的基因序列通过数据提供方的预处理方法获得后上传至服务器,数据提供方的预处理方法具体包括:将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块,并为分割得到的每个块建立对应的索引,然后将所有的块进行拼接得到预处理后的基因序列,并编码为二进制形式;然后采用K

Hidden算法对编码后的基因序列生成负数据库,并进行分割,得到每个索引对应的块负数据库信息,再将索引对应的块负数据库信息以及对应的索引上传至服务器进行存储。2.如权利要求1所述的基于块状编辑距离的相似患者诊断记录的查询方法,其特征在于,数据提供方的预处理方法中,将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块,并为分割得到的每个块建立对应的索引,包括:从数据集D中选取任意一条基因序列作为参考序列r;根据基因序列s
i
与参考序列之间的编辑矩阵和预设分割参数,对待处理基因序列s
i
进行分割,得到一系列不重复的块,并为每个块建立索引,加入至分割集中。3.如权利要求2所述的基于块状编辑距离的相似患者诊断记录的查询方法,其特征在于,数据提供方的预处理方法中,将所有的块进行拼接得到预处理后的基因序列,并编码为二进制形式,包括:将分割集中每一个基因序列所对应的块进行拼接,得到一个代表整个数据集的基因序列,作为预处理后的基因序列;采用二进制字符对预处理后的基因序列的碱基进行替代,编码为二进制串。4.如权利要求2所述的基于块状编辑距离的相似患者诊断记录的查询方法,其特征在于,数据提供方的预处理方法中,采用K

hidden算法对编码后的基因序列生成负数据库,并进行分割,得到每个索引对应的块负数据库信息,包括:采用K

hidden算法生成编码为二进制形式的基因序列的负数据库NDB
bs
;根据分割集中索引所对应的原始块的长度信息,对负数据库进行分割,以获取每个索引对应的块负数据库信息,块负数据库信息表示一个块对应的负数据库信息。5.如权利要求1所述的基于块状编辑距离的相似患者诊断记录的查询方法,其特征在于,计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,通过下式实现:其中,N...

【专利技术属性】
技术研发人员:赵冬冬李凡徐虎廖虎成
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1