基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统制造方法及图纸

技术编号：36352899 阅读：24 留言：0更新日期：2023-01-14 18:08

本发明专利技术公开了基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统，具体来说该方案包含两个阶段：预处理阶段和查询阶段。在预处理阶段，数据提供方先将数据集中的所有基因序列根据参数分割成一系列不重复的块，并建立对应的索引，再将所有的块进行拼接形成一条代表整个数据集的“基因序列”，并进行编码，采用K

全部详细技术资料下载

【技术实现步骤摘要】
基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统

[0001]本专利技术涉及隐私保护与安全
，尤其涉及一种基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统。

技术介绍

[0002]随着生物技术的不断发展，基因测序的成本越来越低，个体可以轻易地通过一些生物科技公司提供的测序服务来提取基因组数据上的重要片段，这一过程所产生的大量基因数据被第三方机构收集和存储起来。与此同时，关于基因组数据的研究和应用也越来越广泛，对基因数据的研究有利于提升人类医疗保健质量，促进基因数据的重复利用和二次分析，在生物医药研究和发展中扮演着关键的角色。基于基因数据的相似患者查询是近年来西方国家新兴的一个研究热点。相似患者查询是指医生通过健康交换系统查询出与自己病人有相似基因序列的其他患者的电子医疗记录，参考这些记录来为自己的病人提供更好的诊断。基因组数据包含着个人的大量隐私信息，这些隐私一旦被泄露将会对用户以后的生活造成严重的影响，这就决定了我们对基因数据进行相似患者查询时，必须提供有效的隐私保护，来防止基因数据库中患者敏感信息的泄露。
[0003]负数据库是一种新型的隐私保护方法，是信息负表示的主要模型之一。一般数据库存储的是原始数据本身，而负数据库存储的是原始数据的补集信息，以此来保护原始数据的安全。对负数据库求逆并恢复出原始数据已经被证明是NP难问题，而负数据库的生成算法已经得到了广泛的研究。负数据库由于其具有严格的形式化证明和较好的隐私保护效果，已经被应用到诸多场景中。但是目前为止，基于负数据库上的基因数据...

【技术保护点】

【技术特征摘要】
1.基于块状编辑距离的相似患者诊断记录的查询方法，其特征在于，包括：接收用户提交的查询请求，其中，查询请求中包括预处理后的查询序列和控制参数，预处理后的查询序列通过与数据提供方相同的预处理方法得到对应的块、索引和块负数据库信息，控制参数用以控制返回与查询序列最相似的基因序列的数量；计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离，并根据计算出的块状编辑距离和控制参数，获取与预处理后的查询序列最相似的k条基因序列的标识符，并发送给数据提供方，将得到对应的诊断记录返回给用户，其中，块状编辑距离为查询序列和服务器中存储的基因序列之间的对应块之间的编辑距离，预先存储在服务器的基因序列通过数据提供方的预处理方法获得后上传至服务器，数据提供方的预处理方法具体包括：将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块，并为分割得到的每个块建立对应的索引，然后将所有的块进行拼接得到预处理后的基因序列，并编码为二进制形式；然后采用K
‑
Hidden算法对编码后的基因序列生成负数据库，并进行分割，得到每个索引对应的块负数据库信息，再将索引对应的块负数据库信息以及对应的索引上传至服务器进行存储。2.如权利要求1所述的基于块状编辑距离的相似患者诊断记录的查询方法，其特征在于，数据提供方的预处理方法中，将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块，并为分割得到的每个块建立对应的索引，包括：从数据集D中选取任意一条基因序列作为参考序列r；根据基因序列s
i
与参考序列之间的编辑矩阵和预设分割参数，对待处理基因序列s
i
进行分割，得到一系列不重复的块，并为每个块建立索引，加入至分割集中。3.如权利要求2所述的基于块状编辑距离的相似患者诊断记录的查询方法，其特征在于，数据提供方的预处理方法中，将所有的块进行拼接得到预处理后的基因序列，并编码为二进制形式，包括：将分割集中每一个基因序列所对应的块进行拼接，得到一个代表整个数据集的基因序列，作为预处理后的基因序列；采用二进制字符对预处理后的基因序列的碱基进行替代，编码为二进制串。4.如权利要求2所述的基于块状编辑距离的相似患者诊断记录的查询方法，其特征在于，数据提供方的预处理方法中，采用K
‑
hidden算法对编码后的基因序列生成负数据库，并进行分割，得到每个索引对应的块负数据库信息，包括：采用K
‑
hidden算法生成编码为二进制形式的基因序列的负数据库NDB
bs
；根据分割集中索引所对应的原始块的长度信息，对负数据库进行分割，以获取每个索引对应的块负数据库信息，块负数据库信息表示一个块对应的负数据库信息。5.如权利要求1所述的基于块状编辑距离的相似患者诊断记录的查询方法，其特征在于，计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离，通过下式实现：其中，N...

【专利技术属性】
技术研发人员：赵冬冬，李凡，徐虎，廖虎成，
申请(专利权)人：武汉理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人