当前位置: 首页 > 专利查询>大连大学专利>正文

基于非冗余德布鲁因图的DNA存储数据重建方法及系统技术方案

技术编号:43012353 阅读:18 留言:0更新日期:2024-10-18 17:17
本发明专利技术公开了基于非冗余德布鲁因图的DNA存储数据重建方法及系统,涉及DNA存储技术领域;包括将莱文斯坦距离小于等于设定阈值的DNA序列划分到同一个聚类子图;将DNA序列之间具有最小莱文斯坦距离的节点连边,度数最大的节点代表该聚类子图中的骨干序列;将骨干序列作为测序数据对齐的模板序列,构造束搜索图;根据束搜索算法进行错误纠正和筛选最佳优选路径,得到共识序列;构造非冗余德布鲁因图;删除权值低于设定阈值的边所连接的节点;根据非冗余德布鲁因图中节点信息以及共识序列进行路径选择;路径选择后的序列即为重建后的序列。本发明专利技术能够在保持数据完整性的同时,尽可能减小对存储密度的影响,从而实现更为高效和可靠的DNA数据存储。

【技术实现步骤摘要】

本专利技术涉及dna存储,具体涉及基于非冗余德布鲁因图的dna存储数据重建方法及系统。


技术介绍

1、dna存储是将数据编码成dna序列,然后通过合成的方式进行数据写入,利用高通量测序技术读取dna序列,并通过解码实现数据的读取。美国哈佛大学church的研究将数据编码到dna中,探索了将整本书籍的文本信息嵌入到dna分子中的可能性,从而引领了dna存储技术的热潮。goldman等人为了存储更多数据,使用香农信息编码和文件分割技术,将数据文件转换为dna序列,并通过dna合成和测序技术精确地重构原始文件。为了表示文件的元数据,banal等人将编码得到的dna序列封装在硅胶囊内,通过特定的条形码和荧光排序技术,直接选择所需的文件集,实现对大规模分子数据集的高灵敏度和高选择性访问。

2、目前,dna存储的关键步骤是数据写入与读取。在数据写入阶段,其核心任务是将二进制数据根据高效的编码规则映射为dna序列。在数据读取阶段,通过对扩增、测序后的序列进行解码实现原始数据的完整恢复。然而,由于生物技术的固有限制,会使dna存储中发生不可避免的错误,从而导致本文档来自技高网...

【技术保护点】

1.基于非冗余德布鲁因图的DNA存储数据重建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于非冗余德布鲁因图的DNA存储数据重建方法,其特征在于,将骨干序列作为测序数据对齐的模板序列,具体为:将骨干序列中的每个碱基作为节点,相邻碱基则连接为相邻节点,权值设置为1;逐步添加最大度节点的相邻节点所代表的碱基,根据它们在骨干序列中的位置进行匹配,将匹配到的相邻节点边的权值逐步加1。

3.根据权利要求1所述基于非冗余德布鲁因图的DNA存储数据重建方法,其特征在于,其他DNA序列根据骨干序列中各碱基的相对位置构造束搜索图时存在三种可能的错误:替换错误、删除错误和...

【技术特征摘要】

1.基于非冗余德布鲁因图的dna存储数据重建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于非冗余德布鲁因图的dna存储数据重建方法,其特征在于,将骨干序列作为测序数据对齐的模板序列,具体为:将骨干序列中的每个碱基作为节点,相邻碱基则连接为相邻节点,权值设置为1;逐步添加最大度节点的相邻节点所代表的碱基,根据它们在骨干序列中的位置进行匹配,将匹配到的相邻节点边的权值逐步加1。

3.根据权利要求1所述基于非冗余德布鲁因图的dna存储数据重建方法,其特征在于,其他dna序列根据骨干序列中各碱基的相对位置构造束搜索图时存在三种可能的错误:替换错误、删除错误和插入错误;不同错误类型使用以下公式表示:

4.根据权利要求1所述基于非冗余德布鲁因图的dna存储数据重建方法,其特征在于,在束搜索算法中,从指定的起始节点开始,初始化b个空路径作为输出集y=[y1,y2,...,yb],其中yi是第i条路径,yit表示路径i中的第t个碱基;在每一步中,通过添加一个碱基扩展每条路径;对于图中的每个节点vx,得到所有其后继节点为vx的路径yb的扩展路径分数s(vx|yb)。

5.根据权利要求4所述基于非冗余德布鲁因图的dna存储数据重建方法,其特征在于,扩展路径分数s(vx|yb)的获取方式为:

6.根据权利要求1所述基于非冗余德布...

【专利技术属性】
技术研发人员:王宾赵云珠张强魏小鹏周士华吕卉满惠子蒋伟
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1