本技术公开了一种复合码伴随寻址编码的DNA存储方法,将由多个伪随机子码构造的复合码作为地址序列,与纠错编码的数据比特序列伴随编码并映射,组合得到长的DNA片段或短寡核苷酸分子;读出时,长片段DNA随机打断或寡核苷酸池通过二代高通量测序技术读取,并解映射为两层比特序列,然后利用多个伪随机子码与受损复合码进行子码周期的滑动相关捕获,根据中国剩余定理解算确定唯一地址,最后对受损数据序列进行共识与译码。本发明所提出方法主要解决二代测序长片段DNA随机打断成短片段寻址难度大、组装复杂度高以及DNA断裂问题,支持长片段DNA鸟枪法测序的任意截取短片段的快速寻址识别,也适合短片段的鲁棒寻址,容忍片段部分缺失,尤其是序列首尾缺失。
背景技术
信息化技术的快速发展加快了数据的产生。据国际数据公司(IDC)预测,2025年全球数据总量将达到175ZB。步入数字经济时代,数据作为新型生产要素,在社会生产活动中发挥着越来越重要的作用。根据2021年美国半导体行业协会(SIA)与半导体研究公司(SRC)发布的《半导体十年计划》,所有存储数据中的60%以上将变为不需要经常访问的冷数据。根据Horizons公司发布的报告,数据的价值具有随着时间增长价值又重新变得重要的特点。随着基于大数据的人工智能技术的发展,数据长期存储的价值不断凸显。数据长期存储带来了海量数据长期存储需求。然而,现有的基于磁、光、电的数据存储方式的使用寿命一般不超过几十年,维护成本较高,密度提升困难,难以满足爆发式增长的数据存储的需求。
DNA数据存储以脱氧核糖核酸(DNA)作为一种新型数据存储介质,具有存储密度高、可用时间久、维护成本低等核心优势,是非常有潜力的海量数据长期稳定存储新模式,特别是在归档数据长期存储中应用前景广泛。根据美国国家标准与技术研究院(NIST)和SRC发布的《半导体合成生物学路线图》,与目前存储密度最高的大容量磁带相比,DNA数据存储方式约有7个数量级的提升;根据美国情报高级研究计划局(IARPA)预测,EB级数据中心采用DNA存储有望将功耗从200MW降低至200KW。同时,DNA数据存储能够实现离线存储,安全性高,易于备份储存,有望成为未来海量归档数据长期稳定存储的潜在方案。DNA数据存储是一项非常前沿的新兴技术。2023年,英国国家科研与创新署将DNA数据存储列为未来极具潜力的50项新兴技术,是“人工智能、数字和计算技术”方向的8项技术之一。2023年,电气与电子工程师协会(IEEE)发布的《国际器件与系统路线图》等都将DNA存储作为未来海量数据的主要存储介质之一。
近年来,围绕DNA数据存储的概念验证研究已经取得一系列突破性进展。目前主流的DNA数据存储模式主要包括短片段DNA存储模式、长片段DNA存储模式。短片段DNA存储模式利用由大量短链DNA分子(一般为100~300碱基)构成的寡核苷酸池存储数据,通常借助二代高通量测序实现读出。长片段DNA存储模式的数据读出可借助类似基因组测序技术实现,包括二代高通量测序、三代纳米孔测序。
不管哪种模式,DNA数据存储都采用将信息分散到大量短的DNA片段进行存储,恢复所有片段的正确顺序是数据可靠恢复的关键。因此,如何实现DNA存储数据的高效寻址与快速读出仍然是DNA数据存储亟需解决的关键技术难题。
针对长片段DNA数据存储模式,若采用二代高通量测序读出,与基因组测序类似,通常将富集后的DNA借助“鸟枪法”测序随机打断成大量的短片段,并通过从头组装策略实现原始数据序列的重构。然而,鸟枪法测序的打断位置以及产生的短DNA片段长度具有随机性,导致寻址困难,需采用复杂的基于重叠关系的图方法。为提高从头组装过程中重叠群的准确定位,并尽可能地避免缺口,数据恢复所需的测序覆盖度通常较高。目前二代测序短片段组装的软件主要基于德布莱英图(de Bruijin graph)算法,而高测序覆盖度将导致图构建过程中的k-mer节点数量增多,计算复杂度进一步增加。研究者分别采用基于德布莱英图的组装软件Velvet与AbySS实现对二代测序读段的从头组装,并在引导序列辅助下借助序列比对算法恢复有效负载数据,采用这两种组装软件实现数据无错恢复所需的测序覆盖度均超过20×。研究者采用组装所需的最小测序覆盖度(通常至少需要不低于20×)对长片段数据DNA进行从头组装恢复。研究者采用基于图的短序列组装软件SOAPdenovo2进行从头组装,并结合重叠群比对、共识实现数据序列重构,但处理复杂度非常高。
针对短片段DNA数据存储模式,也即规则分割的短片段DNA寡核苷酸存储模式,大量的寡核苷酸分子具有无序特性,读出时的顺序具有随机性。因此,一般需要为每条寡核苷酸分子附加额外的一小段碱基序列作为唯一标号(index),用于识别分子承载的数据在整个数据中的位置。同时,在实际DNA储存与读取过程中,DNA分子存在降解从而造成质量下降的风险,且在水溶液中极易发生水解,导致DNA链断裂经常发生,从而对DNA数据存储的可靠性构成威胁。针对DNA链断裂问题,研究者提出基于德布莱英图理论的序列重建与纠错算法,并通过样本断裂、降解的加速老化实验验证了数据恢复的高鲁棒性。但基于德布莱英图的序列重构算法普遍依赖于高测序覆盖度,计算复杂度较高,难以适应数据快速读出的需求。
实现思路