一种复合码伴随寻址编码的DNA存储方法

123技术园

首页 / 技术内容

一种复合码伴随寻址编码的DNA存储方法

2025-02-28 08:07

No.1344944043565785088

技术概要

PDF全文

本技术公开了一种复合码伴随寻址编码的DNA存储方法，将由多个伪随机子码构造的复合码作为地址序列，与纠错编码的数据比特序列伴随编码并映射，组合得到长的DNA片段或短寡核苷酸分子；读出时，长片段DNA随机打断或寡核苷酸池通过二代高通量测序技术读取，并解映射为两层比特序列，然后利用多个伪随机子码与受损复合码进行子码周期的滑动相关捕获，根据中国剩余定理解算确定唯一地址，最后对受损数据序列进行共识与译码。本发明所提出方法主要解决二代测序长片段DNA随机打断成短片段寻址难度大、组装复杂度高以及DNA断裂问题，支持长片段DNA鸟枪法测序的任意截取短片段的快速寻址识别，也适合短片段的鲁棒寻址，容忍片段部分缺失，尤其是序列首尾缺失。

背景技术

信息化技术的快速发展加快了数据的产生。据国际数据公司(IDC)预测，2025年全球数据总量将达到175ZB。步入数字经济时代，数据作为新型生产要素，在社会生产活动中发挥着越来越重要的作用。根据2021年美国半导体行业协会(SIA)与半导体研究公司(SRC)发布的《半导体十年计划》，所有存储数据中的60％以上将变为不需要经常访问的冷数据。根据Horizons公司发布的报告，数据的价值具有随着时间增长价值又重新变得重要的特点。随着基于大数据的人工智能技术的发展，数据长期存储的价值不断凸显。数据长期存储带来了海量数据长期存储需求。然而，现有的基于磁、光、电的数据存储方式的使用寿命一般不超过几十年，维护成本较高，密度提升困难，难以满足爆发式增长的数据存储的需求。 DNA数据存储以脱氧核糖核酸(DNA)作为一种新型数据存储介质，具有存储密度高、可用时间久、维护成本低等核心优势，是非常有潜力的海量数据长期稳定存储新模式，特别是在归档数据长期存储中应用前景广泛。根据美国国家标准与技术研究院(NIST)和SRC发布的《半导体合成生物学路线图》，与目前存储密度最高的大容量磁带相比，DNA数据存储方式约有7个数量级的提升；根据美国情报高级研究计划局(IARPA)预测，EB级数据中心采用DNA存储有望将功耗从200MW降低至200KW。同时，DNA数据存储能够实现离线存储，安全性高，易于备份储存，有望成为未来海量归档数据长期稳定存储的潜在方案。DNA数据存储是一项非常前沿的新兴技术。2023年，英国国家科研与创新署将DNA数据存储列为未来极具潜力的50项新兴技术，是“人工智能、数字和计算技术”方向的8项技术之一。2023年，电气与电子工程师协会(IEEE)发布的《国际器件与系统路线图》等都将DNA存储作为未来海量数据的主要存储介质之一。近年来，围绕DNA数据存储的概念验证研究已经取得一系列突破性进展。目前主流的DNA数据存储模式主要包括短片段DNA存储模式、长片段DNA存储模式。短片段DNA存储模式利用由大量短链DNA分子(一般为100～300碱基)构成的寡核苷酸池存储数据，通常借助二代高通量测序实现读出。长片段DNA存储模式的数据读出可借助类似基因组测序技术实现，包括二代高通量测序、三代纳米孔测序。不管哪种模式，DNA数据存储都采用将信息分散到大量短的DNA片段进行存储，恢复所有片段的正确顺序是数据可靠恢复的关键。因此，如何实现DNA存储数据的高效寻址与快速读出仍然是DNA数据存储亟需解决的关键技术难题。针对长片段DNA数据存储模式，若采用二代高通量测序读出，与基因组测序类似，通常将富集后的DNA借助“鸟枪法”测序随机打断成大量的短片段，并通过从头组装策略实现原始数据序列的重构。然而，鸟枪法测序的打断位置以及产生的短DNA片段长度具有随机性，导致寻址困难，需采用复杂的基于重叠关系的图方法。为提高从头组装过程中重叠群的准确定位，并尽可能地避免缺口，数据恢复所需的测序覆盖度通常较高。目前二代测序短片段组装的软件主要基于德布莱英图(de Bruijin graph)算法，而高测序覆盖度将导致图构建过程中的k-mer节点数量增多，计算复杂度进一步增加。研究者分别采用基于德布莱英图的组装软件Velvet与AbySS实现对二代测序读段的从头组装，并在引导序列辅助下借助序列比对算法恢复有效负载数据，采用这两种组装软件实现数据无错恢复所需的测序覆盖度均超过20×。研究者采用组装所需的最小测序覆盖度(通常至少需要不低于20×)对长片段数据DNA进行从头组装恢复。研究者采用基于图的短序列组装软件SOAPdenovo2进行从头组装，并结合重叠群比对、共识实现数据序列重构，但处理复杂度非常高。针对短片段DNA数据存储模式，也即规则分割的短片段DNA寡核苷酸存储模式，大量的寡核苷酸分子具有无序特性，读出时的顺序具有随机性。因此，一般需要为每条寡核苷酸分子附加额外的一小段碱基序列作为唯一标号(index)，用于识别分子承载的数据在整个数据中的位置。同时，在实际DNA储存与读取过程中，DNA分子存在降解从而造成质量下降的风险，且在水溶液中极易发生水解，导致DNA链断裂经常发生，从而对DNA数据存储的可靠性构成威胁。针对DNA链断裂问题，研究者提出基于德布莱英图理论的序列重建与纠错算法，并通过样本断裂、降解的加速老化实验验证了数据恢复的高鲁棒性。但基于德布莱英图的序列重构算法普遍依赖于高测序覆盖度，计算复杂度较高，难以适应数据快速读出的需求。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

陈为刚张宇鑫韩昌彩秦蕊

技术所属：天津大学

相关技术

一种服务开发方法、装置、设备及存储介质  一种服务开发方法、装置、设备及存储介质 
 本发明公开了一种服务开发方法、装置、设备及存储介质，涉及人工智能技术领域。其中，服务开发方法包括:响应于用户通过调用服务开发接口而发起的服务注册请求，获取服务注册请求中所包含的服务数据；其中，AI服务开发框架中包含不同定制等级的服务开发接口；通过对服务数据进行注册，生成与所述服务数据对应的服务。本发明实施例的技术方案，可以解决使用第三方应用程序带来的安全问题。
一种高精度双层优化方法的神经网络搜索架构构建方法  一种高精度双层优化方法的神经网络搜索架构构建方法 
 本发明公开了一种高精度双层优化方法的神经网络搜索架构构建方法。在搜索空间中对操作感受野的倾向扩展操作空间只选择倾向的感受野；构建并堆叠普通搜索单元和下采样搜索单元，形成超网；通过高精度双层优化方法搜索得到超网的有向无环图中每个边和边中每个操作的架构权重；通过架构权重和对应操作架构权重乘积作为最终权重，获得每条边中最终权重最大的操作，将对应最终权重作为边的最终权重，以边和操作的结果堆叠更新搜索单元，得到最终的模型架构。在搜索空间中对操作感受野的倾向扩展操作空间并只选择倾向的感受野，减少了探索范围，提高了搜索效率。通过高精度双层优化方法结果高度近似最优架构权重，避免了优化结果出现富集大量池化操作。
跨总线域的设备对宿主机空间DMA访问方法及相关设备  跨总线域的设备对宿主机空间DMA访问方法及相关设备 
 本发明公开了跨总线域的设备对宿主机空间DMA访问方法及相关设备，涉及设备虚拟技术领域。本发明通过连接桥连接设备出借方和设备借用方二者的总线域，并由设备出借方中连接桥对应的端设备维护一个地址空间作为第一DMA窗口，以及由设备借用方的连接桥驱动维护一个地址空间作为第二DMA窗口，通过这两个DMA窗口转发被虚拟设备对设备借用方的DMA访问请求。并在设备借用方的IOMMU中设置地址映射，通过IOMMU对连接桥传送的DMA访问请求进行地址转换，使得地址转换后的DMA访问请求可以指向DMA缓存的物理内存地址，从而实现跨总线域的设备对宿主机空间的DMA访问。
一种客户信息定期维护方法及系统  一种客户信息定期维护方法及系统 
 本发明提供了一种客户信息定期维护方法及系统，方法包括以下步骤:集成多个渠道的客户数据并对其进行预处理；对预处理后的客户数据进行客户细分，并识别每个客户群体的行为特征和偏好；根据识别的结果，为每类客户群体打标签；根据客户标签，创建当前客户群体的用户画像；基于用户画像，绘制客户旅程地图，识别从意识到购买的关键接触点；根据客户旅程地图和用户画像，确定每个客户群体的消息推送方案。本发明用于为用户提供更好的体验和个性化服务。本发明用于提高客户关系管理和销售转化效率。
代码发布方法、装置、计算机设备和可读存储介质  代码发布方法、装置、计算机设备和可读存储介质 
 本申请涉及计算机和软件技术领域，特别是涉及一种代码发布方法、装置、计算机设备和可读存储介质。获取基于第一编程语言编写的业务源代码和业务源代码对应的运行关联代码，以及第一编程语言对应的代码运行环境；其中，运行关联代码包括目标入口代码和目标修复代码；基于代码运行环境，获取运行关联代码对应的执行文件；其中，执行文件包括用于驱动运行关联代码执行的指令；对业务源代码、运行关联代码、代码运行环境和执行文件进行发布处理。
一种基于统一管理平台的子应用数据获取方法及装置  一种基于统一管理平台的子应用数据获取方法及装置 
 本申请实施例公开了一种基于统一管理平台的子应用数据获取方法及装置，包括:接收客户端发送的访问请求信息，访问请求信息包括用户身份信息和访问地址；根据设置的统一权限验证规则和用户身份信息确定用户的访问权限等级，在访问权限等级为预设访问权限等级的情况下，在设置的路由表中查询与访问地址匹配的加载地址，并基于查询到的加载地址加载子应用的应用数据；基于预设通信机制调用应用数据，将应用数据发送至客户端，用于客户端基于应用数据进行子应用的管理操作，应用数据为基于各个子应用的公共组件开发得到的公共组件数据。能够提高子应用管理的效率，降低子应用的管理成本，也保障了子应用数据的安全性。
利用深度学习的BIM模型错误自动检测系统  利用深度学习的BIM模型错误自动检测系统 
 本发明涉及建筑信息模型领域，具体是利用深度学习的BIM模型错误自动检测系统，包括数据读取转化模块，用于读取第一BIM地理位置模型和第一BIM电气模型，通过模型映射和模型分割、模型分解，得到每个供电单元模型的用电负荷模型、第一电源模型、第二电源模型、连接设备模型；供电连续性检测模块，用于得到供电连续性错误识别标识；供电电量检测模块，用于得到供电电量错误识别标识；检测结果输出模块，用于根据供电连续性错误识别标识和供电电量错误识别标识，得到BIM模型错误检测结果。本发明通过对含屋顶光伏的智能楼宇BIM电气模型连接关系及设备容量的匹配关系进行智能分析，实现模型错误自动检测。
一种基于智能反射面的室内T型走廊场景路径损耗的分析方法  一种基于智能反射面的室内T型走廊场景路径损耗的分析方法 
 本发明公开了一种基于智能反射面的室内T型走廊场景路径损耗的分析方法，该方法通过仿真技术精确模拟信号在室内环境中的传播情况，并巧妙地利用智能反射面作为中继，以提供空间分集增益，有效解决信道中多径分量的稀疏性问题。包括如下步骤:首先通过专业软件，构建具有精确长宽高细节的室内新型T型走廊场景模型，确定天线发射端和用户信号接收端的具体位置和高度，设计所使用的智能反射面的位置部署、尺寸及数量；利用射线追踪技术对信道进行精确重构，准确评估信号传输特性和信道响应，为无线通信系统的设计和优化提供重要参考数据；通过调整智能反射面的位置部署、尺寸不同和使用数量，灵活调整室内太赫兹频段下信号的传播路径，实现信号强度的有效增强，优化无线通信性能。本发明为室内T型走廊场景的无线通信性能研究提供了准确的参考依据，不仅有助于深入理解该场景下太赫兹波段的信号传播特性，还为类似场景的性能分析和优化工作奠定了坚实基础。通过本发明的应用，可以进一步提升室内无线通信系统的性能，满足日益增长的无线通信需求。
模型评估任务处理方法及装置  模型评估任务处理方法及装置 
 本申请公开了一种模型评估任务处理方法及装置，涉及人工智能技术领域。本申请可以获取待评估模型对应的评估任务，基于每个子任务包含的多个子步骤，对子任务进行流式处理；在处理子任务的过程中，基于每个子步骤对应的执行数据，确定子任务的任务状态；基于任务状态为完成状态的子任务的数量，计算评估任务的执行进度；若执行进度达到预设进度，建立并执行与候选任务相同的备份任务；若评估任务中的所有子任务的任务状态均为完成状态，结束所述评估任务的相关任务。在评估任务执行到一定进度时，对未完成的子任务进行备份并执行，在候选任务出现问题执行缓慢时，备份任务也能正常执行，以加快子任务的效率，进而可缩短整个模型评估的耗时。
基于大数据的异常信号智能识别方法  基于大数据的异常信号智能识别方法 
 本发明公开了一种基于大数据的异常信号智能识别方法，通过构建网络行为识别模型，结合数据包缓存与重发机制，精准识别并快速恢复网络漏包情况。该方法利用时域状态空间融合深度学习算法，动态训练模型以适应网络环境变化，并具备强大的自适应能力和智能化水平。通过实时捕获传输信息，检测异常行为，隔离异常网络节点并重新规划传输路径，有效减少数据丢失和传输延迟。同时，通过迭代更新模型，持续提高检测准确性和效率，确保数据传输的完整性和实时性。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工