在我们当前的信息/数据时代,数据的存储和保护是任何企业极其重要的一部分。在全球范围内,数字数据产生的程度早已超过了可用存储量——无论数据存储在何种媒介上。
显然,由于云的灵活性和用户的期望,它目前在存储议程上占据了首位,然而,几年前出现了一种相对较新的数据存储方式,现在正呈现出一些非常不同的新视角。
我们指的是“DNA数据存储”——对,是“DNA”,或者更正式的说法是脱氧核糖核酸。也就是说,这种存储概念是将分子水平的数据存储到DNA分子中,利用生物技术在合成、操作和测序DNA方面的进步,开发档案库存储器。
接下来的几段将对分子科学中元素的化学成分作一个非常基本的概述。你不一定需要成为生物化学家才能完全理解本节,但你可以很快看到这如何导致LOCO编码结构和对DNA数据存储至关重要的错误检测特性。
术语“LOCO”,或在这种情况下D-LOCO(DNA-LOCO)意为字典序约束代码,它们是“行代码,可以减轻干扰,防止短脉冲,并通过‘平衡使用’产生具有直流(DC)驱动内容的双极性信号流”。这些原理可以在磁记录(MR)设备、闪存设备、光学记录和某些计算机标准中找到。
一个针头上有10TB的数据?
探索信息技术和分子生物学的交叉产生了一种可以在小于0.25 x 0.25英寸(0.0625平方英寸)空间的微小涂片空间中存储超过10TB数据的科学方法。时间上相对较近的,是从美国理论物理学家理查德·P·费曼的论文(1959年12月)开始,他理论化了微观层面上事物操作、制造和控制。
从编码的角度来看,这种微/纳米技术实践可以追溯到1948年的工作,通过使用这种“约束代码”增加数据密度,从而增加了MR(磁记录)的存储密度。这种做法至今仍在广泛使用,减轻当今二维MR系统的干扰。
功能性人工物体
这种DNA储存的科学仍然是实验性的,是一个正在进行的得到世界各地的生物化学专家广泛认可的编码研究项目。
例如,华盛顿大学的分子信息系统实验室(MISL)与华盛顿大学计算机科学系、电气工程系和微软研究院合作,汇集了具有计算机体系结构、编程语言、合成生物学和生物化学专业知识的教师、学生和研究科学家,使DNA作为一种高密度、持久和易于操作的存储介质成为可能。
在历史上,DNA数字数据存储的想法始于1959年左右,当时费曼在加州理工学院举行的美国物理学会年会上,在其论文《在底层有大量空间》概述了微观世界和生物微观世界的人工物体具有类似甚至更大的能力的前景。
另一本值得进一步理解的书是埃德·瑞吉斯(1996年4月)写的《纳米:纳米技术的新兴科学》。该书讲述了K·埃里克·德雷克斯勒及其他科学家如何开创这一新兴科学的扣人心弦的故事。
生化DNA和RNA
在功能方面,DNA数字数据存储是一个对合成DNA链进行二进制数据编码和解码的过程。可以说,它的高存储密度带来了巨大的潜力,但由于其高成本和非常缓慢的读写时间,DNA数据存储的实际使用(目前)“十分受限”。
在生物化学中,这个话题很深奥,远远超出了本文所介绍的细节。然而,构成DNA元素的基础包括以下一些微生物概念和原则:
核苷由核碱基(作为遗传密码的基本单位)和五碳糖(核糖或2-脱氧核糖)组成。核碱基是构成核苷的含氮生物化合物,而核苷又是核苷酸的组成部分,所有这些单体都构成了核酸的基本结构单元。
核苷酸是“一种包括一个链接到一个磷酸基团的核苷的化合物”。核苷酸是核酸、RNA(核糖核酸)和DNA的分子结构单元,这两者都是地球上所有生命形式中基本生物分子。DNA中使用的四种碱基是腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。在RNA中,尿嘧啶(U)取代了胸腺嘧啶(T)。
RNA是存在于大多数生物体和病毒中的一种分子。和DNA一样,它也是由核苷酸组成的,核苷酸是附着在含氮碱基和磷酸基团上的核糖。这是一种存在于所有活细胞中的核酸,其结构与DNA相似。
在图1中,RNA(左)和DNA(中)的构成存在于我们这个星球上的大多数生物体中,并对那些四进制数据元素(即一组或四元数据元素组,在这种情况下是“核碱基”)被用于DNA/RNA编码存储有重要的参考价值。CG含量在小图(最右)中描述。
图1 RNA(左)和DNA(中)的差异示意图,右边小图为CG含量对。
从理论信息的角度来看,DNA链充当一种字母表{A、T、G、C}上四元数据的存储介质。这里提到的“字母表”与上述生物化学描述中提到的DNA核碱基的4个成分一致,如图1所示。
冷数据
DNA是能够支持海量“冷数据”(即“归档”)存储或不需要定期或连续访问的信息存储的下一代技术的一部分。合成DNA池被提议作为一种旨在存档(长期)存储用途的可能介质。通过使用编码和数据处理,在DNA链发育的生化处理过程中可以防止错误。
为了长期存储,所有的数据序列必须包含限量的相同符号以及A-T(腺嘌呤对胸腺嘧啶)和G-C(鸟嘌呤对胞嘧啶)核苷酸的平衡比(百分比)。这些组成被称为“约束码”,它们是一类非线性码,通过适当的处理,可以从码字集中消除一组选定的“禁止模式”。
前景和障碍
DNA数据存储有巨大的信息密度、长期耐久性和易于复制性。不过,这种迷人的存储技术中的信息也可能被崩溃。试验表明,具有长均聚物和/或具有较低鸟嘌呤-胞嘧啶(即“GC含量”,见图1)的DNA序列在进入DNA存储时明显更容易出错。
鸟嘌呤-胞嘧啶含量是指鸟嘌呤(G)或胞嘧啶(C)DNA或RNA分子中含氮碱基的百分比。GC含量越高,解链温度越高。GC含量在30% ~ 80%之间,以50% ~ 55%为理想;GC含量由于能量消耗而影响蛋白质的变化。RNA与DNA的简要比较如图2所示(蓝色表示CG含量)。
图2 RNA与DNA的简要比较
了磁面密度或磁能波动如何与旋转磁(硬)盘驱动器的读取头相关之外,人们可能从未意识到存储中的复杂性;但是,如果我们要维持对数字数据不断增长的渴望,存储密度始终需要增加。
DNA数据存储何时或是否变得突出仍然是未来的愿景,但它正在被Illumina、微软、Iridia、 Twist Bioscience、Catalog和Thermo Fisher Scientific等公司所推动。根据Markets and Markets预测,到2030年,DNA数据存储市场预计将从2024年的7600万美元增长到33亿美元,复合年增长率为87.7%。