宇宙|你身体里的DNA 能存下整个宇宙的数据( 二 )


五个文件分别是:
- 154首莎士比亚的14行诗(ASCII编码格式)
- 提出DNA双螺旋结构的论文(PDF版)
- 一张照片(JPEG格式)
- 马丁·路德金“我有一个梦想”演讲其中26秒片段(MP3格式)
- 一串霍夫曼密码
这些年 , DNA存储容量的上线不断被突破 。2019年 , 美国一家创业公司Catalog在DNA中存储了16GB的维基百科 。这个公司表示自己正在建设世界上第一个基于DNA的大规模数字数据存储和计算平台 。
02、编码和解码 , 要处理的事情很多
在一些生物学家看来 , 用DNA来存储是一件非常“顺滑”的事 。“大自然的编码语言非常类似于我们在计算机领域使用的二进制语言 。在硬盘上我们使用0和1来代表数据 , 而DNA中 , 我们拥有4种形式的核苷酸 , A、C、T和G” 。在瑞士联邦理工学院的生物学家RobertGrass说 。
DNA存储的关键之一是用四个核苷酸去映射0和1两个数字 。
方案可以很简单 。比如:A对应00 , C对应01 , G对应10 , T对应11 。然后再按照所需要的核苷酸序列 , 像串珠子一样 , 把核苷酸们串成一串 。(这就是DNA合成)需要读取信息的时候 , 再运用基因测序技术 , 把这一串核苷酸序列读取出来 , 再翻译成0和1的字符串 。这个流程就是编码—DNA合成—测序—解码 。
这个听起来像是“把大象装进冰箱”的流程 , 操作起来需要考虑的问题还有很多 。不然科学家就不必一直研究新的编码方案了 。
在自然界存在的DNA中 , A和T , C与G两两配对 , 在一条DNA中 , CG与AT的存在比例基本均匀 , 为50%左右 。如果C和G的含量过高 , 可能会让DNA链产生一些复杂的物理结构 。这就会让DNA测序(解码)变得复杂 。
宇宙|你身体里的DNA 能存下整个宇宙的数据
文章图片

DNA存储的步骤|来源:DNADataStorageAlliance
而且在“串珠子”(也就是合成DNA链条)的过程中 , 错误率不可避免 。目前大约每合成100个碱基就会出现一个错误 。这是由目前的化学合成技术带来的瓶颈 , 每合成一个碱基 , 有99.9%以上的正确率 。但是当碱基串变长 , 0.01%的概率相乘 , 错误就难以避免 。
目前人工合成DNA的单链的长度一般不超过100个碱基 , 极限在300个碱基左右 。而在自然界的DNA动辄有几千个碱基对 。
也就是说 , 虽然DNA的存储能力很强 , 但它们不得不以很多条短链的方式存在 。如果存储的信息量比较大 , 这些DNA短链就像一本散装的书 。它可以存储很多信息 , 存在形式却是一张张标着页码的纸 。
当然 , 可以将一条条DNA短链拼接成长链 。这就意味着增加了一道工序 。在测序的过程中 , 又需要把长链打断成短链 。这是因为目前技术还不能一次性读取长链 。
在测序的过程中 , 也存在错误率 。尽管目前的错误率已经低至10^-3数量级 , 比起商业硬盘的读写错误率 , 仍相差至少9个数量级 。
正确率受到合成和测序这两项技术的影响 , 科学家想到设计编码方案来避免:在编码中增加纠错机制 。这样 , 哪怕碱基合成和测序中出现了错误 , 依旧能够保证被存储进DNA的内容能够被正确读取出来 。
【宇宙|你身体里的DNA 能存下整个宇宙的数据】03、走出实验室 , 还要考虑速度和成本
DNA存储也正在尝试走出实验室 。
2020年10月 , 微软、西部数据和基因测序巨头Illumina、DNA合成初创公司Twist Bioscience等联合成立了DNA数据存储联盟 。
这是世界上第一个该领域的学术和产业链联盟 。这个联盟希望制定技术和格式标准 , 最终建立一个可以通用的商业系统 。
微软研究院在2015年就成立DNA存储的项目 , 并聘请了华盛顿大学的计算机科学与工程学院的副教授KarinStrauss担任高级首席研究经理(Senior Principal Research Manager) 。
2013年 , 她和同事去英国EBI访问 , 了解到Goldman和同事们关于DNA存储的研究 , 就对这个方向产生了很大的兴趣 。Strauss说:“DNA的密度、稳定性和成熟度让我们兴奋 。”


推荐阅读