宇宙|你身体里的DNA 能存下整个宇宙的数据

恐龙灭绝6000多万年后 , 科学家们获得了一块有史前蚊子的琥珀 , 从蚊子血中获得了恐龙的基因 , 从而让遥远的生物复活 。
讲这个故事的《侏罗纪公园》 , 至今仍位列全球电影票房前十 。这个系列故事的原理很简单:DNA存储了恐龙的生物信息 , 科技让它重新表达 。
现在 , 用DNA想象另一个故事:在宇宙长河中 , “人类世纪”也寂灭了 。另外一种智慧生物出现 , TA们去探究远古的“人类文明” 。有什么会承载人类文明的记忆?气温异变 , 地球上的庞大数据中心徒留遗迹 。
冻土中有一份DNA , 它很轻 , 只有1公斤 , 看起来是一些被封装在胶囊里的白色粉末 。读取后 , 里面却记载了地球上曾有的巨量信息 。视频、文字、代码展现了人类历史进程中的无数发明和文艺作品 。
于是那个遥远文明的痕迹在宇宙间再次展开 。
宇宙|你身体里的DNA 能存下整个宇宙的数据
文章图片

这是另一个科幻设定了 。背后的技术正是目前被关注的一个前沿方向:DNA存储信息 。
在大自然里 , DNA负责存储遗传信息 。单个人体细胞的平均直径是5到200微米 , 这其中的DNA可以包含一个人全部的遗传信息:30亿对碱基 。
那为什么不能用碱基存储别的信息?这个科幻般的设想 , 正在走出实验室 , 被当作信息存储的未来方案 。
01、基因组数据太多了 , 怎么办?
本来是生物学家想解决生物学发展的问题 。
11年前 , 一群生物信息学家在德国的一家酒店里讨论“数据存储问题” 。NickGoldman也在其中 , 那是他在欧洲生物信息所(EBI)担任高级科学家的第二年 。
大规模的基因组测序正在进行 , 随之产生的数据规模快速增长 。存储、压缩这些数据是个麻烦事 , 现有的技术方案看起来不太行 。
据估计:人类基因组需要高达2-40EB的存储容量 。这可能超过一个世界级科技公司的云存储量——全世界苹果用户存储在谷歌云上的数据总量大约是8EB 。这8EB数据 , 每月存储费需要2.18亿美元 。(1EB=102^3GB)
生物学家们陷入了沮丧 。
宇宙|你身体里的DNA 能存下整个宇宙的数据
文章图片

NickGoldman拿着存储了莎士比亚所有十四行诗、一张照片和“我有一个梦想”演讲片段的DNA|来源:EBI
有人灵光乍现:是什么东西阻止了我们用DNA来储数据呢?
看起来是一句玩笑话 , 但是生物学家们意识到了这不仅仅是个玩笑 , 他们拿起手边的餐巾纸 , 用圆珠笔认真计算起可行性 。
DNA存储遗传信息的原理并不复杂 , 它由四种核苷酸A、T、G、C组成 , 彼此两两对应 , 组成双螺旋结构 。核苷酸的序列 , 记录了遗传信息 。
在数字世界 , 所有的信息本质上是0和1组成的数据串 。想要DNA存储数字信息 , 简单理解 , 原就是将0和1的编码序列转换成核苷酸的序列 。DNA存储的优势在于密度大 , 大约在你眼前逗号这么大小 , 1立方毫米的DNA , 就可以容纳9TB(1TB=1024GB)的信息 。
用DNA存储数据 , 也并不是完全新的想法 , 之前就有科学家尝试过 。不过属于科学和艺术的先锋跨界实验 。
1988年 , 艺术家Joe Davis和哈佛大学的研究员 , 将一副名为“小维纳斯”(Micro Venus)的图案存储到DNA短链中 。
宇宙|你身体里的DNA 能存下整个宇宙的数据
文章图片

存储进DNA的小维纳斯(microvenus)图片来源:相关论文
这个图案编码简易 , 白色的地方标记为0、黑色的线条部分标记为1 , 文件大小只有35bits , 用了28个核苷酸长度的DNA链条来存储 。
在那次酒店讨论的2年之后 , 2013年 , Goldman团队发表了研究成果 。这次 , 他们存储了5种不同格式的文件 , 一共有0.75MB 。为了确保信息读取不出错 , 科学家存储的时候 , 每份信息按照四倍冗余的量来存储 。


推荐阅读