1994年,比尔·盖茨坐在33万张纸上,向全世界发布,我们现在有了“光盘”。一张光盘能够记录的内容,也就是33万张纸,这在当时是非常具有震撼性的广告效应。
2022年,中国科学院院士、上海交大化工学院院长樊春海,以一根测核酸的试管比方,推算出一两也就是50克DNA,就可以存下1000万块硬盘的信息。“通过DNA存储,可以把数据电子存储的容量极限提升7个数量级。”他说,这样一来,全世界440万亿亿的字节,只要200公斤DNA就可以存下来了。
有了如此强大的DNA存储,我们每个人的每个细胞是不是都自带硬盘了?“在20世纪的时候,经常有这样的争论,21世纪到底是信息技术IT的世纪还是生物技术BT的世纪?”日前,在“新商学·新科技”安泰视界2022年度峰会上,樊春海院士面对交大20年来的EMBA校友与战略合作伙伴表示,“现在的证据越来越多证明,21世纪可能是生物技术和信息技术交叉融合的世纪。”
【生命天书由4个字母不同排列组成】
热爱科普的樊春海援引了“老前辈”——首次发现了DNA双螺旋结构的华生、克里克研究论文,题目是《核酸的分子结构》。众所周知,DNA和RNA合起来就叫核酸,一个叫脱氧核糖核酸,另一个叫核糖核酸。其中DNA,由4种碱基组成,遵循一种非常简单而高效的配对规则,也被称为华生-克里克配对原则。就是说,ATGC这4个碱基分成两组,A一定是跟T配对,G一定是跟C配对。
伟大的人类基因组计划,将我们的遗传物质DNA序列测定出来。其实,测定序列就是把A、T、G、C这4个字母的排列组合进行测序。当时测一个人的基因,要花几十亿美元;如今,在我国全世界最强的基因公司,只要一天时间,花一两千块钱,就可以把一个人的基因检测出来,现在全世界基因测序的市场规模已经达到100多亿美元。“这样一本像天书一样的东西,就是4个字母的排列。”
樊春海解释了计算机语言中的“数字”和基因密码中的“字母”关系。虚拟世界、计算世界或者说元宇宙,它的背后是两个数字1和0在跳动。而生物学的生命世界,实际上背后就是4个字母ATGC在跳动。在此意义上,生命世界与信息世界是等价的,无非一个是二进制,一个是四进制。也就是说,DNA分子就是这样一些由ATGC4个字母组成并且可以编码的分子信息材料。
从ATGC到TACG,在樊春海眼中,DNA存储无非就是把数据1和0的二进制变成ATGC的四进制编码过程。“通过一系列生化反应,把这些数据给存下来、读出来,再通过数据解码,变成1和0,就跟计算机系统对接起来了。”
【自然界产生最精确的纳米复印机】
在数据大爆炸的时代,2020年全世界的数据量是44个ZB,即440万亿亿字节。要把这些数据存下来,光耗电量就是一个长江三峡大坝所产生的电量。樊春海表示,数据还在不断增长,到2025年预计达175个ZB,而且里面80%-90%是很少被调用的冷数据。
不仅存储耗能巨大,传输也越来越成为问题。1969年阿波罗登月计划时,存储介质还是纸,就是叠起来1人多高的这么多数据。到2019年,人类第一次拍下了黑洞的照片,而把图片信息传回来,数据量达5个PB,相当于1万块硬盘,足有半吨重。
而樊春海说,“在人体细胞里,每时每刻都有一台自然界产生的最精确纳米复印机在工作。”也就是DNA分子这样一种双链,进入几十纳米大小的聚合酶蛋白质孔洞里。进去之后,这个双螺旋就被解开了,像拉链一样。随后,这种酶就让每一条被拉开的单列又复印成两条——一条变成两条,两条变成四条,四条变成八条,无时无刻在细胞内进行中。
DNA复制过程拿到试管里来做,就变成聚合酶链式反应,即核酸检测必用的PCR技术。“我们现在每天几乎都在做,全民十几亿人都做的检测,就根植于这项技术,”樊春海科普说,把病毒DNA或RNA抽提出来后,用聚合酶这样一台复印机在试管内一个变成两个,两个变成四个,最后变成几百万倍、几千万倍的核酸物质,就很容易检出来,“这是核酸检测非常灵敏的原因。”
【两年后三成数字业务或用DNA存储】
不仅小小试管当大大硬盘,相对于靠山近水占用大量面积、大量能源的数据中心,“如果200公斤DNA可以存下全世界当前全部数据,对于实现双碳目标也是意义非常重大的。”而且,DNA存储除了密度高、能耗低,寿命还非常长。樊春海举例,70万年前野马化石里的DNA信息,现在还可以存储,这对于只能存几十年的硅基电子存储来讲,简直就是极具突破性的进展。
可以说,千百万年前DNA只用来存储生命的信息,而现今它同样可以存储IT行业产生的数据信息。美国《科学(Science)》杂志提出的未来人类125个科学问题,在信息科学领域涉及4个问题,其中一个就是DNA是不是可以用作信息存储的介质。2020年11月,由美国微软、西部数据、因美纳等联合哈佛大学、华盛顿大学等高校、研究所,共同推动成立了DNA数据存储联盟组织,推动DNA存储行业生态发展。
樊春海介绍,我国“十四五”科技发展相关规划,DNA存储就被列入需要加快布局的几项前沿技术之一。解放日报·上观新闻记者了解到,今年,国内首部DNA存储行研报告《DNA存储蓝皮书》问世,欧阳颀、元英进、杨焕明以及樊春海作序指导,由深圳华大生命科学研究院等共同发起,联合DNA数据存储产学联盟等多家单位共同发布。他透露,上海交大也已成立DNA存储研究中心,“希望在这个过程中发挥独特的作用。”
“DNA信息存储应该说目前还在起步阶段。预期到2024年,将有30%的数字业务可能用DNA存储来实现,从而解决现在指数级增长的数据存储问题。”作为上海首位“70后院士”,也是上海交大转化医学研究院执行院长的樊春海教授,有如一位跨界“理化生”的全科型科学家,他信心满满地说,“在未来是不是我们有可能拿着一管DNA说,这里面存储的内容是全世界所有的数据!”
图片来源:上海交大
来源:作者:徐瑞哲