2025-04-12 20:47
研究所名片
中国科学院北京基因组研究所成立于2003年11月,主要开展基因组学前沿科学研究和技术研发。2019年6月,获科技部、财政部联合批复建设“国家基因组科学数据中心”;2019年11月,中央编办批复北京基因组研究所加挂“国家生物信息中心”牌子,承担我国生物信息大数据统一汇交、集中存储、安全管理与开放共享以及支撑交叉研究和转化应用等工作;广泛开展国际合作,推动全球生物信息共享与治理。
2024年4月,为全面转型加速建设国家生物信息中心,设立计算生物学部、数据资源部、工具开发部、应用发展部、信息安全部、生信服务部和运维保障部七个科研业务部门。
说到数据存储,U盘、云存储可谓当下最常见的存储介质。在此之前,光盘、磁带也曾经风靡一时,但你可想过,DNA(脱氧核糖核酸)竟也能作为存储介质,甚至“装”下全世界的所有数据。
这绝非天马行空的想象。近日,中国科学院北京基因组研究所(国家生物信息中心)陈非研究团队联合中国科学院计算技术研究所处理器芯片全国重点实验室谭光明、卜东波团队,中科计算技术西部研究院段勃团队,成功研发出基于“DNA活字存储”技术的DNA活字喷墨打印机——“毕昇一号”。该设备可以将数据全自动写入人工合成的DNA中,并显著降低DNA存储系统的使用成本,为数据存储领域注入新的活力。相关研究成果《经济高效的DNA活字数据存储系统》已被国际知名学术期刊《先进科学》作为封面文章发表。
利用DNA存储——数据存储技术正在进行一场“绿色革命”
在信息爆炸的时代,数据总量伴随着人类生产生活呈指数级增长。陈非分享了一组数据:2020年全球数据量是440万亿亿字节。“这个数据平均每年增长30%,预计到2028年,全球年产数据量将达到380ZB,其中80%为冷数据。”
冷数据,是指不经常被访问或使用,但包含大量有价值的信息,能够为历史回顾、决策支持、科学研究和数据分析提供重要参考的数据。它们就像图书馆里的书籍一样,需要长期保存,但可能一年都用不上一次。陈非介绍,运用现有存储方式,全球仅有1%的数据可被保存,且需要占用巨大的空间,维护能耗较高,保存时间最长不超过30年,还要面临数据丢失的风险。
在此背景下,科学家不断探索降低数据存储成本、提高存储效能的“绿色”数据存储技术,这也激发了DNA在数据存储领域新功能的探索。
DNA是生物体内承载遗传信息的大分子,长期以来多是以法医鉴定、基因工程、食品安全领域参与者的身份出现在大众视野,很容易让大家忽略其作为天然存储介质的存在。
“DNA存储遗传信息的原理并不复杂,组成DNA的4种碱基:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、胞嘧啶(C),能够通过排列组合编码几乎无限量的信息,这也赋予DNA作为存储介质的应用潜力。”陈非说,早在1988年,哈佛大学科学家就在实验室中验证了DNA存储数据的可行性。它的原理类似于二进制信息的编码规则,不同的是通过建立DNA碱基四进制信息的编码规则,将数据0和1变成了ATGC序列,并利用高通量合成技术,实现数字信息在DNA层面的“语言”转化。在需要使用时,通过数据解码,将ATGC序列还原为0和1,与计算机系统对接起来。
随着全球科技竞争的深入发展,各国对DNA数据存储的研发与应用投入持续加大。我国从“十三五”开始,对DNA数据存储研究进行初步部署,并将“DNA存储”写进“十四五”规划和2035年远景目标纲要中。
经过实践论证,DNA作为存储介质的优势逐渐凸显。
一方面是高存储密度。“据估计,50克DNA的容量相当于100万块1TB硬盘。”陈非向记者算了一笔账,这样推算下来,2028年全球数据只需要20公斤DNA就可以存下来,所占空间大小约等于一台电脑主机。
另一方面是可在自然条件下长期稳定保存。DNA的分子结构非常稳定,半衰期超过500年,在有效避免水分和紫外线影响的条件下,可以保持稳定长达数十万年。目前,我国最新技术已经实现了利用重组酶处理大肠杆菌细胞进行DNA数据存储。此外,DNA可利用聚合酶链式反应进行指数级增殖,从而在较低成本条件下显著提高数据的复制效率。
DNA存储技术带来了高密度、低能耗、长寿命的存储技术变革,但在数字化浪潮席卷全球的当下,这种数据存储技术也面临着前所未有的挑战。
现有DNA存储技术需要重新制造DNA链,再以化学合成的方式逐个加入代表信息的碱基。“存储用的DNA每次都需进行合成,信息存储后不能修改,不仅成本高昂且耗时较长,还极大地限制了DNA存储技术的实际应用。此外,还面临如何提高合成DNA链的效率和准确性,提升数据读取的速度等现实技术问题。”陈非说,破解这些应用瓶颈成为研发DNA活字存储技术的出发点。
借鉴古老技艺——DNA活字存储高密度、高效率、低成本优势凸显
3月14日,中国科学院北京基因组研究所(国家生物信息中心)正式宣布了DNA活字喷墨打印机“毕昇一号”成功研发的消息,引发广泛关注。
“毕昇一号”可全自动打印存储数据,并100%精准解码文本、图片、音频和视频等多种类型的计算机数据文件,相关技术达到国际先进水平。但更让研究团队兴奋的,是它在显著降低DNA存储系统使用成本和提高存储效能方面的出色表现。
相关研究显示,目前DNA合成成本约为0.05—0.1美元一个碱基。按照目前的信息存储技术,要合成1MB的数据需要花费3260美元,存储效率为0.42字节/秒。“毕昇一号”的表现如何呢?经研究团队测算,“毕昇一号”综合成本可降至122美元/MB,低于目前其余已报道的DNA数据存储系统;打印效率约为4字节/秒,用时也远低于从头合成的DNA存储技术。
为何“毕昇一号”能实现高效、低成本的运行?秘诀在于研究团队创新提出的DNA活字存储设计思路。
DNA活字存储技术是工程学、合成生物学、数学和密码学等多学科深度合作的成果,借鉴了我国古代四大发明之活字印刷术的逻辑。
众所周知,跨学科研究从来不是一蹴而就的。陈非和他的合作者也不例外。
研究团队深知,成本是限制DNA存储技术推广应用的关键门槛,为此他们倾注了大量精力在降低成本上。但自2017年立项之后,研发进度曾一度因为如何有效降低成本而停滞不前。
“最初我们想用机械臂取代人工,降低DNA编码、合成等环节的成本,但机械通量限制导致成本压缩效果未达到预期。”陈非回忆道。
转机往往就在一瞬间。一次,几位合作团队负责人一边散步一边讨论方案。或许是“公园20分钟效应”让大家暂时卸下了科研的压力,一个灵感在陈非脑海中闪现:“传统DNA存储如同‘雕版印刷’,若借鉴活字印刷的预制备与组合逻辑,通过预制标准化单元并按需重组,成本不就降下来了!”
从机械臂到借鉴活字印刷,这次灵感的迸发,让活字印刷术遇上DNA,也让这一古老的中国智慧焕发新生机。它犹如一双巨手,推倒了挡在研发“进度条”上的重重阻碍,促使研究团队在一年内将DNA活字存储从概念转化为现实。
记者了解到,DNA活字存储分为编码、打印、存储、解码四个环节,核心创新在于DNA活字设计:每个DNA活字由预制的20个核苷酸长度的短双链DNA片段构成,可编码1字节的信息,包括内容、地址或校验数据。与众不同的是,每个DNA活字都可以通过酶连技术,组合形成DNA活字块。这些DNA活字块既可以长期在体外保存,也可以通过转化到大肠杆菌体内,实现生物体内的稳定存储。
“我们应用DNA活字存储技术研发了‘毕昇一号’,它下部是传送带,上部分布了数百个储液试管,管中装的是预先合成的DNA活字。它们就好比普通打印机的‘墨’,可按照电脑程序指令,从相应的储液试管中自动选择所需的‘活字’,再精确注入对应的微量离心管中,完成数据的写入,并可放置在冷冻冰箱中长期稳定保存。”陈非解释道。
据了解,研究团队目前已构建完整的DNA活字存储技术专利体系,累计申请专利13项,其中12项已获授权,形成具有自主知识产权的创新成果。
“把信息藏在基因里”——蕴藏巨大潜力,或将不再是科学幻想
“毕昇一号”的问世,在向世界宣告我国DNA存储技术取得重大突破的同时,也为全球数据存储技术的发展开辟新方向,为未来其他相关技术研发奠定了基础。
“未来,DNA活字存储技术或将率先在超大规模数据归档领域大显身手,让那些长期‘沉睡’的冷数据以更集约、更安全的方式实现长久保存。”陈非认为,DNA活字存储技术凭借其自身优势,有望推动解决大数据存储困境,并根据应用场景特性,在生物医疗、太空探索及互联网等领域实现多维度应用。
展望前景,“把信息藏在基因里”或将不再是科学幻想。那么,距离DNA存储技术从实验室走向大规模商业化应用还有多远?兴奋之余,研究团队深知目前的成本和效率尚未满足商业应用所需,如何实现更快、更便宜、更方便,是DNA活字存储技术未来发展的“必答题”。基于此,团队开展了系统性技术攻关。
“从立项至今,DNA活字存储技术已完成多次迭代,‘毕昇一号’仅是技术演进的初级阶段。”陈非告诉记者,基于先前的试验结果,研究团队充分相信DNA活字存储技术的巨大潜力。例如,通过减少储液体积,降低成本消耗;试验阶段,实现了DNA活字数量的扩容提升,若能平衡DNA活字数量、组装效率等因素影响,扩展性降本就具有可行性。此外,编码算法的进步,可以进一步提高编码密度和成本效益,让未来DNA活字存储技术更具发展潜力。
记者了解到,目前相关研究团队正致力于“毕昇一号”二代的研究开发,旨在通过大幅度提高通量和速度,提升DNA活字存储效率,以适应未来工业化和商业化发展的需要。
“毕昇一号”二代将会是什么样?陈非没有给出确切的答案,但他肯定,DNA活字存储技术是一场多学科的“跨界联姻”,展现了生物研究与信息技术深度融合的无限可能,需要生物技术、信息计算、物理研究、工程制造的技术支撑。