图1 物创实验室首席科学家元英进院士
随着时间的推移,人类历史文化遗产面临着不可避免的老化和破损,如敦煌壁画等。为了让我们子孙后代都能欣赏到这一壮美的历史画卷,物质绿色创造与制造海河实验室首席科学家、天津大学元英进院士领衔的合成生物学团队创新DNA存储算法,将上述十幅敦煌壁画存入DNA中,通过加速老化实验验证壁画信息可在实验室常温下可保存千年,在9.4°C下可保存两万年。
图2 DNA存储的敦煌壁画
图3 DNA存储技术概念图
团队通过DNA合成技术结合纠错编码将壁画信息写入到DNA中实现了高密度(295 PB/g,1 PB = 1024 TB)的数据存储。然而,DNA作为一种链式生物大分子,在体外常温保存时面临DNA断裂降解等风险,严重影响信息存储的长期可靠性,是亟待解决的关键科学问题。
图4 基于德布莱英图图论设计的序列重建算法高效解决DNA断裂、降解问题
团队设计了基于德布莱英图理论的序列重建算法来解决DNA断裂等问题。该算法结合贪婪路径搜索和循环冗余校验码来实现断裂DNA片段的高效从头组装,从原理上支持了DNA存储的长期可靠性。
结合该序列重建算法(内码)与喷泉码算法(外码),团队设计编码了6.8 MB敦煌壁画,合成了承载图片信息的DNA片段21万条。为数据的长期可靠性,团队制备了一个没有任何特殊保护的DNA水溶液样本,并在70°C下加速样本断裂、降解长达十周。处理后的DNA片段80%以上都发生了断裂错误,依靠设计的序列重建算法依然可以准确组装并解码96.4%以上的片段,再通过喷泉码解决少量片段丢失的问题,原始的敦煌壁画图片依然能够完美恢复。根据理论推算,这种程度的高温破坏相当于实验室常温25°C一千年或者9.4°C长达两万年的自然保存。
该算法支持DNA分子成为世界上最可靠的数据存储介质之一。这项技术为我们长期保存人类历史文化遗产提供了一个潜在的数字化解决方案。相关成果以“Robust data storage in DNA by de Bruijn graph-based de novo strand assembly”为题在线发表于Nature Communications杂志。
这是继基于人工合成染色体的酵母体内信息存储模式取得突破后(Chen et al., National Science Review, 2021, 8, 5, nwab028),物创实验室/天津大学合成生物学团队在DNA信息体外存储模式上又取得一项重要突破。
注:研究中使用的敦煌图片由敦煌研究院提供(http://www.dha.ac.cn/),图片版权归敦煌研究院所有