Briefings in Bioinformatics | 人工智能算法指导实验机器人进行蛋白质工程改造
北京时间12月24日,中国科学院深圳先进技术研究院司同课题组和乔宇课题组合作,在生物信息期刊Briefings in Bioinformatics (IF: 13.994) 在线发表研究论文 “Protein engineering via Bayesian optimization-guided evolutionary algorithm and robotic experiments” 。
本研究依托深圳合成生物研究重大科技基础设施,开发了一种自动化蛋白质工程方法BO-EVO, 通过多轮机器学习与机器实验迭代,大幅提升了蛋白质多位点组合突变设计空间的探索效率,能够以<1%湿实验量寻找获得全局最优实验结果。除利用文献数据、理论模型数据进行验证外,BO-EVO方法被应用于实际蛋白质工程任务,4周内将鼠李糖脂合成酶RhlA的酶底物特异性提升了4.8倍。
文章上线截图
蛋白质适应度地形(fitness landscape)隐喻蛋白质氨基酸序列与其目标性质(“适应度”)对应关系形成的高维表面。蛋白质工程改造可视为在这个高维表面上寻找高点对应的序列。然而有效探索该地形将面临几个挑战:1. 探索空间随序列长度指数增长;2. 有功能的蛋白极其稀少且高性能蛋白数量随其适应度呈指数衰减;3. 由于序列位点间突变存在上位效应,地形极度崎岖;4. 实验表征费时、费力、费钱。定向进化采用多轮的随机突变与高通量筛选对适应度地形开展探索,通常每轮固定一个最佳突变。然而,由于适应度地形通常较为崎岖,贪婪策略更容易陷入局部最优。
在该研究中,机器学习在建模蛋白质适应度地形及指导蛋白质工程方面都取得了初步成功。然而,一方面受限于序列特征不充分及适应度标签数据稀疏,机器学习模型性能有限;另一方面受限于人力实验,现有机器学习指导的蛋白工程改造都追求尽可能小的实验通量和尽可能少的迭代轮次(甚至无迭代)。生物铸造厂(Biofoundry)通过物理与信息的自动化可以加速生物工程的“设计-构建-测试-学习”闭环过程。在蛋白质工程任务上,自动化、高通量实验平台使得短时间内大批量建库和筛选成为可能,从而能够获取高通量、高质量的序列-功能关系数据,用于机器学习模型性能及序列设计质量的闭环迭代提升。
为了实现机器学习算法与机器人实验之间的高效反馈,数据获取、模型构建及序列推荐三者缺一不可,需形成闭环。就算法而言,贝叶斯优化正适用于这种复杂适应度地形的寻优,其可利用预测模型的不确定性构建采样函数以平衡“探索与利用”。然而,经典的贝叶斯优化方法并不适用于高维问题及批量采样。本研究针对蛋白质多位点组合突变设计空间的高维搜索难题,开发了贝叶斯优化指导的进化算法(BO-EVO,图1)。作者在研究中提出了搜索空间演化策略,克服经典贝叶斯优化的可扩展性问题,采用迭代式批量化采样策略,实现与高通量、自动化实验平台的高效适配。
图1. BO-EVO原理图。a. BO-EVO算法流程展示搜索空间演化; b. FAST-HIT软件框架实现数据获取、模型构建与序列推荐的闭环迭代。
文章以四位点组合突变的GB1经验地形数据开发算法,确定算法超参。在GB1地形上,BO-EVO性能超越随机算法、纯进化算法(AdaLead)甚至MCMC算法(图2);其性能虽不及全空间枚举的贝叶斯优化方法,但计算效率大大提高,可扩展性极好。
图2. 适应度地形探索算法比较。a. 找到全局最优的成功率;b. 算法所推荐的序列的适应度均值及最大值。
为了考察对不同适应度地形的适用性,作者将开发好的BO-EVO算法(超参不变)应用在另外一个四位点组合突变的经验地形PhoQ上,获得了更高的成功率(图3)。此外,作者进一步挑战BO-EVO,将其用在具有不同粗糙度的NK模拟地形(统计模型,粗糙度可控)上,发现对于中等及以下粗糙度的NK地形,BO-EVO表现优秀,而对极其崎岖的地形,BO-EVO的成功率明显下降(图3)。当然,对于极其崎岖的地形,其适应度的可预测性本身极大降低。
图3. BO-EVO在不同地形上的泛化能力。a. NK地形的粗糙度;b. BO-EVO迭代5轮后找到全局最优的成功率。绿色圆圈代表NK地形,蓝色三角形代表PhoQ地形,紫色五角星代表GB1地形。
最后,作者将BO-EVO算法成功应用于真实的蛋白质工程任务上。面向4位点组合突变的优化任务,作者以鼠李糖脂合成酶RhlA为研究对象,基于BO-EVO指导机器人平台开展自动化实验,进行共4轮、每轮384个突变体的分子克隆、诱导表达和质谱测试。在不使用先验知识的前提下,BO-EVO通过模型-实验闭环迭代,在1个月内实现底物选择性指标近5倍的提升,达到文献已报道最高水平。
图4. BO-EVO指导RhlA酶的4位点组合优化。a. 鼠李糖脂单体Rha-C10-C10分子结构;b. 鼠李糖脂单体的MALDI质谱检测结果,包括野生型与典型变体;c. Rha-(C8-C10)的归一化产量,野生型为1。
综上,文章依托深圳合成生物大设施,开发了蛋白质适应度地形的高效探索算法,率先实现了基于机器学习模型与机器人实验反馈迭代的自动化蛋白质工程改造。
中国科学院深圳先进技术研究院司同研究员、乔宇研究员和胡如云助理研究员为本文的共同通讯作者,胡如云助理研究员和博士生付立豪为本文共同第一作者。
本研究受到国家重点研发计划(2021YFA0910800和2020YFA0908500)、国自然面上项目(32071428)、以及深圳合成生物学创新研究院的资助。作者特别致谢中国科学院深圳先进技术研究院戴磊研究员关于NK模型的讨论、以及合成生物大设施团队对于自动化工艺开发的支持。
- 最新资讯
-
北京时间12月29日,中科院深圳先进院马晴研究员课题组与斯坦福大学Howard Chang实验室、上海交通大学李令杰课题组合作,在国际学术期刊eLife上发表了题为“Inducible lncRNA transgenic mice reveal continual role of HOTAIR in promoting breast cancer metastasis”的研究论文。
-
北京时间12月30日,中国科学院深圳先进技术研究院合成生物学研究所马迎飞团队在国际学术期刊《自然-通讯》(nature communications,IF=17.69)上发表了题为《Metagenomic analysis reveals unexplored diversity of archaeal virome in the human gut》的文章。
-
光能易获取、能量充足,是公认的未来人类最安全、最绿色、和最理想的替代能源之一。天然光合作用可以直接利用光能固定空气中的CO2合成有机物,但光合作用的效率较低(通常低于1%)。近年来发展的半导体材料-微生物人工杂合体系,同时结合了高效捕获光能的半导体材料和高特异性催化的微生物细胞,已经成功实现:(1)使不能利用光能的微生物能利用光能(从不能到能);(2)提高天然光合作用效率(从低效到高效)。但目前,材料吸收光能产生的电子,仅有小部分被微生物细胞利用,因此杂合体系光能到化学能的转化,还远未发挥其潜在优势,其根本原因是材料-微生物界面能量和物质传递和转化机制不清、效率低。
-
近日,中国科学院深圳先进技术研究院合成生物学研究所金帆课题组在国际学术期刊Microbiology Spectrum上发表了题为《AIDmut-Seq: A three-step method for detecting protein-DNA binding specificity》的研究成果。该研究发展了一种检测转录因子结合位点(transcription factor binding sites, TFBS)的新方法,通过诱导转录因子-胞嘧啶脱氨酶融合蛋白表达、高通量测序和单核苷酸多态性(SNP)分析,获得转录因子的全基因组结合位点信息。
-
北京时间12月14日,中国科学院深圳先进技术研究院合成生物学研究所钟超研究员及合作者在国际知名学术期刊Chemical Reviews(IF=72)在线发表特邀综述文章“Engineered Living Materials For Sustainability”。 文章在讨论新兴工程活材料领域重要进展和未来挑战的同时,对该类材料如何加强可持续发展提出了新的观点和思考。