人工合成基因组在医学研究和工业菌株等领域具有广泛的应用前景。从2010年Craig Venter团队合成人造生命JCVI-syn1.0,到原核大肠杆菌基因组的改写与合成,再到Sc2.0计划实现了人工合成酵母基因组,研究者正不断向基因组设计与合成的深度和广度进军。但是,目前仍然存在某些基因片段难以合成、最终导致人工染色体无法完成的问题,限制了人工合成基因组技术的应用和推广。针对这个问题,天津大学元英进团队建立了一种可解释的的机器学习框架(图1),该框架可以预测和量化染色体的合成难度,从而为优化染色体设计和合成过程提供指导。近日,该成果在《中国科学:生命科学》英文版(Science China Life Sciences)在线发表。
研究团队通过对大量已知染色体片段的数据分析,设计了高效的特征筛选方法,识别出了六个关键的序列特征,涵盖了DNA化学合成与组装过程中的能量与结构信息。在此基础上,该团队建立了eXtreme Gradient Boosting(XGBoost)模型,可以有效预测染色体片段的合成难度。该模型在交叉验证中的AUC(area under the receiver operating characteristic curves)达到了0.895,在与DNA合成公司合作的独立测试集上的AUC达到了0.885,具有高度的准确性和预测能力。
研究团队提出了基于SHAP算法的合成难度指数(S-index),从关键特征出发,评估和解释染色体片段的合成难度。研究发现,不同染色体的合成难度存在明显的差异,而S-index可以量化地解释部分基因片段合成难的成因(图2),从而为染色体序列设计和合成提供依据,提高人工染色体合成的效率和成功率。这项成果为染色体工程和基因组重写研究的相关人员提供一个实用的工具,有望为染色体设计和合成提供更全面的指导和支持。
研究详情请见原文:
Machine learning-aided scoring of synthesis difficulties for designer chromosomes
https://doi.org/10.1007/s11427-023-2306-x
Journal
Science China Life Sciences