News Release 24-Apr-2023

机器学习预测染色体合成难易程度

Peer-Reviewed Publication

Science China Press

图1：机器学习框架图。 — image: A：从高通量序列合成的实验中获得大量DNA 序列。序列分为易于合成序列（蓝色）或难以合成序列（红色）。B：DNA序列的图形表示：重复、GC含量、信息熵和其他类型的特征。通过机器学习方法从这些序列特征中识别出关键特征。C：利用XGBoost算法建立分类模型并计算S-index。D：模型的可解释性：特征贡献根据全局重要性和局部 SHAP 重要性进行量化。E：S-index 应用于染色体。热图显示了不同片段的合成难度，从困难（红色）到容易（蓝色）。白色染色体表示未分析、未合成的序列。 view more

Credit: ©《中国科学》杂志社

人工合成基因组在医学研究和工业菌株等领域具有广泛的应用前景。从2010年Craig Venter团队合成人造生命JCVI-syn1.0，到原核大肠杆菌基因组的改写与合成，再到Sc2.0计划实现了人工合成酵母基因组，研究者正不断向基因组设计与合成的深度和广度进军。但是，目前仍然存在某些基因片段难以合成、最终导致人工染色体无法完成的问题，限制了人工合成基因组技术的应用和推广。针对这个问题，天津大学元英进团队建立了一种可解释的的机器学习框架（图1），该框架可以预测和量化染色体的合成难度，从而为优化染色体设计和合成过程提供指导。近日，该成果在《中国科学：生命科学》英文版（Science China Life Sciences）在线发表。

研究团队通过对大量已知染色体片段的数据分析，设计了高效的特征筛选方法，识别出了六个关键的序列特征，涵盖了DNA化学合成与组装过程中的能量与结构信息。在此基础上，该团队建立了eXtreme Gradient Boosting（XGBoost）模型，可以有效预测染色体片段的合成难度。该模型在交叉验证中的AUC（area under the receiver operating characteristic curves）达到了0.895，在与DNA合成公司合作的独立测试集上的AUC达到了0.885，具有高度的准确性和预测能力。

研究团队提出了基于SHAP算法的合成难度指数（S-index），从关键特征出发，评估和解释染色体片段的合成难度。研究发现，不同染色体的合成难度存在明显的差异，而S-index可以量化地解释部分基因片段合成难的成因（图2），从而为染色体序列设计和合成提供依据，提高人工染色体合成的效率和成功率。这项成果为染色体工程和基因组重写研究的相关人员提供一个实用的工具，有望为染色体设计和合成提供更全面的指导和支持。

研究详情请见原文：

Machine learning-aided scoring of synthesis difficulties for designer chromosomes

https://doi.org/10.1007/s11427-023-2306-x

Journal

Science China Life Sciences

DOI

10.1007/s11427-023-2306-x

Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.