图1:机器学习框架图。 (IMAGE) Science China Press Caption A:从高通量序列合成的实验中获得 大量DNA 序列。序列分为易于合成序列(蓝色)或难以合成序列(红色)。B:DNA序列的图形表示:重复、GC含量、信息熵和其他类型的特征。通过机器学习方法从这些序列特征中识别出关键特征。C:利用XGBoost算法建立分类模型并计算S-index。D:模型的可解释性:特征贡献根据全局重要性和局部 SHAP 重要性进行量化。E:S-index 应用于染色体。热图显示了不同片段的合成难度,从困难(红色)到容易(蓝色)。白色染色体表示未分析、未合成的序列。 Credit ©《中国科学》杂志社 Usage Restrictions Use with credit. License Original content Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.