您现在的位置是:首页 > 生活 > 正文

设计者染色体合成难度的机器学习辅助评分

发布时间:2023-03-28 15:05:00编辑:来源:

人工合成基因组在医学研究、工业菌种等领域具有广阔的前景。从2010年Craig Venter团队合成人工生命JCVI-syn1.0,到原核大肠杆菌的改写合成基因组,以及Sc2.0项目人工合成酵母基因组,研究人员在基因组设计与合成的深度和广度上不断推进。然而,某些基因片段的合成仍存在困难,最终导致无法完成人工染色体,限制了人工基因组合成技术的应用和推广。针对这一问题,天津大学袁英进教授团队开发了一种可解释的机器学习框架(图1),可以预测和量化染色体合成的难度,为优化染色体设计和合成过程提供指导。

研究团队通过分析大量已知染色体片段的数据,设计了一种高效的特征选择方法,确定了涵盖DNA化学合成和组装过程中能量和结构信息的6个关键序列特征。基于这些结果,该团队开发了一种 eXtreme Gradient Boosting (XGBoost) 模型,可以有效预测染色体片段的合成难度。该模型在交叉验证中获得了 0.895 的 AUC(受试者工作特征曲线下面积),在与 DNA 合成公司合作的独立测试集上获得了 0.885 的 AUC,展示了较高的准确性和预测能力。

研究团队提出了一种基于SHAP算法的合成难度指数(S-index)来评估和解释染色体的合成难度。研究发现,不同染色体的合成难度存在显着差异,S-index可以定量解释部分基因片段合成困难的原因(图2),为染色体序列的设计与合成、提高染色体的合成难度提供了依据。设计者染色体合成的效率和成功率。该成果为染色体工程和基因组重写研究人员提供了实用工具,有望为染色体设计和合成提供更全面的指导和支持。

标签:

上一篇
下一篇