炎症性肠病 inflammatory bowel disease, IBD,是由多种因素引起的慢性炎症性疾病,以对回肠、直肠和结肠的不可逆组织破坏以及复发性症状为主要特征。由于其发病涉及复杂的遗传背景、微生物、环境和免疫调节等因素,目前尚缺乏可靠的IBD诊断生物标志物。
近日,清华大学陈晔光团队在Cell Regeneration上发表了题为“Development of a 32-gene signature using machine learning for accurate prediction of inflammatory bowel disease”的研究文章,利用UMAP (Uniform Manifold Approximation and Projection)降维和XGBoost (eXtreme Gradient Boosting)算法从多个队列中筛选得到32个IBD特征基因,同时搭建了一个基于机器学习算法的预测模型。
为了寻找新的潜在IBD生物标志物,研究人员基于来自多个队列的肠组织基因表达谱,结合UMAP无监督聚类和XGBoost特征选择方法,筛选得到了一个包含32个基因的集合,继而利用这些基因和多个IBD特征基因集分别搭建基于XGBoost的机器学习模型。随后,采用10 折交叉验证计算模型的准确率、ROC曲线下面积AUC、召回率、查准率、F1值和Kappa系数,借以评估机器学习模型的表现。同时,研究人员还比较了XGBoost模型在未用于模型训练和测试的样本/队列中的准确率,最终获得了一个分类效果良好的IBD预测模型。
基于XGBoost的分类模型搭建
研究人员比较发现,这32个基因在不同IBD队列中具有相似的表达特征。例如在iHMP队列中,APOL1、AQP9、CCL24、COL4A1、CXCL1、CXCR1、FCGR3B、IFITM3和MMP3具有相似的表达模式。此外,几乎在所有数据集的IBD样本中都存在AQP9的上调。因此,虽然APOL1、BNC2、EIF3L、HIST1H2BD、HMMR、MTATP6P1、POMT1、PPP1R3E、PRPF8、RNF167和WBP2在IBD中的作用尚不明确,但是这些基因有可能成为IBD的生物标志物。
32个特征基因在所有队列中显示出特定的表达模式,且基因功能多与免疫反应有关
评估基于32个基因和不同文章来源基因集的多个模型的预测效果,发现基于32个基因的模型具有较好的表现。更重要的是,在未经训练和测试的样本/队列的预测中,基于32个基因的模型取得了最高的准确率(0.8651)。因此,这一特征筛选策略有望为搭建具有可观性能的疾病分类模型做出贡献。
综上所述,该研究通过降维和机器学习算法从多个队列中筛选得到32个特征基因,进一步搭建机器学习模型获得了更好的分类效果,为炎症性肠病诊断提供了良好的预测模型和潜在的生物标志物。