2024 年 3 月 8 日,国家干细胞转化资源库团队与中国科学院上海有机化学研究所刘聪研究员团队合作在 Nature Communications 上发表了题为“Machine learning predictor PSPire screens for phase-separating proteins lacking intrinsically disordered regions”的文章,开发了预测不含有 IDR 的相分离蛋白的机器学习方法 PSPire。
近年来的研究发现相分离形成的无膜细胞器在大量的生命活动中发挥着重要作用。相分离蛋白之间形成的多价非共价相互作用主要通过两种方式实现:一种是通过内在无序区域(intrinsically disordered region,IDR)之间的相互作用,另一种是通过模块结构域之间的相互作用。鉴于已知结构的蛋白质数量有限,现有的相分离蛋白预测方法只利用了蛋白质的序列特征,没有整合模块结构域的结构特征,预测结果强烈偏好于含有 IDR 的蛋白,对于不含 IDR 的相分离蛋白预测效果不佳。
国家干细胞转化资源库团队开发了 PSPire 方法:首先使用训练数据集中蛋白质的AlphaFold 预测结构作为输入,计算了这些蛋白质的序列和结构特征,并利用这些特征训练了一个 XGBoost 分类器。PSPire 通过整合蛋白质的序列和结构特征,能够高效筛选不含 IDR 的相分离蛋白。在多个数据集上的评估表明,相较于现有的相分离蛋白预测工具,PSPire 对于不含 IDR 的相分离蛋白质预测的准确性有了极大的提升,进一步证实了蛋白质结构信息在解码相分离过程中涉及的多价相互作用的重要性。刘聪团队实验验证了 PSPire的预测能力,测试的 11 个候选相分离蛋白中有 9 个被证实能够在细胞内发生相分离。