关键词:
非编码RNA-蛋白质相互作用
卷积自编码器
随机森林
极端梯度增强算法
LightGBM
摘要:
非编码RNA(noncoding RNA,ncRNA)在许多生命过程中扮演着重要角色,例如RNA加工修饰、病毒复制、人类疾病等,通常ncRNA通过与蛋白质发生相互作用行使功能,所以研究ncRNA功能的关键一步是确定非编码RNA-蛋白质的相互作用(noncoding RNA-protein interactions,ncRPI)。目前,实验的方法确定ncRPI价格昂贵且耗时,因此本研究提出一种计算的方法,从ncRNA和蛋白质的序列提取特征,训练四层的卷积自编码器做特征预处理,不但降低原始数据的维度,而且能够挖掘数据间的隐含信息,提高预测的准确率。运用网格搜索法训练三个机器学习模型,随机森林(Random Forest,RF)、极端梯度增强算法(Extreme Gradient Boosting,XGBoost))和Light GBM来预测ncRNA与蛋白质的相互作用,实验结果表明三个模型在RPI369与RPI488两个小规模数据集都达到了较高的预测准确率,在RPI369数据集三个模型的预测准确率分别为0.791(RF),0.791(XGBoost)和0.757(Light GBM),在RPI488数据集三个模型的预测准确率分别为0.908(RF),0.918(XGBoost)和0.918(Light GBM);三个模型在RPI1807、RPI2241、RPI13254三个大数据集也取得了较高的AUC(Area Under Curve)值,在RPI1807三个模型的AUC值均为0.99,在RPI2241三个模型最低AUC值为0.87,在RPI13254三个模型最低AUC值为0.81,都表现出有效的预测准确性,能够较准确地预测ncRPI。因此,该方法能够预测ncRNA与蛋白质是否存在相互作用,可用于二者相互作用预测的研究。