关键词:
高血压
单核苷酸多态性
缺失的遗传力
机器学习
卷积神经网络
循环神经网络
摘要:
血压升高是造成全球疾病负担和全球死亡率的最大单一风险因素。高血压作为一种遗传性疾病,从基因层面探究其致病机理,对于减少高血压发病率,减轻家庭及社会负担都极具意义。全基因组关联分析(Genome-wide Association Study,GWAS)在复杂性状遗传学、疾病的生物机理研究领域都取得了重大发现。截止到2022年1月,所有已知的GWAS变体加在一起仅解释了血压(Blood Pressure,BP)变化的6%,占血压遗传力40%的一小部分,这便是所谓的“缺失的遗传力”问题。目前,即使尚没有统计能力来确定所有的因果变异,我们仍希望能够使用已知的遗传变异,通过建立预测模型,来解释尽可能多的遗传力。机器学习方法的“数据驱动”的特点非常适合此类任务。已有研究表明,区域内多个单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)比区域中统计最显著的单个SNP能够解释更多的遗传力。本论文使用GWAS发现的与血压相关的SNPs及其区域内SNPs,以机器学习方法为基础,尝试对高血压疾病风险进行预测,具体包括对高血压患病状态的预测以及对收缩压(Systolic Blood Pressure,SBP)、舒张压(Diastolic Blood Pressure,DBP)血压值预测。基于前馈神经网络(Feedforward Neural Network,FNN)、一维卷积神经网络(One Dimension Convolutional Neural Network,1DCNN)、长短记忆神经网络(Long Short-Term Memory,LSTM),我们分别构建了GWAS-FNN、R-1DCNN(Regional-1DCNN)、R-LSTM(Regional-LSTM)高血压风险预测模型。论文使用的数据来自UK Biobank,其中用于高血压患病状态预测的数据样本量是137,891,用于血压值预测的数据样本量是264,532。预测变量分为三大类:(1)年龄、性别、身高体重指数(Body Mass Index,BMI)三个血压的常见风险因素;(2)65个GWAS研究发现的与血压相关的SNPs;(3)这65个与血压相关区域中的2612个SNPs。论文主要的工作和结果如下:在使用预测变量(1)和单隐含层20节点的前馈神经网络的高血压风险预测模型GWAS-FNN中,在高血压风险预测方面获得了78.42%的准确率,SBP与DBP血压值预测方面,分别解释了16.42%与13.08%的血压方差。在此基础上,加入预测变量(2),准确率提升了0.92%,解释的血压方差分别增加了0.72%、0.63%,我们以此作为使用区域SNPs的高血压和血压值预测的比较基准。在使用预测变量(1)、(3)和区域一维卷积神经网络的高血压风险预测模型R-1DCNN中,在高血压风险预测方面获得了79.44%的准确率,比使用预测变量(1)和(2)的GWAS-FNN模型,准确率提升了0.10%;SBP与DBP血压值预测方面,分别解释了17.23%与14.01%的方差变化,解释的血压方差分别增加了0.09%、0.30%。这说明结合GWAS区域SNPs确实能在一定程度上解释更多的遗传力。在使用预测变量(1)、(3)和区域长短记忆人工神经网络的高血压风险预测模型R-LSTM中,我们使用LSTM层代替R-1DCNN模型中的一维卷积层,进一步解释了更多的遗传力。与GWAS-FNN模型相比较,在高血压风险预测方面获得了79.62%的准确率,准确率提升了0.28%;SBP与DBP血压值预测方面,分别解释了17.40%与14.12%的方差变化,解释的血压方差分别增加了0.26%、0.41%。本论文工作表明,R-1DCNN和R-LSTM机器学习方法结合区域SNP数据均能在一定程度上解释更多的遗传力,这为“缺失的遗传力”研究提示了一个新的方向。不过,由于区域SNP数据所带来的预测结果提升幅度较小,区域中GWAS发现的统计最显著的SNPs基本上能很好的代替整个区域。论文的不足之处包括模型训练中的随机因素可能对比较结果的微小差异带来影响;模型训练计算复杂度高、较为费时。