关键词:
深度学习
纳米孔
碱基识别
测序技术
摘要:
DNA是遗传信息的载体,DNA测序技术在医学活动和生命科学研究中都发挥着至关重要的作用。DNA测序技术历经了以双脱氧链终止法为代表的第一代测序技术,以边合成边测序为代表的第二代测序技术,以及以单分子荧光测序和纳米孔测序为代表的第三代测序技术。其中,纳米孔测序以其读长长、读取速度快、单分子检测等一系列优点而受到人们的关注。但是,与二代测序不到千分之一的错误率相比,纳米孔测序的错误率仍然居高不下,高达十分之一到二十分之一,这限制了纳米孔测序得到更为广泛的应用。在纳米孔测序中,DNA分子通过纳米级别的孔后,通过分析过孔时离子电流的变化可以解码出相应的碱基序列,这一过程称为碱基识别,即“basecalling”,进行碱基识别的工具一般被称为“basecaller”。Basecaller的发展历经隐马尔科夫模型、事件分割类模型和深度学习类模型等阶段。作为纳米孔测序领域的领头羊,目前牛津纳米孔公司(ONT)推出的多款测序仪上搭载了被称为“Guppy”的basecaller,然而Guppy并不开源,使得其他研究者难以基于Guppy进行进一步的改进。为此,本文通过构建基于深度神经网络的碱基识别算法,设计和编写出了准确率与Guppy相当的开源basecaller,进一步地,研究了训练数据与算法准确率的相关性,进行了针对性的优化,并成功将该模型拓展至甲基化碱基的识别。主要工作如下:(1)设计了一种基于深度神经网络的basecalling算法,并基于这一算法开发了开源的basecaller。本论文中的basecalling算法基于编码器-解码器架构,其中,编码器采用了卷积层为分离卷积的且带残差连接的一维CNN(卷积神经网络)结构,不仅能够对测序电流的特征进行有效提取,还大大地精简了模型的参数规模;解码器采用了两层BiLSTM(双向长短期记忆人工神经网络)和CTC(Connectionist Temporal Classification,联结主义时域分类)解码层的组合,充分利用了Bi-LSTM在处理时间序列时的长程依赖优势和双向探测能力。因此,该模型结合了CNN在检测速度上的优势和RNN处理序列长程依赖优势,在碱基识别速度上优于已有开源的基于RNN(循环神经网络)的模型,而在识别准确率上优于已有开源的基于CNN的模型。本文开发的basecaller在人类测试集上能达到97.854%的中位准确率,在小鼠、拟南芥、斑马鱼、肺炎克雷伯菌上的准确率也与Guppy算法相当。(2)研究了训练数据对算法准确率的影响,提出了两个从训练数据角度优化basecalling算法的方法。首先,通过对基于人类训练集训练的模型在包括人类在内的五个物种上进行测试,其结果与这五个物种基因组中任意5-mers碱基的比例分布进行对比,发现训练集和测试集间基因组5-mers碱基比例分布的相似程度,决定在该测试集上碱基识别效果,即具有相似基因组5-mers碱基比例分布的数据集具有更好的测试效果。进一步地,证明了向训练集中补充缺乏的5-mers碱基类型有助于提升basecaller的准确率;同时,针对多聚碱基序列碱基识别错误率高的问题,证明了通过构建高比例多聚碱基序列的数据集可降低basecaller在多聚碱基区域错误率。上述工作对如何优化构建用于深度学习basecaller的训练集具有指导意义,提示一个5-mers碱基比例分布平衡且适度增加多聚碱基出现频率的训练集具备训练出广泛适用且具有较高准确率模型的潜力。(3)基于第一部分工作中深度神经网络,构建了可兼容甲基化碱基5mC的全碱基识别的basecalling算法。首先利用亚硫酸氢盐测序结果,结合参考基因组制作了包含5mC信息的五碱基数据集,然后将第一部分工作中基于编码器-解码器架构的深度神经网络应用于该数据集,结果表明,训练获得的模型对5mC检测准确率与5mC专用识别工具DeepSignal相近,超越了现有表现最佳的全碱基识别工具Nanopolish,在5mC碱基识别领域具有重要的应用价值。(4)构建了用于纳米孔过孔事件检测的自动化分析软件EasyNanopore。针对目前某些纳米孔分子检测实验需要对过孔事件特征进行统计分析的需求,开发了事件自动化检测软件EasyNanopore,采用多进程方式加速检测过程,并提供了用户友好的图形界面,且不需要提前配置任何运行环境,结果表明EasyNanopore不仅可以实现过孔事件的高效自动化检测分析,且效果与人工分析高度一致。