关键词:
多重置换扩增
DNA测序
嵌合序列
结构变异
单倍型组装
摘要:
高通量DNA测序技术近二十年的高速发展将基因组研究带入了全新的阶段,基于单细胞水平的基因组研究,可以获取细胞间基因组的异质性信息,更加全面地展现生物体的复杂性,受到广泛关注。然而,单个细胞中的基因组DNA通常无法满足测序文库制备的要求,需要预先通过全基因组扩增技术(WGA)等提升DNA的绝对质量。其中,基于φ29 DNA聚合酶和随机引物的多重置换扩增技术(MDA)因具有持续合成能力强、扩增温度恒定、保真度高和产物分子长等优点而成为最常用的技术之一。然后,MDA链置换过程中,易发生两个不相邻DNA片段连接在同一DNA分子上的情况,即嵌合序列。嵌合序列会干扰基因组组装,影响单细胞结构变异研究。随着近年来单细胞测序技术的发展和广泛应用,嵌合序列的存在引起了越来越多的关注。
本论文针对MDA扩增中产生的嵌合序列,构建了面向不同测序平台的嵌合序列识别和统计流程,探索了嵌合序列的特征,通过序列重排提高数据的利用率,消除嵌合序列对基因组研究中的结构变异检测的影响,并将其应用于基因组研究中单倍型组装,降低了嵌合序列对基因组研究的影响,利用其蕴含的有效信息,提升MDA在基因组研究中的价值。论文的主要研究工作如下:
(1)发展了新型嵌合序列识别工具——Chimera Miner。相比于现有工具,在相同的计算资源条件下,Chimera Miner只需要43.4%的时间就能完成嵌合序列的检测,除83.60%的嵌合序列与现有工具一致外,还识别出大量现有方法漏检的嵌合序列(约占检出数的31.92%)。应用于单细胞全基因组测序数据时,Chimera Miner在所有的数据集中均能检测到嵌合序列,且嵌合序列的占比为0.93%~4.68%。上述研究证明Chimera Miner具有高效性和先进性,也表明了在测序数据中进行MDA嵌合序列检测是十分必要的。
(2)基于长读长测序探索全基因组测序数据中的嵌合序列分布规律。由于长读长测序技术在基因组研究中的优势,首次对MDA扩增后的单细胞水平DNA样本进行长读长测序,并构建了面向长读长测序数据的嵌合序列识别工具3rd-Chimera Miner,进行嵌合序列的特征分析。结果表明,长读长测序reads中存在嵌合现象的占比远高于二代短读长reads,呈现随着扩增时间的增加而逐渐增加的现象,比例从42%增加到78%以上;识别出的嵌合序列中99.92%不存在于原有基因组中;通过对序列重排,基于全长比对的数据利用率提升了175.90%以上。上述结果表明序列嵌合的现象对长读长测序数据影响更大,开发的工具准确率高,有利于降低嵌合序列的影响,提高长读长测序数据利用率。
(3)探索了嵌合序列对基因组结构变异检测的影响。从结构上来说,嵌合序列就是MDA扩增引入的假阳性的结构变异,严重干扰单细胞基因组结构变异研究。面向二代测序数据的嵌合序列识别工具Chimera Miner通过对嵌合序列的识别和去除,可以减少83.82%的假阳性结构变异;使用3rd-Chimera Miner识别长读长测序数据中嵌合序列并恢复其原始结构后,平均可移除97%的假阳性倒置结构变异,显著提高长读长测序在单细胞结构变异检测中的性能。
(4)探索了嵌合序列在基因组单倍体组装中的应用价值。由于组成同一嵌合序列的各部分在基因组的座落距离超过现有二代测序的读长,可能拥有现有测序reads无法提供的连锁关系,具有用于辅助单倍型组装的潜力。本论文首先通过两名男性来源细胞系YH-1和NA12877,构建了分型结果已知的人造二倍体,对嵌合序列中的连锁信息进行验证,结果表明99.86%连锁关系指向同一条X染色体,证明了MDA嵌合序列提供连锁信息具有高可靠度的同源性。随后,依次使用未扩增的测序数据组装原始的小片段单倍型,再基于嵌合序列提供的33,343个连锁信息,对组装的小片段单倍型进行缝合,单倍型片段的数量减少了7.20%,N50长度提高了55.77%,表明嵌合序列可用于辅助短读长测序数据的单倍型组装,经过适当优化后可以进一步提升辅助组装效果。
本论文构建了检测嵌合序列的工具和系统地研究了嵌合序列的特征和分布,对嵌合序列的处理,消除其对结构变异检测的影响,并进一步将其应用于单倍型组装中。