关键词:
焦磷酸测序
微单倍型
机器学习
单倍型分型
混合DNA反卷积
法医遗传学
摘要:
目的:
近年来,微单倍型(Microhaplotype,MH)遗传标记在法医DNA分析领域受到广泛关注。作为一种multi-SNP遗传标记,MH兼具高多态性,无stutter,扩增片段长度较小等诸多优势。许多研究团队基于大规模并行测序(Massive Parallel Sequencing,MPS)平台相继构建了复合MH体系,结果表明MH在检出次要贡献者,检测降解样本,改善扩增平衡性,以及提高体系灵敏度等方面具有优越的性能,在法医混合DNA反卷积分析领域中具有广阔的应用前景。
目前,除了少部分含有两个SNP的MH可通过扩增阻滞突变系统 PCR(Amplification Refractory Mutation System-based PCR,ARMS-PCR)和SNaPshot技术在毛细管电泳(Capillary Electrophoresis,CE)平台上进行检测,其余绝大部分研究都集中于MPS平台。然而,由于高昂的实验成本以及复杂的实验流程,使得MPS在大部分基层法医DNA实验室难以推广。而焦磷酸测序(Pyrosequencing,PSQ)由于其出色的检测能力,相对经济的成本以及简便的操作步骤在大部分实验室均得到广泛应用。PSQ利用一系列级联酶促反应产生的光信号确定DNA的核苷酸序列,是一种无需依赖凝胶分离和荧光标记的测序技术。基于边合成边测序的基本原理,PSQ能够检测基于序列的遗传标记,并且具有良好的定量能力。根据PSQ技术的以上特点,MH同样也有望通过PSQ平台进行检测。
在第一部分,我们对复合MH-PCR-PSQ体系进行概念验证工作。首先,我们需要筛选与PSQ平台适配的MH位点,这些位点兼具高度多态性与较小片段长度。在此基础上,根据待测MH序列设计相应碱基分配顺序,以获得高质量PSQ图谱,并实现单倍型分型及保证复合位点PSQ信号的唯一性。由于复合位点PSQ信号之间具有高度相关性,因此我们在后续数据处理阶段需要开发相应神经网络算法对复合位点PSQ信号进行解析。
在第二部分,我们构建了用于混合DNA反卷积的复合MH-PCR-PSQ体系。为提升体系的个体识别能力,需要继续增加多态性MH位点。由于混合DNA的引入,复合位点PSQ信号的复杂度随之增加。因此,需要设计相应算法实现混合DNA反卷积。并通过检测不同混合比以及不同贡献者人数的混合DNA探究复合MH-PCR-PSQ体系的反卷积效能。
方法:
1.从千人基因组计划(1000 Genomes Project,1KGP)第三阶段(GRCh37.p13)数据库中筛选MH构建复合体系。以所有待测序列为基础,设计优化的碱基分配顺序,以实现单倍型分型并保证复合位点PSQ信号的唯一性。经过体系优化调整,获得单一位点及复合位点的高质量PSQ图谱。在碱基分配顺序的每个位置对PSQ信号的峰高进行建模,生成大规模单一位点及复合位点模拟PSQ信号,以满足后续神经网络算法对于庞大数据量的需要。本研究首次提出了基于对比学习的神经网络算法的复合位点PSQ信号解析方法。
2.在第一部分复合体系的基础上继续增加MH位点,构建用于混合DNA反卷积的复合MH-PCR-PSQ体系,并生成相应大规模单一位点及复合位点模拟PSQ信号。制备不同混合比及包含2-5人的混合DNA,并获得相应复合位点PSQ信号。本研究提出了基于Lasso回归的变体算法对复杂高度相关PSQ信号进行混合DNA反卷积。
结果:
1.第一部分研究的主要结果如下:(1)本研究成功构建一套能够同时纳入四个MH的复合MH-PCR-PSQ体系,经过优化调整能够获得复合位点的高质量PSQ峰高信号,完成了复合MH-PCR-PSQ体系的概念验证。(2)本研究所提出的碱基分配顺序生成算法,首次在MPS平台以外实现了同时对多个MH遗传标记的准确分型,并且能够保证复合位点PSQ信号的唯一性。(3)本研究通过在碱基分配顺序的每个位置上进行峰高与碱基个数的最小二乘回归建模,首次明确了峰高与碱基个数的确切数量关系。(4)在PSQ信号峰高建模的基础上,自动化生成大规模单一位点及复合位点模拟PSQ信号。以实测PSQ信号和模拟PSQ信号为基础,构建了应用于后续神经网络解析算法的数据集PSQ-8和PSQ-1440。其中PSQ-8的训练集为模拟信号,测试集为实测信号。PSQ-1440的训练集和测试集均为模拟信号。(5)本研究在复合位点PSQ信号解析领域中首次结合对比学习的思想,建立了精度更高的神经网络算法CLPSQ-Net。
2.第二部分研究的主要结果如下:(1)以第一部分的研究为基础,共成功筛选出十三个高多态性的短片段MH位点,能够获得单一位点的高质量PSQ信号,并且可实现MH等位基因的准确判读;(2)通过新增的九个MH位点,进一步验证了最小二乘回归对单一位