关键词:
新型冠状病毒
共突变模式
基因分型
进化路径
基因重组
摘要:
2019 年末,由新型冠状病毒(Severe Acute Respiratory Syndrome Coronavirus 2,SARS-CoV-2)引发的疫情迅速传播至世界各地,给人类生命安全造成巨大损失。随着疫情的发展,SARS-CoV-2出现基因突变和基因重组的现象,使疫情防控面临严峻考验。所以,需要明确SARS-CoV-2的变异过程和进化方向,从而为预测和防控危险变异株提供科学指导。得益于完善的监测系统和高通量测序技术,SARS-CoV-2的全基因组数据日益增多,为进化研究提供了宝贵资源。所以,本论文采用生物信息学方法,分析数据库中公开的SARS-CoV-2和其他冠状病毒的序列,系统探索SARS-CoV-2的遗传进化,揭示其突变模式、进化路径和重组特征,为新型冠状病毒疫情的防控提供重要科学依据。
本论文分析了疫情早期SARS-CoV-2和其他冠状病毒的序列相似性和亲缘关系。结果显示,在全基因组上,SARS-CoV-2与中华菊头蝠冠状病毒RaTG13的相似度最高,亲缘关系最近;在宿主特异性相关的受体结合区域(Receptor Binding Domain,RBD),SARS-CoV-2与马来穿山甲冠状病毒的相似度最高,亲缘关系最近。其次,分析疫情持续三个月以来的1804条SARS-CoV-2全基因组,其序列间相似度大于99.9%。突变分析发现,基因组上存在位点联合突变的现象,如C241T,C3037T,C14408T,C23403G 共同发生,C8782T,C28144G 共同发生等,表明 SARS-CoV-2进化过程中存在基因组位点共突变模式。
进一步,基于基因组位点共突变模式发展了 SARS-CoV-2分型体系。本论文基于共突变对识别算法,从444,478条全基因组中识别出474个共突变对,并将其合并为42个共突变模块。通过将共突变模块映射至基因组上,SARS-CoV-2被划分为43个进化关系明确的基因型,他们对应了进化树上43个进化关系明确的分支。相比于通过划分进化树构建分型体系的方法,本论文着眼于数百个频率高且/或影响功能的重要突变信息,忽略不重要的位点信息,以此提高了计算效率,适用于大规模的进化计算和可视化;另外,我们捕捉到的进化簇反映了病毒进化过程中显著的功能变化,尤其是免疫逃逸,对疫情的防控和危险变异株的预警有指导作用。
基于共突变模块分型体系,本论文揭示了 SARS-CoV-2的进化路径和传播模式。进化分析显示,SARS-CoV-2以G3基因型为亲本,不断演化出子代亚型。其中,G3.2.6、G3.2.10、G3.***.2.1、G3.12、G3.13.1、G3.14 和 G3.14.1 分别对应于 Alpha,Gamma、Lambda、Beta、Iota、Kappa 和 Delta 变异株。时空分析表明,SARS-CoV-2进化早期的随机性和多样性高,晚期通常演化出区域特异性的基因型。提示在疫情后期,各国家要更加注重防控措施精准化及特异化。另外,本论文构建了CMM-grouping服务器用于在线分型和变异株监测(http://218.***.234.74:8001)。
在共突变模块分型体系的基础上,通过判断共突变位点的基因型来源及分布结构,本论文开发了识别SARS-CoV-2重组事件的有效算法。截至2021年10月31日,共识别出1,229条重组毒株。时空分析指出,亲本基因型从重组事件的开始到结束始终保持共同流行,重组体则以“凸”形曲线的模式低频存在一段时间后消失。另外,S和N基因的两端常形成重组连接;重组体的RBD片段完整的继承于一个亲本基因型,表明RBD在SARS-CoV-2重组进化中被保守遗传。最后,构建了SARS-CoV-2的遗传图谱,明确显示突变体和重组体之间的进化关系。
综上所述,本论文对SARS-CoV-2的突变模式、进化路径和重组特征做出了较全面的总结,为新型冠状病毒疫情的防控提供理论依据,也将为未来可能出现的新发突发冠状病毒疫情的早期预警提供指导意见。