关键词:
上游开放阅读框
5’端非翻译区
功能富集
突变注释
摘要:
背景与目的 根据中心法则,转录是以基因组上的DNA序列为模板,合成为RNA序列的过程。其中产生的信使RNA(messenger RNA,mRNA)携带遗传信息,翻译出相应的蛋白质,作为生命活动的承担者。 与原核生物不同的是,真核生物的转录过程,经历了以下步骤:1.以基因组DNA为模板复制出一段mRNA前体,即pre-mRNA。2.在pre-mRNA的5’端加上经过甲基化修饰的鸟嘌呤(5’capping)。5’端帽结构对mRNA的翻译起始具有重要的作用,它参与核糖体复合物(ribosome)对mRNA的识别,介导核糖体复合物与mRNA的结合,使核糖体复合物浏览mRNA序列并选择识别AUG起始密码子而开始相应肽链的合成,这个过程被称为“依赖于帽结构的翻译起始"(cap-dependent translation initiation)。另外,5’帽结构亦增强了mRNA的稳定性,避免新合成的mRNA因核酸外切酶所降解。***剪接(mRNA splicing),即pre-mRNA去除内含子保留外显子的过程。同一段pre-mRNA可具有不同的剪接方式,从而最后呈现为序列各异的成熟uRNA,即选择性剪接。4.多聚腺苷酸化(pohyadenylation),即通过polyA聚合酶,在pre-mRNA的3端加上一段腺苷酸(数目各异,通常为几百个),即poryA序列。这段序列会被多聚腺苷酸结合蛋白结合并产生保护作用。 从序列特征而言,一个典型的编码蛋白的人类成熟nRNA可以分成以下几个部分(从5’端到3’端):5’端帽结构;5’端非翻译区序列,即5’UTR(5’untranslatedregion);编码蛋白质的序列(CDS,coding sequence,以起始密码子开头,以终止密码子结束),也叫开放阅读框(ORF,open reading frame);3’端非翻译区序列,即3’UTR(3’untranslated region);以及PolyA尾。 成熟rnRNA的5’UTR序列,包含着调控元件,影响着下游主要开放阅读框的翻译。不同的mRNA其5’UTR序列长度各异,从几十到数千个碱基不等。 5’UTR序列含有多种影响下游主要开放阅读框翻译的调控元件,包括uAUG(upstream AUG), uORF(upstream open reading frame), IRES(internal ribosome entry site)以及hairpin结构。一条mRNA链翻译的开始,是核糖体40S亚基首先识别InRNA的5’帽结构并结合在mRNA分子上,然后从5’端至3’端方向浏览InRNA,寻找合适的AUG起始密码子并开始翻译[7]。于是,在真正的翻译起始密码子与5’帽结构之间,还可能会存在AUG,我们将这些AUG称为uAUG,当uAUG与其后的序列形成一个开放阅读框(AUG开头,终止密码子结尾,并且总的碱基数为3的倍数)时,则称这个开放阅读框为uORF,它是相对于下游主要开放阅读框(main open reading frame)而言的[8]。 过去对包括人类的哺乳动物的成熟mRNA的5’UTR研究发现,5’UTR中存在uAUG和uORF并非罕见的现象,存在uAUG或uORF的5’UTR占已研究对象总数的12%50%[13]。其中uORF的存在对下游主要开放阅读框的翻译效率起着重要调控作用,它主要是通过引发nRNA的降解(mRNA decay)或调节翻译来控制基因的表达水平。有研究表明,当一个mRNA存在uORF调控的机制时,那么uORF结构的破坏,会导致许多人类疾病的发生,包括肿瘤,代谢或神经系统疾病等[10]。如HR和TPO基因,这两个基因的转录本5’UTR上均含有uORF结构,但当它们的结构被破坏(前者是uORF的起始密码子突变,后者是uORF序列产生了一个新的终止密码子),分别导致了MUHH遗传性稀发症和血小板增多[4]。 与之相对的,当一个基因的5’UTR序列在野生型状态下没有uORF结构但是突变产生了uORF序列,同样会显著影响下游主要开放阅读框的生理性表达,而导致疾病。截至2013年,共报道14例这样的突变,其中包括HBB, POMC等基因,由于它们突变后产生了新的uORF,而分别导致了p地中海贫血(β-thalassemia)和阿黑皮素原缺陷症(Proopiomelanocortin deficiency)。 在现有的数据库中,人类基因组有多少含有uORF的基因?含有uORF的基因是否富集于某个功能亚类中?uORF的起始密码子两侧序列文本是否与真正的翻译起始密码子序列文本有明显的差异?最后,目前主流的疾病和肿瘤数据库中,所报道的基因组的variation,还有哪些是和uORF的产生或消失相关?并且实验验证,这些突变是