关键词:
循环肿瘤DNA
数据库
大数据分析
肿瘤液体活检
摘要:
研究背景:
长期以来,肿瘤是人类面临的主要健康威胁之一,肿瘤的早期检测和肿瘤进展状态监控一直是肿瘤防治的重点领域。肿瘤的早期检查往往会使用影像学检测或者组织穿刺活检。但是影像学的检测受到仪器分辨率的影响,检出的能力有限,对肿瘤性质的了解也仅限于形态和大小等方面。而组织活检是侵入性的取样操作,操作难度高,患者较为痛苦,同时也容易带来肿瘤的播散。此外,肿瘤活检受采样偏差和肿瘤异质性的影响明显,也难以重复取样,无法实时观察肿瘤进展情况。相比之下液体活检具有可以全面了解肿瘤特征,取样方便,样本可以反复获得等优势。因此寻找有效的液体活检肿瘤标志物是研究者亟待解决的问题。一般而言肿瘤标志物具有以下几个特征:一是能够很好地和其他非肿瘤疾病区分开、二是能够对肿瘤状况进行监控、三是为某类或者某些肿瘤类型所特有。常见的蛋白质标志物,比如癌细胞抗原、CA-125等在特异性和敏感性方面均不够理想。循环肿瘤DNA(ctDNA,circulating tumour DNA)是肿瘤衍生的DNA片段,在体液中的半衰期短,因此可提供肿瘤的实时快照,为肿瘤监测提供了另一条途径。ctDNA已经被大量研究证明出可以反映原发肿瘤的突变特征,同时肿瘤进展可以通过突变等位基因频率(VAF,variant allele frequency)和检测到的变异数量来监测,是较好的肿瘤标志物。
ctDNA在肿瘤早期筛查、寻找药物敏感标记和作为最小残留疾病标记上都具有重要地位。在目前的检测技术的支持下,大部分的肿瘤患者都可以检测出ctDNA。虽然ctDNA在指导治疗决策方面具有令人鼓舞的功能,但是ctDNA的可检测性因肿瘤类型而异,检测需要针对性的指导条件。因此需要一定量的数据基础,特别是针对不同的肿瘤或者不同ctDNA突变。
近年来,随着ctDNA检测技术的发展和研究的不断深入,ctDNA和肿瘤组织测序乃至和其他液体活检标志物之间的协调性和差异性,以及对ctDNA实用性的研究都有了不同程度的进展,ctDNA相关研究的数据的积累速度前所未有。目前,ctDNA研究领域内缺乏可靠的数据库,而对这些重要数据进行统一收集整理将有助于发挥其潜在的巨大价值。为此本研究设计了CATCH-DB(CAtalogue of Tumor Circulating DNA in Human)数据库,旨在促进ctDNA的研究,补充癌症研究领域的基础数据资源。
方法:
该数据库主要从文献、肿瘤类型以及突变三个层面进行标准化基础数据收集。通过人工阅读文献下载、查找、归纳、分析重要数据。经过对相应关键字的检索,我们获得并浏览了近十年的7000多篇文献,筛选出4000多篇与人类ctDNA研究相关文献。将纳入研究的文献进行收集整理,获得文献、样本和突变数据。文献数据包括文献名、文献摘要、作者以及出版年限、ctDNA提取方法等;样本数据包括:样本名称、病人名称、年龄、肿瘤临床分期、基因组版本号等;突变信息包括:突变基因、突变位置、VAF值、测序深度等。本研究进一步对突变信息按照对应的基因组版本号进行全面、统一的注释并剔除注释未成功的数据。由于克隆造血(CH,clonal hematopoiesis)一直是ctDNA检测中的污染源会影响数据的准确性,本研究还收集了克隆造血的相关信息以提高数据的可信度。为了使所有数据得到更好的利用,我们进行了统计学和生物信息学分析,包括针对不同肿瘤类型的ctDNA热点区域、不同突变基因的分析、GO富集通路分析、Reactome数据库富集通路分析、不同时间点的ctDNA样本分析展示等。最后构建了数据库网页对数据和分析结果进行展示,方便用户进行循环肿瘤DNA相关信息和临床价值评估。
结果:
本研究构建了一个ctDNA整合资源与分析平台CATCH-DB(本研究正投递SCI中故先不公开网址),该资源提供了一个用户友好的界面,用于存储、管理和解释来自多种肿瘤类型的ctDNA信息,旨在协助研究人员研究ctDNA的生物学和临床意义,为肿瘤研究领域基础数据资源提供有益的补充。本研究一共筛选出近十年的4000多篇相关文献,搜集整理了87篇文献中的样本和突变信息。从23,515个样本中获取230,388条突变信息,涉及30种不同类型的癌症和45种癌症亚型,还包括从87篇出版物获取的统计信息,如:高复发突变、基因体细胞突变频率,驱动程序之间的共存关系等。采用统一标准的流程对数据进行注释,从不同角度对数据进行整理分析。研究者可从文献、肿瘤类型、突变基因对数据库进行浏览、搜索,平台也提供了友好的帮助和下载页面。另外目前本研究的ctDNA数据大部分是从外周血和脑脊液中鉴定出来的。
结论:
CATCH-DB是第一个综合性整理循环肿瘤DNA数据的数据库。CATCH-DB允许通过肿瘤类型、突变基因等信息轻松访