下载数据集
一共有4种方式:
spreadsheet的下拉菜单中有Download按钮,用于下载此单个column上的数据。
整个Visual Spreadsheet网页的右上角有一个下载按钮,用来下载当前页面中所有columns的数据。
想要下载整个数据集,则需要进入DATA SETS,进入对应数据集的页面,选择其下载链接进行下载。
还可以使用python和R的APIs进行下载,这将在和中具体介绍。
所管理的数据集
主要分为两大块:
TCGA,最常使用的数据集,其数据有以下4个版本:
- TCGA Pan-Cancer Atlas,TCGA团队将33种癌症的基因组数据进行了整合,进行了泛癌研究。此数据集即TCGA团队在进行泛癌研究时使用的数据集,也可以看做是最终的数据集。
- TCGA data from Genomic Data Commons,使用最新的Human Genome Assembly hg38,对TCGA数据重新进行了分析。所有的open-access数据被下载,并保存到UCSC Xena中,根据癌症的种类被分成了33个单独的studies。
- TCGA data in the UCSC RNA-seq Recompute Compendium,使用UCSC bioinformatic pipeline(TOIL RNA-seq)对TCGA数据和GTEx数据进行了共分析(co-analyzed),可以用于比较tumor gene/transcript和normal gene/transcript的差异。
- Legacy TCGA data,Pan-Cancer Atlas公布之前使用的TCGA数据,UCSC Xena hosts其level-3 data。
关于TCGA的数据的进一步详细信息,我将另开一个来记录,其中将详细讲述这些数据。
其他
- UCSC RNA-seq recompute compendium:这个实际上和上面的TCGA data in the UCSC RNA-seq Recompute Compendium是一个数据集,这里之所以再介绍一遍,是因为这个项目中除了TCGA的数据外,还有TARGET和GTEx的数据集。
- ICGC:全称International Cancer Genome Consortium,致力于描述癌症在全球范围内的基因组、转录组、表观组的变化。除了TCGA作为美国小组的数据外,还有来自世界其他各地ICGC小组成员提供的数据。其中UCSC Xena管理的是其中公开的non-coding somatic mutation data。
- MET500:此数据来自研究: Robinson et al 2017 Integrative clinical genomics of metastatic cancer,是关于癌症转移性的研究。
- CCLE:全称Cancer Cell Line Encyclopedia。是对于人类细胞系基因特征和药理学特征的综合描述。