UCSC Xena 数据集


下载数据集

一共有4种方式:

  1. spreadsheet的下拉菜单中有Download按钮,用于下载此单个column上的数据。

  2. 整个Visual Spreadsheet网页的右上角有一个下载按钮,用来下载当前页面中所有columns的数据。


  3. 想要下载整个数据集,则需要进入DATA SETS,进入对应数据集的页面,选择其下载链接进行下载。

  4. 还可以使用python和R的APIs进行下载,这将在和中具体介绍。

所管理的数据集

主要分为两大块:

  • TCGA,最常使用的数据集,其数据有以下4个版本:

    • TCGA Pan-Cancer Atlas,TCGA团队将33种癌症的基因组数据进行了整合,进行了泛癌研究。此数据集即TCGA团队在进行泛癌研究时使用的数据集,也可以看做是最终的数据集。
    • TCGA data from Genomic Data Commons,使用最新的Human Genome Assembly hg38,对TCGA数据重新进行了分析。所有的open-access数据被下载,并保存到UCSC Xena中,根据癌症的种类被分成了33个单独的studies。
    • TCGA data in the UCSC RNA-seq Recompute Compendium,使用UCSC bioinformatic pipeline(TOIL RNA-seq)对TCGA数据和GTEx数据进行了共分析(co-analyzed),可以用于比较tumor gene/transcript和normal gene/transcript的差异。
    • Legacy TCGA data,Pan-Cancer Atlas公布之前使用的TCGA数据,UCSC Xena hosts其level-3 data。

    关于TCGA的数据的进一步详细信息,我将另开一个来记录,其中将详细讲述这些数据。

  • 其他

    • UCSC RNA-seq recompute compendium:这个实际上和上面的TCGA data in the UCSC RNA-seq Recompute Compendium是一个数据集,这里之所以再介绍一遍,是因为这个项目中除了TCGA的数据外,还有TARGET和GTEx的数据集。
    • ICGC:全称International Cancer Genome Consortium,致力于描述癌症在全球范围内的基因组、转录组、表观组的变化。除了TCGA作为美国小组的数据外,还有来自世界其他各地ICGC小组成员提供的数据。其中UCSC Xena管理的是其中公开的non-coding somatic mutation data。
    • MET500:此数据来自研究: Robinson et al 2017 Integrative clinical genomics of metastatic cancer,是关于癌症转移性的研究。
    • CCLE:全称Cancer Cell Line Encyclopedia。是对于人类细胞系基因特征和药理学特征的综合描述。

文章作者: Luyiyun
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Luyiyun !
评论
评论
 上一篇
论文精读-VAE-2013 论文精读-VAE-2013
对变分自编码器(VAE)原论文的阅读。本文提出了一种新的技术,可以非常有效率地建模带有连续隐变量的数据。即特定是使用了神经网络来参数化后验分布和似然函数,并提出了重参数化的技巧来配合Monte Carlo梯度估计,从而可以使用SGD对上述模型进行训练。从另一个角度,其将自编码器和概率模型结合在一起,探索了一种新的自编码器框架。
2020-05-27
下一篇 
UCSC Xena绘制Kaplan-Meier曲线 UCSC Xena绘制Kaplan-Meier曲线
主要介绍了如何在UCSC Xena中绘制Kaplan Meier曲线
2020-05-25
  目录