NCI,全称为The National Cancer Institute,是美国联邦政府进行癌症研究、培训的政府部门,主要任务是领导、组织、支持国家范围的癌症研究,增进科学知识,任何人们获得更久、更健康。关于NCI的更多内容可以去参考其官网的介绍。
NCI的团队属于NIH(美国国立卫生院,the National Institute of Health)的一部分,而NIH是HHS(卫生与公共服务部,the Department of Health and Human Services)的一个11个下属部门之一。
HHS可以看做是美国的卫生部(当然职权更大),FDA就是其下属部门之一。
CCG(Center for Cancer Genomics,癌症基因组学中心)是NCI的一个机构,致力于综合不同领域的癌症基因组学研究(structural、functional、computational)来提高病人的治疗效果。CCG的项目和合作者提供了一系列癌症基因组学数据和临床数据,供全世界的癌症研究者进行研究(包括耳熟能详的TCGA)。
以下内容是对CCG官方介绍的整理,主要内容是癌症基因组学的介绍和CCG如何组织进行癌症基因组学研究。希望能够加深对癌症基因组学的理解,并且可以利用到CCG组织的一系列公共资源。
1. 癌症基因组学综述
cancer是一类疾病,主要原因来自于DNA的改变导致的细胞行为发生变化,一般是不可控的生长和增值(malignancy)。
malignancy,是一种疾病状态,一些异常细胞不受控制的分裂并侵入到临近的组织中。malignant cells还可以通过血液或淋巴系统扩散到身体的其他部分,更常用的叫法就是癌症(cancer)。有以下几种主要的类型:
- carcinoma(癌):始于皮肤或覆盖器官的组织(上皮性)。
- Sarcoma(肉瘤):始于骨骼、软骨、脂肪、肌肉、血管或其他结缔组织或支持组织。
- leukemia(白血病):来自于造血系统,导致不正常的血细胞的产生。
- lymphoma and multiple myeloma(淋巴瘤和多发性骨髓瘤):源自免疫系统。
- central nervous system cancers(中央神经系统癌症):源自大脑和脊髓。

DNA的改变有多种类型:
- mutations - DNA序列的任意形式的改变都被称为mutation或variant。其一般发生在细胞分裂或暴露DNA-damaging agents时,可能是有害、有益或无影响的。当mutation发生在生殖细胞中,则该突变可以遗传;当发生在其他细胞中则不可遗传。特定的突变可能会导致癌症或其他的疾病。 
- rearrangements 
- deletions 
- amplifications 
- addition or removal of chemical marks 

这些改变一般会导致产生异常数量的蛋白质或错误的蛋白质。通常来说,多种DNA改变一起导致了cancer的发生。人在一生中累计的基因变化成为获得性或体细胞改变(acquired or somatic changes),约占癌症所有病例的90%-95%。
genomics,指的是对人类的整个DNA set的研究。
- 通过对比癌症细胞和正常组织细胞的DNA或RNA序列,来研究那些genetic differences可能引起cancer。 - tissue的定义:一系列的细胞的组合,用来完成一个特定的功能。 
- 通过统计DNA编码的genes在正常细胞和癌症细胞间活跃性的差异,来理解到底那些蛋白质的异常或失活导致了癌症的发生。 
一旦癌症的发生机制被确定,科学家们就可以针对性的开发新的治疗、干预策略来治疗疾病,延长病人的寿命。其中最重要的一种手段是precision medicine。
precision medicine,利用癌症细胞的genetic changes来决定患者的治疗方案。
药物被设计以下面的这些方式来发挥作用:
- 抑制引发癌细胞异常生长的酶的活性
- 阻断基因表达特性
- 阻断癌细胞中超速运转的分子信号通路
gene expression的定义:是gene在cell中被转换成RNA或protein的过程,可以通过测量RNA、protein或protein的功能来进行定量。
以上这些靶向治疗只作用于癌细胞和正常细胞的不同特性,所以其相对于传统疗法(放疗和化疗)拥有更低的毒性。以下是已经在临床应用的例子:
- Imatinib(伊马替尼,Gleevec,格列卫,就是《我不是药神》里的药),是一种用于治疗白血病的药物,对其他癌症比如皮肤癌也有一定效果。其通过抑制白血病病人体内的Bcr-Abl络氨酸激酶的过度表达来达到治疗目的,而这通常源于一段特定染色体的rearrangement。
- Trastuzumab(曲妥珠单抗,Herceptin,赫赛汀)控制一种过度活跃的信号通路(HER2酪氨酸激酶),由一种乳腺癌亚型中HER2基因的多个拷贝引起的。
- Erlotinib(埃洛替尼,Tarceva,特罗凯)和gefitinib(吉非替尼,Iressa,易瑞沙)都限制了一种蛋白(表皮生长因子,EGFR)的激活,这种蛋白在肺癌亚群中由于蛋白突变而异常活跃。
另外,genomics research还通过定义更加精确的癌症亚型来为precision medicine做出贡献。更加精细的molecular substyle代表癌症的更加精确分类,有助于更加个体化的治疗。当前已经在临床发挥效果的癌症亚型分类有:
- 乳腺癌根据分子特征被分为不同的亚组(Luminal A, Luminal B, Triple-negative/basal-like, HER2),它们的侵袭性和对治疗的反应不同。
- 弥漫性大B细胞淋巴瘤可细分为ABC和GCB亚型,不同的患者对化疗方案和分子靶向治疗有着不同的反应。
- 2013年,TCGA计划确定了子宫内膜癌的四种亚型(POLE ultramutated, microsatellite instability (MSI) hypermutated, copy-number (CN) low, CN high),不同亚型的患者生存率不同。这项研究已经引发了新的临床试验,研究这些亚型如何改善子宫内膜癌的临床治疗。
- 含有ROS1基因融合的肺癌患者通常对一种名为克里佐替尼(crizotinib)的靶向治疗反应良好。
microsatellite instability (MSI),微卫星不稳定,一种发生在某些细胞(如癌细胞)中的变化,microsatellite(一段短而重复的DNA序列)中的重复DNA碱基的数量与遗传时的不同,这可能意味着DNA在复制的时候出现了错误。这在结直肠癌、胃癌和子宫内膜癌中最为常见,其他癌症也有。了解MSI可能有助于我们指定最佳的治疗方案。
2. CCG的研究
2.1 结构基因组学研究
结构基因组学(structural genomics)旨在了解癌症细胞相对于正常细胞,DNA、RNA发生了怎样的变化,这里的“结构”指的就是DNA和RNA。其典型的项目就是TCGA。
- 关键问题 - 哪些genes负责肿瘤的生长、转移和药物抵抗?
- 哪些分子特征导致了某些癌症类型要比其他类型更有侵袭性?
- 未来癌症的分子诊断应该是什么样子的?
 
- 工具和方法 - Next-generation DNA exome sequencing
- Next-generation DNA whole genome sequencing
- Total RNA sequencing
- Reverse phase protein array(RPPA)protein analysis
- Epigenomic analysis
 
- 项目和合作 - ALCHEMIST(辅助肺癌富集标记物鉴定及测序试验) - 这是一项precision medicine clinical trial,关于lung cancer,接受的病人满足下面的两种genomic特征: - EGFR改变 - epidermal growth factor receptor(表皮生长因子受体),是在一些细胞中存在的蛋白质,其和一种称为表皮生长因子(epidermal growth factor)的物质结合,参与控制细胞分裂和生存的信号通路。 
 其对应gene的突变会导致某些细胞产生更多的EGFR,这可能是导致癌细胞分裂更加迅速的一个原因。
 阻断表达EGFR的药物被用来治疗某些癌症。
 EGFR是一种受体酪氨酸激酶,也叫做ErbB1、HER1。
- ALK改变 - 间变性淋巴瘤激酶(anaplastic lymphoma kinase),在间变性大细胞淋巴瘤、神经母细胞瘤和非小细胞肺癌中常常发生变化。 
 ALK的改变可能会导致癌症细胞生长和扩算。
 ALK是一种受体酪氨酸激酶。
 - 分别接受erlotinib和crizotinib治疗。 - 这是CCG和NCI的Division of Cancer Treatment and Diagnosis(NCI下属的另一个组织)合作的项目。 
- CDDP(Cancer Driver Discovery Program) - CDDP旨在识别患者的驱动突变(占总突变的2%)。通过对大量病例进行测序,CDDP将具有足够的统计效能发现基因中可能驱动致癌过程的复发突变。涉及到的癌症类型有:肺癌、结肠癌和卵巢癌。 
- CGCI(Cancer Genome Characterization Initiative) 
- Cancer of Unknown Primary (CUP) Consortium 
- Clinical Trial Sequencing Project (CTSP) 
- Early Onset Malignancies Initiative (EOMI) 
- Exceptional Responders (ER) Initiative - 收集了100例有对药物治疗有特殊应答(疗效特别好)的患者的基因图谱。 
- Refractory Cancers 
- Therapeutically Applicable Research to Generate Effective Treatments (TARGET) 
- The Cancer Genome Atlas (TCGA) - TCGA是NCI和NHGRI(美国国家人类基因组研究所)的合作项目,已经生成了33种癌症关键基因组变化的全面、多视角图谱。TCGA数据集包含超过2pb的基因组数据,可以公开获取,并帮助癌症研究社区改善癌症的预防、诊断和治疗。 - 2018年4月,TCGA research networks发表了Pan-Cancer Atlas,一个cross-cancer analyses研究,标志着TCGA项目的结束。 - 关于TCGA更多的内容请参见链接和 
 
2.2 功能基因组学
Functional genomics research研究检查genome在癌症中的作用。通过测试从结构基因组学研究中得出的假设,或者从对癌细胞的实验中产生新的想法,功能基因组学研究揭示了癌症生物学的模式。这些模式有时可以直接转化为精确的治疗方案,比如CTD2网络的研究。
简单来说,结构基因组学类似探索性研究,而功能基因组学类似机制研究。
- 关键问题 - 癌症中改变的gene是如何导致癌细胞的的快速增殖和生存的?
- 药物和新的化合物是否可以有效影响癌症异常的分子通路?
- 病人活检产生的肿瘤模型能否用于了解治疗效果或耐药性的机制?
 
- 工具和方法 - CCG的功能基因组学研究使用癌症模型进行高通量药物筛选,使用RNA干扰和CRISPR-Cas9技术进行基因干扰实验,以及许多其他全基因组技术。目前,CCG的研究人员使用癌细胞系、生长在培养皿中的肿瘤类器官培养物,或携带人类肿瘤移植物的小鼠来确定特定基因改变的影响。认识到产生癌症模型的新方法的力量,CCG正在支持发展尖端的有机体和条件重编程细胞模型,以促进安全和有效的转换功能癌症基因组学发现到临床护理。 
- 项目和合作 - Cancer Target Discovery and Development (CTD2) Network
- Human Cancer Models Initiative (HCMI)
 
2.3 计算基因组学
- 关键问题 - 分析从大量患者中收集的癌症基因组数据集,能增强我们发现新的癌症驱动突变的能力吗?
- 展示癌症基因组数据的最佳方式是什么?为了让癌症研究人员能够探索和可视化大型复杂的数据集?
- 研究者如何有效地将来自多种模式的基因组数据整合成一个关于致癌通路的统一的观点?
- 哪些新技术提供了关于癌症机制的新观点?如单细胞DNA和RNA测序?
 
- 工具和方法 - computational genomics将算法和统计模型应用到big datasets。CCG使用Genome Characterization Pipeline来生成genomic、clinical数据集,然后通过GDC(Genomic Data Commons)分享数据,并且和NCI Cloud Resources积极合作。 
- 项目和合作 - Genomic Data Commons - 是CCG建立的统一的数据整合平台,其将各个研究团队提交的robust genomic data整合在一起,便于复用,并提供了一系列的可视化和分析工具。 - 详情可见官网介绍和 
- NCI Cloud Resources 
 
2.4 基因组描述管道
CCG协调美国和加拿大的研究团队,为癌症研究社区提供丰富的癌症基因组和临床数据集。其通过一个称为Genome Characterization Pipeline的高效和标准化的工作流程来实现这种协作。

- 组织收集和预处理 - Tissue Source Sites从每个病人收集癌症组织和正常组织(大多是血液),大多数组织使用FFPE(福尔马林石蜡包埋),还有一些使用快速冷冻技术。
 - CCG的Biospecimen Core Resource(BCR)有两个单位组成: - Biospecimen Processing Center at Nationwide Children’s Hospital负责对所有的组织进行处理,分离出DNA、RNA、蛋白质和其他分析物,然后送入CCG的Genome Characterization Centers(GCC)。
- Clinical Data Center at Information Management Services掌管知情同意,并进行审查,保证患者的隐私安全。
 
- 基因组特征 - GCC接受BCR的DNA、RNA和proteins分析物,并产生数据。不同类型的物质将在不同的单位进行测序: - The Broad Institute负责DNA,执行全基因组测序和全外显子组测序。
- The University of North Carolina负责RNA,执行全RNA组测序。
- MD Anderson Cancer Center负责proteins,得到RPPA。
 
- GCC将得到的raw sequence data、相关的metadat、其他characterization data一起发送给GDC,以便于Genomic Data Analysis Network(GDAN)和癌症研究社区使用。 
 
- 基因组数据分析 - GDAN是一个CCG牵头成立由大量的研究团队(来自美国和加拿大)组成的研究范式。这些组织会收到GDC的数据并按照设计好的研究流程对GDC上的数据进行分析并发布结论。每个团队会负责其擅长的部分,比如数据预处理、癌症驱动、可视化等子课题。 - UCSC的Jingchun Zhu领导的团队就是其中一员,负责GDC数据的可视化展示。 
- 全球其他癌症研究团队可以从GDC中获取GDAN的分析数据来开展新颖的研究,以促进癌症基因组学的发展。 
 
 
                     
                     
                        
                        