肿瘤分析数据挖掘及信息解读
肿瘤基础
特点:
- 疾病,无线增殖
- 基因相关
- 细胞进化过程中发展异常,突变积累
概念:
- germline mutation: 生殖细胞突变
- somatic mutation: 体细胞突变,不可遗传
- driver mutation 关键突变
- passenger mutation 无关紧要
二次打击学说:
生殖细胞和体细胞突变双重打击引发,体细胞积累起关键。所以后续主要是以体细胞突变研究为主。
癌症基因组研究趋势:
小样本WES——大样本multiomics——新技术(液体活检、免疫疗法、人工智能、微生物与肿瘤、肿瘤数据中心建设)
研究情况:
- 生殖道、呼吸、泌尿等系统
- WES和WGS为主,多组学是趋势
肿瘤基因组基础
突变特征:
- 点突变,Indel
- CNV (K——M),增加或减少(纯合与杂合)
- SV
- Pathogen 病毒插入
功能划分:
- oncogene 癌基因
— 功能性或激活性突变
— 热点突变 - tumor suppressor gene 抑癌基因
— 截短型或失活性突变
— 突变分散
基本数据分析:
- 成对研究,如癌症癌旁
- GATK
- 标准化数据——降维提取关键信息
肿瘤高级分析与整合:
内容:
- 超突变样品检测
- 显著突变基因
- 新抗原预测
- 局部拷贝数变异
- 病毒整合分析
- 生殖系突变过滤
- 突变特征分析
- SV突变特征分析
- 突变链不对称分析
- 突变网络分析
- 肿瘤分子分型
- 肿瘤克隆进化与异质性分析
- 药靶数据库注释
- TCGA数据库分析
肿瘤高级分析模块
四大模块:
1. SNV和InDel
1. 1体细胞SNV和InDel
1)超突变样本分类
常规肿瘤(regular-mutated mutations) VS 超突变肿瘤(hyper-mutated mutations)?
一般要将这两种类型样本区分来进行数据分析。
超突变样本:
体细胞突变数目显著高于常规肿瘤样本。致癌机制一般不同于正常突变肿瘤。
超突变来源:
外源性诱变、内源性突变、错配修复基因突变。
如何判断超突变样本:
- 突变数目,即肿瘤突变负荷(TMB)
- 样本MSI状态(MSI-status)
- DNA错配修复基因是否发生突变(MMR mutation)
2)SMGs
SMGs(significantly mutated genes)显著突变基因(驱动基因,肿瘤发生发展起关键作用)
SMGs鉴定软件:
- MutSigCV:根据频率
- MutSigfN:根据功能
- MutSigCL:根据位置,热点突变
3)突变特征(mutational signatures)分析
肿瘤中体细胞突变大部分是由于暴露诱发,各种诱发因素在突变特征谱上表现不同。
目的:
为了描述肿瘤在形成过程中哪个突变特征代表的内界或外界环境因素起着至关重要的致癌作用。
总共96种突变特征类型:单碱基替换6种类型(如下图)* 前1bp的4种碱基 * 后1bp的4种碱基 = 64
将各种诱发因素相关的突变特征频谱进行拆解。
软件:
- SigProfiler:COSMIC开发,针对单碱基、双碱基及小的InDel
signatures突变特征数据是不定期更新的。
4)突变链非对称性分析
癌症基因组中复制和转录产生的链非对称性普遍存在。
非对称性突变原因:
- 冈崎片段长时间暴露
- DNA聚合酶矫正缺陷
- DNA错配修复
软件:
- AsymTools:输入SNV/InDel——输出Asymmetry signature
5)新抗原预测
MHC:
即主要组织相容性复合体,又称主要组织相容性复合基因,是存在于大部分脊椎动物基因组中的一个基因家族,与免疫系统密切相关,其中人类的MHC糖蛋白又被称为人类白血球抗原(HLA)。
肿瘤新抗原:
肿瘤细胞产生的非同义突变会导致肿瘤细胞表达异常蛋白,这些异常蛋白如果在细胞内被降解为短肽段(抗原表位),再与MHC分子高亲和力结合,并以复合物形式呈递到细胞表面,将被T细胞识别并引起T细胞活化,进而攻击肿瘤细胞,这种会引起T细胞活化的异常蛋白被称为肿瘤新抗原。
通过对非同义体细胞突变的分析,结合患者的HLA分型可以预测出新抗原。
软件:
- pVACSeq:输入SNV/InDel(non-synonymous)——neoantigen prediction
结果rank排序
1. 2生殖系SNV和InDel
生殖系突变又称为遗传性突变,是通过父母遗传给后代的突变。这些突变往往在肿瘤易感中发挥重要作用。了解它们可提前预防,减少患癌风险。
2.CNV
2.1 局部(focal)显著CNV分析
软件:
GISTIC
3. SV
3.1 SV特征(signature)
SV signature类似于mutation signature,不同突变特征的产生代表了不同的变异机制。
首先采用DBSCAN聚类算法来区分局部聚集的和分散的体细胞SV,然后根据变异类型(倒位、缺失、串联重复和易位)和长度(1-10kb, 10-100kb, 0.1-1Mb, 1-10Mb, >10Mb)将结构变异分为32类,最后使用贝叶斯非负矩阵分解(NMF)算法来提取SV特征以鉴定不同的重排模式。
3.2 病毒插入整合分析
研究目的:
- 病毒是一种重要的致癌因子,导致了10%-15%的肿瘤,如肝癌、宫颈癌,约95%的宫颈癌是由HPV感染导致。
- 病毒基因组插入到人基因组会引起宿主基因组不稳定,突变积累,引起整合位点附近剧烈的拷贝数变化。
- 帮助理解病毒的致癌机制。
分析流程:
4 整合分析
4.1 肿瘤内部克隆进化与瘤内异质性分析
肿瘤异质性:
- 瘤间异质性
- 瘤内异质性,是肿瘤内部克隆进化的结果。如同一个体不同位置取样
克隆进化研究意义:
阐释肿瘤发生、发展和转移过程中的细胞群体变化规律,找出针对肿瘤不同发展阶段的主要瘤内亚克隆的治疗策略。
分析:
分析结果一般以鱼型图或进化树方法展示:
4.2 突变网络分析模块
1)通路富集分析
基因之间通常相互作用,在某些生物学功能中发挥重要作用。
通路富集初步分析基因可能参与的生物学过程或信号通路,了解肿瘤发生发展机制。
2)互斥和协同突变分析
观察基因突变间的相互作用以及突变类型上的一些规律,结合基因功能、样本分群或肿瘤亚克隆分类等阐释生物学意义。
应用:
- 定义肿瘤亚型
- 定义驱动基因
4.3 肿瘤分子分型
- 基于高频突变基因
- 基于多组学数据聚类分析
- 基于突变特征
4.4 数据库注释
- TCGA:将感兴趣的基因在各种肿瘤中的突变频率、拷贝数扩增或缺失频率。
- CIViC:药靶数据库,针对特定体细胞突变,预测靶向治疗的反应
- 其他IGCG,COMIC等。。。
- 泛肿瘤组学数据库系统 bgiPETA