(史上最全)SNP位点与转录因子结合特异性数据库:GVATdb
众所周知,全基因组关联分析(GWAS)发现的很多变异位点基本为非编码,这些变异位点1)要么调控基因表达(eQTL); 2)要么影响增强子活性; 3)要么影响转录因子(TF)结合特异性; 4)要么啥也不是。
针对以上四种情况:
1)是否调控基因表达(eQTL)可通过GTEx(https://gtexportal.org/home/)查询。
2)是否影响增强子活性可通过之前的推文查询:感兴趣的SNP/区域上是否有增强子/转录因子?增强子/转录因子调控哪个靶基因?(EnhancerDB)
3)是否影响转录因子(TF)结合特异性则可通过今天介绍的数据库进行查询:GVATdb(http://renlab.sdsc.edu/GVATdb/search.html)
上周Nature发了一篇文献Systematic analysis of binding of transcription factors to noncoding variants
。
该文献针对95,886个常见变异位点(SNPs,欧洲和亚洲人群的MAF> 1%)与270个转录因子的结合特异性进行了大量的SNP-SELEX实验,并以此构建了GVATdb数据库。
下图是针对转录因子或者SNP位点进行检索的实验结果图:
每列的释义如下:
oligo_auc:转录因子与40bp DNA 序列的结合得分, 用AUC(Area under Curve)值表示;
oligo_pval:对OBS进行25,000次蒙特卡洛随机化后得到的p值。p<0.05表示TF与基因组片段的特异性“结合”;
Alt:SNP(hg19)的替代等位基因;
Ref:SNP(hg19)的参考等位基因;
ref_auc:ref 与 TF 的结合得分;
alt_auc:alt 与 TF 的结合得分;
pbs:结合倾向性得分,公式为:Ref 等位基因得分减去 Alt 等位基因得分,负值表示转录因子更倾向于结合 Alt 等位基因;
p-value:对 PBS 进行25,000次蒙特卡洛随机化后得到的 p 值。 p<0.01 表示 TF 与 Ref 等位基因和 Alt 等位基因结合“存在差异”。
此外,对于没有纳入 SNP-SELEX 实验的 SNP 位点,作者还建立了 deltaSVM 模型,用于预测未纳入的 SNP 位点与 TF 的结合特异性,如下图所示:
参考文献:Yan J, Qiu Y, Dos Santos A M R, et al. Systematic analysis of binding of transcription factors to noncoding variants[J]. Nature, 2021: 1-5.
由于这个网站相当简单易懂,本次推文就不多介绍啦,祝各位周末愉快~