GenomeScope评估基因组大小和杂合度

在测序一个新物种时，首先需要对该物种的基因组结构有所了解，包括以下几个内容：

基因组大小
重复片段大小
杂合度大小

基因组越大，杂合度也大，重复片段越大，该物种的组装难度就越大。通常我们会通过genome survery分析，对以上几个指标进行简单评估，核心就是通过kme 分布来进行评估。

对于不同的基因组杂合度，kmer分布如下

当杂合度为0.001时，只有一个峰；当杂合度为0.01和0.02时，都有多个峰。通过探究杂合度和kmer分布图之间的关系，可以通过kmer分布来评估杂合度。
GenomeScope 软件可以根据kmer分布，评估基因组大小和杂合度，github地址如下

https://github.com/schatzlab/genomescope

安装过程也比较简单，直接下载就可以了

git clone https://github.com/schatzlab/genomescope

在软件的安装目录下，genomescopre.R文件是核心的运行脚本，用法如下

Rscript  genomescope.R kmer.hist 31 150 test

第一个参数 kmer.hist 是jellyfish软件产生的kmer频数分布数据，第二个参数31代表kmer的长度，第三个参数150代表序列读长，第四个参数test 代表输出目录的名称。

在运行过程中，会输出如下信息

GenomeScope analyzing kmer_hist k=31 readlen=150 outdir=test
Model converged het:0.0236 kcov:21.7 err:0.00575 model fit:2.21 len:67340147

het表示杂合度，为2.36%；len表示基因组大小，为67M左右。输出目录文件列表如下

├── model.txt
├── plot.log.png
├── plot.png
├── progress.txt
└── summary.txt

通常关注summary.txt,plot.png 这2个文件就可以了。

1. summary.txt

内容如下：

GenomeScope version 1.0
k = 31
property               min            max               
Heterozygosity         2.3105%        2.40497%          
Genome Haploid Length  66,465,582 bp  67,340,147 bp     
Genome Repeat Length   49,595,265 bp  50,247,848 bp     
Genome Unique Length   16,870,317 bp  17,092,300 bp     
Model Fit              80.781%        94.5621%          
Read Error Rate        0.574733%      0.574733%

在该文件中，会给出杂合度，基因组大小。重复片段长度等详细信息。

2. plot.png

示意图如下：

蓝色区域是实际观测到的kmer分布，红色线条下方是一些频数很低的kmer,这些kmer被认为是测序错误，黑色线条下方被认为是可靠的kmer数据，只拿这部分数据来评估基因组的大小，垂直的虚线认为是kmer的几个峰值，黄色线条下方的区域认为是非重复区域的大小。

杂合度，大多数真核生物有两个匹配的染色体组 ; 也就是说，它们是二倍体。二倍体生物在其两组同源染色体中的每一个上具有相同的基因座，除了在一对配对中的两个染色体之间这些基因座上的序列可能不同之外，并且作为染色体性别决定系统的一部分，一些染色体可能会错配。如果二倍体生物的两个等位基因相同，则该生物在该位点是纯合的。如果它们不同，则该生物体在该基因座处是杂合的。

当两个同源染色体上的基因的等位基因相同时，该细胞被认为是一个特定基因的纯合子。[2]有问题的细胞或生物称为纯合子。真正的繁殖生物对于保持不变的性状总是纯合的

当二倍体生物体的细胞包含一个基因的两个不同等位基因（一个野生型等位基因和一个突变等位基因）时，它在基因座处是杂合的。细胞或有机体被称为杂合子，专门用于所讨论的等位基因，因此，杂合性是指特定的基因型。杂合基因型由大写字母（代表显性/野生型等位基因）和小写字母（代表隐性/突变等位基因）表示，例如“ Rr”或“ Ss”。或者，假定基因“ R”的杂合子为“ Rr”。大写字母通常是首先写的。如果所讨论的特征由简单（完全）优势决定，则杂合子将仅表达由显性等位基因编码的特征，而由隐性等位基因编码的特征将不存在。在更复杂的支配方案中，杂合性的结果可能更复杂。 杂合基因型可以比纯合显性基因型或纯合隐性基因型具有更高的相对适应度-这被称为杂合子优势。

（1）基因组大小的获取关系到对以后组装结果的大小的正确与否判断；基因组太大（>10Gb），可能会超出了目前denovo组装基因组软件的对机器存的要求，从客观条件上讲是无法实现组装的。一般物种的基因组大小可以从公共数据库查到。如果没有搜录，需要考虑通过实验（流式细胞仪福尔根染色/定量pcr/）或Kmer估计法来获得基因组大小。

（2）杂合度对基因组组装的影响主要体现在不能合并姊妹染色体，杂合度高的区域，会把两条姊妹染色单体都组装出来，从而造成组装的基因组偏大于实际的基因组大小。一般是通过SSR在测序亲本的子代中检查SSR的多态性。杂合度如果高于0.5%，则认为组装有一定难度。杂合度高于1%则很难组装出来。杂和度估计一般通过kmer分析来做，降低杂合度可以通过很多代近交来实现。杂合度高，并不是说组装不出来，而是说，装出来的序列不适用于后续的生物学分析。比如拷贝数、基因完整结构。

张绍铃团队于2012年成功组装了世界第一个梨基因组。本研究在梨基因组测序的基础上，利用12个花粉单细胞对所构建的3.8万条人工染色体（BAC）进行单倍型分型，并成功组装了两套单倍型基因组，该方法被命名为Bar-coding。论文共同第一作者、南京农业大学教授吴俊介绍，他们通过这种方法鉴定出了原参考基因组中8.12%的由于杂合引起的嵌合组装基因，并对所测定基因组（砀山酥梨）两个倍型之间的差异进行了系统性分析。

麦谷（如面包小麦，硬质小麦，大麦和黑麦等）是欧洲重要的社会经济作物。麦谷基因组高度复杂且大小不等，范围可从大麦的~5Gb到面包小麦的~16Gb，基因组中DNA重复比例庞大，可高达85%-90%。正因如此，麦谷的参考基因组直到最近才完成，并且得到参考基因组并不完整，仅代表了真实基因组大小的88%-98%。那么这些缺失部分的组成是什么呢？

已知大型的重复序列区域一直是基因组测序和组装的挑战，并且会导致大多数基因组序列中产生缺口、错误组装和串联重复的压缩。来自捷克的科学家Veronika Kapustová等人对两种麦谷基因组了进行研究，目的在于发现基因组中的缺失部分，并找到可以改善和提高大型基因组组装的测序技术。他们重点关注了短读长测序技术无法很好组装的长串联重复序列（tandem repeats）。研究结果显示，在使用短读长序列生成的面包小麦参考基因组中，作者发现了3个串联重复序列，长度范围为1167bp到2726bp。其中一个单位大小为2726bp的重复区域，其基因组序列只能在添加来自带有该重复序列的两个BAC克隆的纳米孔测序的信息以及光学作图以后才得以解决。使用纳米孔测序，作者鉴定并定位了大麦参考基因组中缺失的长达470kb的45S核糖体DNA阵列。

来源：

https://www.jianshu.com/p/98f5a65be8b2

https://en.wikipedia.org/wiki/Zygosity

https://www.cnblogs.com/renping/p/7156251.html

http://mini.eastday.com/a/191105184453711.html

https://www.sohu.com/a/323356168_732029