测序总结，高通量测序名词

主要来自：http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQ

测序的黄金标准：一代测序了，故称之为黄金测序。

高通量测序最近这几年很火越来越火，但是世界上更多的还是一帮天天做分子克隆、养细胞、养细菌、杂蛋白的生物学家，究其原因Sanger测序还是测序届的金标准，由于精确度高于2、3代测序且保持大白菜价格使之地位稳固。

应用范围:De Novo测序、重测序: 如突变检测、SNPs、插入、缺失克隆产物验证、比较基因组、分型: 如微生物和真菌鉴定、HLA分型、病毒分型

其它: 如甲基化分析（重亚硫酸盐测序）和SAGE（基因表达串联分析）方法

临床应用：肿瘤突变基因的检测和肿瘤个体化治疗。

C值：是指真核生物细胞中,单倍细胞核(受精卵或二倍体体细胞中的一半量)里所拥有的DNA含量

正义链：又称编码链，DNA双链中与RNA序列一致（T替代U之后）的单链序列，。与mRNA核苷酸序列相同的那条链(U代替T),称编码链或正义链.
反义链：又称模板链，DNA双链中按碱基配对规律能 指引转录生成RNA的一股单链,
作用机制:两条互补的DNA链其中一条携带编码蛋白质信息,称为正义链,另一条与之互补的称为反义链。
反义核酸技术:DNA或RNA结构中含编码序列的链被称为正义链,与之相配对的链则叫做反义链。反义核酸(RNA和DNA)是和它们的靶基因相互补的。

三、二代测序相关的名词解释

　　高通量测序时，在芯片上的每个反应，会读出一条序列，是比较短的，叫read，它们是原始数据；有很多reads通过片段重叠，能够组装成一个更大的片段，称为contig；多个contigs通过片段重叠，组成一个更长的scaffold；一个contig被组成出来之后，鉴定发现它是编码蛋白质的基因，就叫singleton；多个contigs组装成scaffold之后，鉴定发现它编码蛋白质的基因，叫unigene。一个UniGene不一定代表一个contig，一个UniGene可有多个contig

　　consensus sequence：共有序列或者一致序列，比对功能相同的序列，并将每一位点上出现频率最高的碱基或者氨基酸排列在一起形成的理想序列。

　　Ion Torrent Personal Genome Machine（PGM）

　　单分子实时（Single Molecular Real Time，SMRT）DNA测序技术

　　这样就实现了“边合成边测序（Sequencing By Synthesis，SBS）”，如454、Illumina、Ion Torrent等测序技术；或者“边连接边测序（Sequencing By Ligation，SBL）”，如SOLiD技术。

　　增强子:是一种能够提高转录效率的顺式调控元件，最早是在SV40病毒中发现的长约200bp的一段DNA，可使旁侧的基因转录提高100倍，其后在多种真核生物，甚至在原核生物中都发现了增强子。增强子通常占100～200bp长度，也和启动子一样由若干组件构成，基本核心组件常为8～12bp，可以单拷贝或多拷贝串连形式存在。

什么是Segment duplication？一般称为SD区域，串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上，有很大的SD序列。

　　CpG岛个数：人类基因组序列草图分析结果表明，人类基因组CpG岛约为28890个，大部分染色体每1 Mb就有5—15个CpG岛，平均值为每Mb含10．5个CpG岛，CpG岛的数目与基因密度有良好的对应关系。由于DNA甲基化与人类发育和肿瘤疾病的密切关系，

　　DNA甲基化（DNA methylation）为DNA化学修饰的一种形式，能在不改变DNA序列的前提下，改变遗传表观。 DNA甲基化在维持细胞正常功能、传递基因组印记，胚胎发育、肿瘤发生等方面发挥重要作用，目前已经成为表观遗传学和表观基因组学的研究热点。

基因组是如何组装的？一般来说，针对以Illumina Gemone Analyzer测序结果为主的组装策略如下：

（1）先利用短序列组装软件对paired-end数据进行de novo拼接，组装成contigs，这个阶段一般需要提供高覆盖度的paired-end测序数据，需要耗费大量的计算机内存，这也是基因组组装最困难的一步；

（2）逐步加入长插入片段的mate-pair数据搭建scaffold，一般来说，mate-pair的测序深度不会太高，通过mate-pair双端距离信息，把contigs连接成更大的scaffold；

（3）复查paired-end和mate-paired插入片段长度信息，填补gap；

（4）有时候会加入454的数据，会对填补gap和延长contigs起到很大的帮助作用。

什么是高通量测序？

高通量测序技术（High-throughputsequencing，HTS）是对传统Sanger测序（称为一代测序技术）革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing，NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

什么是基因组重测序（Genome Re-sequencing）

全基因组重测序是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低，人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序，实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点，以及结构变异等，具有重大的科研和产业价值。

什么是de novo测序

de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展，基因组测序所需的成本和时间较传统技术都大大降低，大规模基因组测序渐入佳境，基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力，可以高效、低成本地测定并分析所有生物的基因组序列。

什么是外显子测序（whole exon sequencing，WES）

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

什么是mRNA测序（RNA-seq）

转录组学（transcriptomics）是在基因组学后新兴的一门学科，即研究特定细胞在某一功能状态下所能转录出来的所有RNA（包括mRNA和非编码RNA）的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计，可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息，并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。

什么是small RNA测序

SmallRNA（micro RNAs、siRNAs和 pi RNAs）是生命活动重要的调控因子，在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来，两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后，利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析，可以从中获得物种全基因组水平的miRNA图谱，实现包括新miRNA分子的挖掘，其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。

什么是miRNA测序

成熟的microRNA（miRNA）是17~24nt的单链非编码RNA分子，通过与mRNA相互作用影响目标mRNA的稳定性及翻译，最终诱导基因沉默，调控着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序，可以一次性获得数百万条microRNA序列，能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异，为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。

什么是Chip-seq

染色质免疫共沉淀技术（ChromatinImmunoprecipitation，ChIP）也称结合位点分析法，是研究体内蛋白质与DNA相互作用的有力工具，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术，能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

ChIP-Seq的原理是：首先通过染色质免疫共沉淀技术（ChIP）特异性地富集与目的蛋白结合的DNA片段，并对其进行纯化与文库构建；然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上，从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

什么是CHIRP-Seq

CHIRP-Seq( Chromatin Isolationby RNA Purification )是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针，把目标RNA拉下来以后，与其共同作用的DNA染色体片段就会附在到磁珠上，最后把染色体片段做高通量测序，这样会得到该RNA能够结合到在基因组的哪些区域，但由于蛋白测序技术不够成熟，无法知道与该RNA结合的蛋白。

什么是RIP-seq

RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术，是了解转录后调控网络动态过程的有力工具，能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来，然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。

RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用，但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物，RIP实验的优化条件与ChIP实验不太相同（如复合物不需要固定，RIP反应体系中的试剂和抗体绝对不能含有RNA酶，抗体需经RIP实验验证等等）。RIP技术下游结合microarray技术被称为RIP-Chip，帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

什么是CLIP-seq

CLIP-seq,又称为HITS-CLIP，即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitationand high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联，以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后，回收其中的RNA片段，经添加接头、RT-PCR等步骤，对这些分子进行高通量测序，再经生物信息学的分析和处理、总结，挖掘出其特定规律，从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。

什么是染色体构象捕获技术

3C 通常是用启动子或者某一个基因或者基因组某一个短的片段在邻近的几十kb或者几百kb基因组扫描可以获得相互作用区域。由于实验需要特异性引物，因而实验室相当费力的，且检测范围小。

4C同3C一样做单位点的检测，但其检测扩展到了整个基因组上。主要是引入了反向PCR，因而只需要对这一单一位点设计引物即可。

5C 做两个大片段之间相互作用点的检测，可以达到10Mb水平。其仍需使用引物，且引物设计是其技术的难点。

Hi-C 可以实现基因组对基因组水平的检测，但是获得高精度需要非常大的测序深度

ChIA-PET标在于特定的蛋白因子及其相关联的染色质相互作用。该技术将配对末端标签测序技术与ChIP相结合，对富集了某种蛋白质的DNA 片段进行交联，可以测定全基因组范围的特定转录因子参与的染色质远程交互作用，从而可以呈现高特异性和高分辨率的染色质相互作用。

什么是Hi-C辅助基因组组装

Hi-C辅助基因组组装是指在已有二代或三代或光学图谱辅助组装的Draft genome序列和已知染色体数目的前提下，利用Hi-C测序数据将Draft genome序列进行染色体群组的划分，并确定各序列在染色体上的顺序和方向，使基因组组装组装水平提升到染色体水平的技术。

什么是metagenomic（宏基因组）

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说，它具有众多优势，其中很重要的两点：(1) 微生物通常是以群落方式共生于某一小生境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此做Metagenomics研究比做单个个体的研究更能发现其特性；(2)Metagenomics研究无需分离单个细菌，可以研究那些不能被实验室分离培养的微生物。

宏基因组是基因组学一个新兴的科学研究方向。宏基因组学（又称元基因组学，环境基因组学，生态基因组学等），是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养，宏基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中，DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。

什么是SNP、SNV（单核苷酸位点变异）

单核苷酸多态性singlenucleotide polymorphism，SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。同一物种、不同个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化，其中有些单核苷酸多态性可能与疾病有关，但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时，相对于正常组织，癌症中特异的单核苷酸变异是一种体细胞突变（somatic mutation），称做SNV。

什么是INDEL (基因组小片段插入）

基因组上小片段（>50bp）的插入或缺失，形同SNP/SNV。

什么是copy number variation（CNV）：基因组拷贝数变异

基因组拷贝数变异是基因组变异的一种形式，通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2，有些染色体区域拷贝数变成1或3，这样，该区域发生拷贝数缺失或增加，位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域，则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失，扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增，如A-C-B-C-D。

什么是structure variation（SV）：基因组结构变异

染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失（引起CNV的变化），染色体内部的某块区域发生翻转颠换，两条染色体之间发生重组（inter-chromosometrans-location）等。一般SV的展示利用Circos软件。

什么是Segment duplication

一般称为SD区域，串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上，有很大的SD序列。

什么是genotype and phenotype

既基因型与表型；一般指某些单核苷酸位点变异与表现形式间的关系。

什么是Read?

高通量测序平台产生的短序列就称为reads。PE125，就是读长为125bp双端测序。

什么是Contig?

拼接软件基于reads之间的overlap区，拼接获得的序列称为Contig（重叠群），无N

什么是Scaffold?

基因组de novo测序，通过reads拼接获得Contigs后，往往还需要构建454 Paired-end库或Illumina Mate-pair库，以获得一定大小片段（如3Kb、6Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold（含有N）。

什么是Contig N50？

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3…………Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3+Contig4=Contig总长度*1/2时，Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

什么是Scaffold N50？

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2，Scaffold 3…………Scaffold 25。将Scaffold按照这个顺序依次相加，当相加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为Scaffold N50。举例：Scaffold 1+Scaffold 2+Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时，Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

什么是测序深度和覆盖度？

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

什么是RPKM、FPKM

RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:

每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。

假如有1百万个reads映射到了人的基因组上，那么具体到每个外显子呢，有多少映射上了呢，而外显子的长度不一，那么每1K个碱基上又有多少reads映射上了呢，这大概就是这个RPKM的直观解释。

如果对应特定基因的话，那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read

Total exon reads

This is the number in the column with header Total exonreads in the rowfor the gene. This is the number of reads that have beenmapped to a region inwhich an exon is annotated for the gene or across theboundaries of two exons oran intron and an exon for an annotated transcript ofthe gene. For eukaryotes,exons and their internal relationships are defined byannotations of type mRNA.映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数，这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说，外显子和它们自己内部的关系由某类型的mRNA来注释。

Exonlength:

This is the number in the column with theheader Exon length inthe row for the gene, divided by 1000. This is calculatedas the sum of thelengths of all exons annotated for the gene. Each exon isincluded only once inthis sum, even if it is present in more annotatedtranscripts for the gene.Partly overlapping exons will count with their fulllength, even though theyshare the same region.外显子的长度。计算时，计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现，这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域，重叠的外显子以其总长来计算。

Mapped reads

The sum of all the numbers in the column with header Totalgenereads. The Total gene reads for a gene is the total number ofreads that aftermapping have been mapped to the region of the gene. Thus thisincludes all thereads uniquely mapped to the region of the gene as well asthose of the readswhich match in more places (below the limit set in thedialog in figure 18.110) that have been allocated tothis gene\’s region. Agene\’s region is that comprised of the flanking regions(if it was specified infigure 18.110), the exons, the introns andacross exon-exonboundaries of all transcripts annotated for the gene. Thus,the sum of the totalgene reads numbers is the number of mapped reads for thesample (you can findthe number in the RNA-Seq report).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。

举例：比如对应到该基因的read有1000个，总reads个数有100万，而该基因的外显子总长为5kb，那么它的RPKM为：10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200或者：1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。

FPKM(fragmentsper kilobase of exon per million fragments mapped)

FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments，而RPKM计算的是reads。Fragment比read的含义更广，因此FPKM包含的意义也更广，可以是pair-end的一个fragment，也可以是一个read。

什么是转录本重构

用测序的数据组装成转录本。有两种组装方式：1，de-novo构建； 2，有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下，将有overlap的reads连接成一个更长的序列，经过不断的延伸，拼成一个个的contig及scaffold。常用工具包括velvet，trans-ABYSS，Trinity等。有参考基因组重构，是指先将read贴回到基因组上，然后在基因组通过reads覆盖度，junction位点的信息等得到转录本，常用工具包括scripture、cufflinks。

什么是表达谱

基因表达谱(geneexpression profile)：指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱

什么是比较基因组学

比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上，对已知的基因和基因组结构进行比较，来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性，克隆人类疾病基因，揭示基因功能和疾病分子机制，阐明物种进化关系，及基因组的内在结构。

什么是基因组注释

基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

四、主要注意问题

1.建库

将基因组序列采用鸟枪法打碎——俗称建库，然后采用凝胶电泳的方式将不同长度的片段分离，比如现在建库，短库一般建180bp，200bp或者300bp等。这里的180 和300 就是测序片段的长度。当然因为测序仪的读长是固定的，比如110，125，或者450等。公司现在采用的是220bp文库，读长为125bp，因为是双端测序，因此会有30bp的overlap区（这些是后期利用allpath-lg组装的必要条件）。

2.过滤

3.评估

做完这些数据处理之后，一般还要对插入片段的评估。插入片段其实就是文库的大小。比如300bp的文库，插入片段就是300bp，但是我们都应该知道在目前的测序水平下，难免会有失误和误差，误差导致的后果是虽然插入片段是300bp，但是只能是平均值是300bp，存在一个方差，大概在几十bp左右。通常误差我们是可以接受的，而对于失误，我们就要把它给找出来，如果插入片段，严重偏离300bp，那么就意味着建库失败。通常我们采用的检验方法是将数据进行基因组组装，组装之后进行soap比对，然后画出比对的效率图。有人会问了难道只能组装完之后才能进行插入片段评估吗？我不知道其他的方式，只能说莫须有。

4第三代测序技术

第三代测序技术是指单分子测序技术。DNA测序时，不需要经过PCR扩增，实现了对每一条DNA分子的单独测序。第三代测序技术也叫从头测序技术，即单分子实时DNA测序。

主要包括单分子荧光技术，也就是不需要扩增，每一个分子显示一种光，然后实时去监控，去读取。因此这里如何构建一个环境，让核酸分子单独发光，去识别是技术难点。

目前三代数据主要应用在科研市场的两个方向上，第一个是基因组的组装，另一个就是全长转录组。

1.纠错

第一个就是由于三代数据的随机错误很多，因此对数据进行纠错是绕不过去的，介绍两款软件，一款是pacbioToCa，一款是ectool。一个是利用二代数据纠错，一个是利用contig进行纠错。

2.组装

第二个软件就是三代数据的组装，推荐celera Assembly。当然肯定还有其他的牛X的软件因此我们很难拿到。对了，多一句嘴，官网说单独用三代组装的话，深度要到40x。

3.混拼

第三个软件是混拼，也就是二代数据和三代数据一起组装。软件为，不废话，官网要求深度为20x。

4.补洞

第四个软件是我喜欢的，就是利用三代数据的长片段来填补二代数据组装完的gao和连接contig为scaffold。推荐软件PBjerry。官网要求深度为5X。

5纳米孔测序技术

本文链接：https://www.cnblogs.com/li-20151130/p/7261710.html

测序总结，高通量测序名词

4第三代测序技术

5纳米孔测序技术

测序总结，高通量测序名词的更多相关文章

随机推荐

热门专题

目录导航