ORF(开放阅读框)
ORF是什么?
开放阅读框(英语:Open reading frame;缩写:ORF;其他译名:开放阅读框架、开放式阅读框架,开放读架等)是生物个体的基因组中,可能是蛋白质编码序列的部分。基因中的ORF包含并位于开始编码与终止编码之间。由于一段DNA或RNA序列有多种不同读取方式,因此可能同时存在许多不同的开放阅读框架。开放阅读框包含一段可以编码蛋白的碱基序列,不能被终止子打断。 当一个新基因被识别,其DNA序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)。ORF识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或密码子,符合这些条件的序列有可能对应一个真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。
ORF的属性
1.不确定读框: 如果遗传密码是不重叠的三联体,那么会有三种可能的方式将核苷酸翻译成蛋白质, 这三种可能的读码(Reading frame ) 方式称为读码框架。
比如序列:ACGACGACGACGACGACG,可能的读码框架就有以下三种:
ACG ACG ACG ACG ACG ACG ACG ACG
CGA CGA CGA CGA CGA CGA CGA CGA
GAC GAC GAC GAC GAC GAC GAC GAC
一段翻译成蛋白质的序列有一个阅读框架,它有一个特殊的起始密码子,从此延伸出一系列代表氨基酸的三联体,一直到在三种类型的终止密码子上结束。如果终止密码子频繁出现,就会阻止阅读框被翻译成蛋白质。一个序列的三个阅读框全部被阻断,那么它就会失去翻译成蛋白质的功能。 当获得一个未知的DNA 序列后,就可分析其三个读码框是被阻断的还是开放的。在任何一段DNA 中,通常不会超过一个读码框是开放的 ,因为替换的读码框被频繁出现的终止密码子阻断。一般情况,开放读框不可能太长。如果它不翻译成蛋白质,将不存在阻止终止密码子聚集的选择压力。证明序列是开放框是确定该框架能翻译为蛋白质的首要证据。一个不能表达蛋白质的开放读框被称为不确定读框(URF) 。
2.开放阅读框
一个DNA顺序可能有3种阅读框,但只有一种具有编码的作用,称为开放阅读框(open reading frame or ORF)。有的阅读框因终止密码出现频繁故不能生成蛋白,这种阅读框称为封闭阅读框(block reading frame)。若一个顺序所有的三个阅读框都是封闭的,则它无编码蛋白的功能。一个翻译成蛋白的顺序有一个阅读框,开始于AUG起始密码子,通过一系列有义密码子,直到终止密码子结束。通常3个阅读框中总有封闭阅读框的存在。
例如一段5\’-UCUAAAGGUCCA-3\’序列。此序列共有3种读取法:
UCU AAA GGU CCA
CUA AAG GUC
UAA AGG UCA
由于UAA为终止编码,因此第三种读取法不具编译出蛋白质的潜力,故只有前两者为开放阅读框架。
当获得了一个未知功能的DNA区域的顺序,要通过分析来确定阅读框是开放的还是封闭的。在任何一个DNA顺序中往往只有一个开放阅读框。ORF似乎并不是随机存在。如果一个顺序不翻译成蛋白质,那么将无选择压力来阻止其中产生无义密码子(有时无义密码子这个词也用于终止密码子。“无义”是个错误的名词,因为这种密码即使在突变基因中中断了蛋白质合成,但仍有含义的),这样一个长ORF的鉴别乍看起来这个顺序好象是可以翻译的。一个ORF未鉴别出蛋白产物,有时称其为非鉴定阅读框(unidentified reading frame,URF)。
ORF的预测
ORF的识别则是确定哪种开放阅读框对应真正的多肽编码序列的过程。开读框架(Open Reading Frame: ORF)的预测常与第一个ATG和终止密码子的确定相关,但由于EST序列相对较低的测序质量,在测序过程中出现的碱基删除或插入错误(称为indel错误)将引起读框移动,甚至出现假终止密码子,所以,仅凭第一个ATG和终止密码子是不足以确定ORF的。现在有很多找ORF的软件,包括在线的,如:ORF Finder的功能ORF Finder被用来预测已存在的编码区的小基因序列。它较早应于序列设计,应用优于长片断、高质量的匹配。ORF Finder把提交序列分成六个亚区,并对这六个阅读框分别进行默认,赋予每个亚区一个确定其编码内容的度量, 如果可能将对每一亚区进行进一步分析。每个亚区按照已有的分类结果,被随机提交给查找它们是否编码 蛋白质的特定测试收集器。最后只有那些具有编码潜能的重要区域才被报道。