NCBI SRA数据库使用详解

lyyao 2018-08-23 原文

转：https://shengxin.ren/article/16

https://www.cnblogs.com/lmt921108/p/7442699.html

SRA（Sequence ReadArchive）数据库是用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent，Helicos 和 CompleteGenomics。除了原始序列数据外，SRA现在也存在raw reads在参考基因的比对信息。

根据SRA数据产生的特点，将SRA数据分为四类：

Studies— 研究课题
Experiments— 实验设计
Runs— 测序结果集
Samples— 样品信息

SRA中数据结构的层次关系为：Studies->Experiments->Samples->Runs.

Studies是就实验目标而言的，一个study 可能包含多个Experiment。
Experiments包含了Sample、DNA source、测序平台、数据处理等信息。
一个Experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads。

SRA数据库用不同的前缀加以区分：

ERP或SRP表示Studies；
SRS 表示 Samples；
SRX 表示 Experiments；
SRR 表示 Runs；

使用：

　　搜索相关研究的疾病，选择相应数据集

点击第一个案例进入详细信息界面

Study详细信息页面

Experiments详细信息页面

Runs详细信息页面，选择要下载的Runs

3、下载数据

要下载SRA数据，我们需要先安装SRA Toolkit软件包，下载地址：

https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

根据自己的环境下载相应的软件包。

主要包括：

CentOS 32/64
Ubuntu 32/64
MacOS 32/64
MS Windows 32/64

以CentOS为例：

1、下载安装：

wget “http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz”

tar xzf sratoolkit.current-centos_linux64.tar.gz

2、运行下载

cd sratoolkit.2.5.7-centos_linux64/bin

./prefetch SRR2172038

下载完成后，会在你的工作主目录下生成一个ncbi的文件夹。

cd ncbi/public/sra

查看SRR2172038.sra数据

3、转换fastq

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump ./SRR2172038.sra

4、转换fasta

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump –fasta ./SRR2172038.sra

批量下载SRA数据

1.新建文件，命令为prefetch_bash.sh (感觉命名简单粗暴啊)

vi prefetch_bash.sh

#!/bin/bash

for id in $(seq 1 5) #记住该语法

　　prefetch SRR35899${id}

done

3.给文件一个可执行权限

chmod +755 frefetch_bash.sh

4.添加环境变量或者将其move到/usr/bin即可

添加环境变量：

vi ~/.bashrc

export PATH=/home/lmt/biosoft/data:$PATH

保存之后需source ~/.bashrc

或者move

move ./frefetch_bash.sh /usr/bin这样可以直接使用

5.利用prefetch_bash.sh批量下载所需的SRR文件

在终端输入：prefetch_bash.sh

下载的SRR数据默认存放在：/home/lmt/ncbi/public/sra里

本文链接：https://www.cnblogs.com/lyyao/p/9526314.html

NCBI SRA数据库使用详解的更多相关文章

基于flink和drools的实时日志处理

1、背景日志系统接入的日志种类多、格式复杂多样，主流的有以下几种日志： filebeat采集到的文本日志，格 […]...

A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南 – wangchuang2017

A survey of best practices for RNA-seq data analysis RN […]...

新年干货分享–10分钟学会概率数据结构

新年干货分享–10分钟学会概率数据结构平时总用hashmap，tree, set，vector， […]...

SQLServer .NET Data Provider的Connection Pooling – 木头象

SQLServer .NET Data Provider的Connection Pooling SQLServ […]...

Swing 实现的Gui链表

https://gitee.com/dgwcode/MyJavaCode -Freight类可以实现的功能 […]...

使用ABAP Data Validator验证数据有效性

在日常的开发过程中，我们常常要处理不同来源的数据。数据可能来自不可靠的外部系统、不可靠的用户输入和甚至设计有误 […]...

数据正规化 (data normalization) 的原理及实现 (Python sklearn)

原理数据正规化（data normalization）是将数据的每个样本（向量）变换为单位范数的向量，各样本 […]...

将句子表示为向量（下）：基于监督学习的句子表示学习（sentence embedding）

1. 引言上一篇介绍了如何用无监督方法来训练sentence embedding，本文将介绍如何利用监督学习 […]...

随机推荐

MATLAB中 histogram 和 imhist 的区别

matlab有两个生成直方图的库函数，分别是imhist和histogram，二者有何区别呢？区别就是： i […]...

那些年我们一起清除过的浮动float与clearfix

浮动(float)，一个我们即爱又恨的属性。爱，因为通过浮动，我们能很方便地布局；恨，浮动之后遗留下来太多的 […]...

JVM调优之经验

在生产系统中，高吞吐和低延迟一直都是JVM调优的最终目标，但这两者恰恰又是相悖的，鱼和熊掌不可兼得，所以在调优 […]...

Java

Java注释注释不会被执行单行注释 //注释多行注释 /* 注释 /文档注释 /**注释/标识符Java所有的组成部分都需要名字。类名、变量名以及方法名都被称为标识符关键字![alt]标识符注意点所有标识符...

Python合集之Python开发环境在Windows系统里面搭建

在上一个合集里面我们了解到了Python的基础信息及学习了Python对我们有什么用处，那么今天我们来 […]...

iOS开发简记（5）：设备唯一标识与全局变量

这里记录两个iOS开发中经常用到的知识点，一个是唯一标识，一个是全局变量。（1）唯一标识唯一标识一台设备（ […]...

【MySQL】在 Windows 下安装教程、避坑指南

新手在安装 MySQL 时还是有许多坑的 MySQL 是一个关系型数据库管理系统，由瑞典 MySQL AB 公 […]...

主板BIOSCOMS故障解决三例

主板故障中因为BIOS/COMS设置不当或者因为主板电池引起的coms故障而导致主板无法正常工作的比例占了不小 […]...

NCBI SRA数据库使用详解

NCBI SRA数据库使用详解的更多相关文章

随机推荐

热门专题

目录导航