公開日: 最終更新日:

SRA Toolkitの使い方 ~fastq-dumpでSRAファイルをダウンロード~

前回のSRA toolkitの記事から結局一年近くが経ってしまった……実際にRNA-seq のデータ解析を始めようと思うのでこの際自分の備忘録および後輩たちへのドキュメントとして今回書き留めていこうと思う。

SRAファイルの中身を見る

結局今現在、SRAファイルはNCBIから直接ダウンロードは出来ないようにみえる。前回のおさらいとしてまずはSRAファイルの中身を少しだけ見るという方法を述べておく。

$ fastq-dump.exe -X 5 -Z SRR390728

これによりSRR390728の冒頭5行のデータが表示される。中身がきちんと存在しているか、目的のファイルかどうかを確かめることができる。

fastq-dump の使い方

では実際にfastq-dumpの使い方を抑えていく。基本的に英語が読める人はもうSRA toolkit Documentationを読んでほしい。

基本形

fastq-dump [options] <path/file> [<path/file> ...]
fastq-dump [options] <accession>

path/fileにはローカルで落としてあるSRAファイルからFASTQを作成するときに入力する。その下の”accession”は先程のようにSRRXXXXXのようなアクセッション番号を記入する。この記事では楽なのでアクセッション番号で進めることとする。(通常、SRAファイルを直接落とせることはもうないはずなので)

オプションは以下の通り。(WordPressの表の整形がうまくいかないがもう仕方がない、どうにも手の打ちようがなかったので画像形式にした。そこまで長くはないので打つのが大変、ということはないだろう)

fastq-dumpのオプション

実例: ペアードエンドのSRAファイルをダウンロード

ここではよく使われるであろう例として、ペアードエンドのRNA-seqデータをNCBIデータベース上からFASTQ形式でダウンロードする方法を記す。

Trinityなどでは、ペアードエンドのデータを2つ、インプットすることができる。今回は「1つのペアードエンドのSRAファイルから2つのFASTQ形式」としてダウンロードする。

コマンドは以下の通り。パスはbinで通っている前提である。また、Trinityで使うことを前提とし、Trinityでエラーが生じるID, optionの形式を避けるために正規表現で修正する。

$ fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files [アクセッション番号]

Trynityを使わない、つまりRNA-seqでdenovoアセンブリをしないような用途だと(まだやったことはないが)以下のコマンドでいいかもしれない。

$ fastq-dump --split-files [アクセッション番号] 

カレントディレクトリに2つのFASTQファイルがダウンロードされるはずだ。

SRA-toolkitの使い方についてはとりあえずこれでおしまい。fastq-dumpしか使ってないけど。

続きとしては、RNA-seqにおけるクォリティコントロールのためのソフト、prinseq++の使い方や、Trinityの使い方などを書こうかと思っている。

参考文献

https://github.com/trinityrnaseq/trinityrnaseq/issues/448