公開日: 最終更新日:

SRA Toolkitの使い方 ~ インストールと設定 ~

 これから何回かに分けて自分で学びながら忘備録としてSRA Toolkitの使い方を残しておこうと思う。

 SRA(Sequence Read Archive)を解析する方法として、SRA Toolkitを使う方法がある。

 というか、使わざるを得ない状況になってきている。

 2018年現在、NCBIのデータベースはFASTQファイルを直接ダウンロードすることができない。というのも非常にそのファイルが大型であるため、ストレージを圧迫してしまうためだ。(ただしDRA,ERAといった別のデータベースでは可)

 そこでSRA形式というものが開発された。それは約1/10にファイル容量を抑えることができる。現在それを用いることが必須となってきている。

 逆に言えばこれを使うといちいち大容量となるFASTQのファイルを全て落としてきて解析する必要がなくなる場合がある(部分的な配列を取得する場合など)。

 全ての配列が欲しい場合もこのSRA toolkitを使うことでダウンロードすることができる。

(参考:坊農秀雅(2017), “Dr. Bono の生命科学データ解析”, p107-108)

1. ダウンロードとインストール

SRA Toolkitはここからダウンロードできる。

https://www.ncbi.nlm.nih.gov/Traces/sra/?view=software

.tar.gz で落とされるので解凍。

PATHを通す。通さない場合は、絶対パスもしくは相対パスを使う必要がある。

例えば、fastq-dumpを使う場合、

のようにする。

Windowsユーザーは普通にexeの模様。

2. SRA Toolkitの設定

ダウンロードされるファイルはデフォルトで以下の場所に送られるようだ。

Linux: /home/[user_name]/ncbi/public

Mac OS X: /Users/[user_name]/ncbi/public

Windows: C:\Users\[user_name]\ncbi\public

3. 実際に使ってみる

Linuxで例を示す。ダウンロードしてきて解凍したフォルダのうち、binディレクトリに入ってそこでターミナルを開く(何もないところを右クリックで「端末で開く」があるのでそれで開ける)か、普通にbinのディレクトリまでcdコマンドで進む。

そこでターミナルに

と入力し、実行。

Windowsの場合は

しばらくすると、NCBIに接続し、SRR390728に接続、最初の5つ分のデータを切り出して持ってくる(-X 5の引数がこれに当たる)。さらにそれをターミナル上に映し出す(-Z 引数がこれに当たる)。

実行結果は以下の通り。

————実行結果————

4. Configの使い方

Configをいじることで先程のダウンロードのファイルの場所(作業場所)を変えることができる。

私はノートパソコンでやっているためあまりストレージ容量が大きくないので外部ストレージなどに作業場所(ワークスペース)を変えるときなどにConfigをいじる。

方法は先程のbinディレクトリ下において、

と実行。

以下のような画面となる。

赤い四角がポインタで現在どこを指しているかだ。

それをTabキー、もしくは矢印キーで移動させていく。

ワークスペースを変える場合は[ Change ]までポインタを進めてからEnter。

以下のような画面となる。

上の階層に行く場合は[ . . ]を選択する。

変更したら、SaveしてExit。

これでワークスペースを変えることができる。

次は実際に配列解析を行ってみる記事を書きたい……と思ってる。
→ 書きました

SRA Toolkitの使い方 ~fastq-dumpでSRAファイルをダウンロード~

コメントを残す

メールアドレスが公開されることはありません。