公開日: 最終更新日:

RNA-seqデータをSTARでゲノムデータにマッピングする

RNA-seqのマッピングにはいろいろなものが開発されている。中でも有名なものがBowtie系、HISAT2、そしてSTARである。

現在主流なのはHISAT2とSTARであり、性能としてはSTARのほうが上であるが要求マシンスペックはSTARのほうが高い。

参考: RNA-seqのマッピングツールはSTARかHISAT2か

STARの論文によると、他のマッピングツールよりも偽陽性が低く、高速であるそうな。

昔RNA-seqを使っていた頃はHISAT2を使っていたが、RNA-seqのためにパソコンを用意し、メモリも64GBあればなんとかなるでしょと思い、STARを使っている。5Gb(ギガベース)x2程度のRNA-seqのペアエンドRAWデータをマッピングするのに10分もかからない。(そこはリファレンスゲノムの大きさにも依存するとは思うが)

今回はそのSTARのインストールの仕方、使い方を軽くまとめておく。いつものことながら、Ubuntu 19.10 を対象に話をすすめる。

STARのインストール

UbuntuにおけるSTARのインストールは非常に簡単である。というのも、パッケージが配布されているからだ。

で一応最新にしておく。

これでインストールが完了だ。面倒なことは一切ない。ただ遺伝研スパコンなどの管理者権限を持たない環境では別の方法でインストールする必要があるので注意。

STARの使い方(アノテーション情報なし)

インデックスの作成

HISAT2にしろ、まずリファレンスゲノムに対してインデックスを作成する必要がある。STARもこのインデックスの作成が一番時間がかかり、リソースも消費する。

詳しい方法としてはマニュアルが存在するのでそちらを参照するとして、手軽に始めたい人間に対して私が使っているコマンドを書き留めておく。

例として以下のようなコマンドによってインデックスを作成することができる。

一つずつコマンドを見ていこう。

  • –runMode: これに genomeGenerate を与えることでインデックスの作成をすることができる
  • –runThreadN: 使用するスレッド数。マルチスレッド対応なので多ければ多いほど早く作業が終わる
  • –genomeDir: 出力ファイルが保管されるディレクトリの名前。後々の実行で使うので、必要十分かつ他のインデックスと重複しない名前をつけること。
  • –genomeFastaFiles: リファレンスゲノムのFASTAファイルの指定を行う
  • –limitGenomeGenerateRAM: このインデックスの作成に割り当てるRAM(メモリ)の量を指定する。できるだけ大きいほうが良い。ちなみにPCのスペックよりも大きいメモリを指定するとエラーを吐くので注意。

こんな感じで放置しておけばインデックスを作成できる。

今回はGTFファイルを入力に使わない方法を紹介している。GTF/GFFファイルを与えてやればマッピングの際に遺伝子ごとのカウントも自動でやってくれる。今度やる機会があったら追記を行う。

マッピング

無事にインデックスの作成が完了したら、次は実際にRNA-seqデータをマッピングする。マッピングの際に注意すべき点として、予めクオリティコントロールを行っておく必要があるということ。あまりにも短い配列や信頼度の低い配列が混じっていると不正確なマッピングや余計に時間がかかったりする可能性があるため、予め取り除いておく。

参考: PRINSEQ++(plusplus)でRNA-seqのRAWデータのQC(クォリティコントロール)をする

以下のコマンドで実行可能である。

念の為解説しておくと、

  • –genomeDir: 先程作成したIndexが入ったディレクトリ
  • –readFilesIn: ペアエンドのFASTAファイルを2つ、スペース区切りで入力。PRINSEQ++でQC後ならばgoodがついているもの

だけでOKである。

案外すぐに終わり、実行ディレクトリ以下にログファイルなどが生成される。

例えば、Log.final.outでは以下のようなマッピングの細かい情報が得られる。あまりにもマッピング率が低いようならば見直して見る必要があるかもしれない。

その他SAMファイルが出てくると思うが、それを今後リードカウントしたりするのに使う。

1件のコメント

  1. ピンバック:RNA-seqのマッピングツールはSTARかHISAT2か – Kim Biology & Informatics

コメントを残す

メールアドレスが公開されることはありません。