公開日: 最終更新日:

PRINSEQ++(plusplus)でRNA-seqのRAWデータのQC(クォリティコントロール)をする

これまでの記事ではfastq-dumpを用いてNCBI上からRNA-seqのデータをダウンロードするなどの「データの入手」に焦点を当ててきた。

参考: SRA Toolkitの使い方 ~fastq-dumpでSRAファイルをダウンロード~

今回の記事ではそれら、もしくは自分がRNA-seqに解析委託を出して返ってきたデータに対してまず行う「クォリティチェック」のあとの段階で行う「クォリティコントロール(QC)」について解説を行う。クォリティチェックについては後々記事にする。

クォリティコントロール(QC)はなぜするのか?

様々なサイトでこれについては解説がなされているが要約すると

  • ポリAテール(末端)を除去
  • 信頼度の低いリードの末端を除去
  • ゴミリード(短すぎるリード)を除去

などが挙げられる。

そして今回はそれを行っていく。

PRINSEQについて

PRINSEQはこういったQCのために開発されたプログラムで、多種多様な機能を持ち合わせるPerlで作られた……そう、Perlで作られたプログラムだ。

そのとおり、結構解析には時間がかかる。

また、私が行った解析においてはめちゃくちゃなメモリ使用と、バグによって結局解析がうまくいかなかった(メモリ64GBでは足りない?)。

使い方はこちらのサイトに詳しいので、もしオリジナルのPRINSEQを使う場合はこちらを参照したほうがいいだろう。

こうした遅い、高メモリ要求、マルチスレッド非対応といった従来のPRINSEQを踏まえて、新たに今年(2019年)になってPRINSEQ++(plusplus)が発表された。C++で書かれているから”++”。

Cantu, V. A., Sadural, J., & Edwards, R. (2019). PRINSEQ++, a multi-threaded tool for fast and efficient quality control and preprocessing of sequencing datasets. PeerJ Preprints7, e27553v1. リンク

このPRINSEQ++は従来のPRINSEQと比べて5倍ほど高速になっているという。実際使ってみたところ、かなり早くエラーなく解析を終えることができた非常に優秀なソフトウエアである。

PRINSEQ++のインストール

さて、では早速このPRINSEQ++をインストールしていこう。想定している環境はUbuntuである。

GitHubから念の為確認してほしいが、現時点(2019/11/10)での最新のバージョン(v1.2)のダウンロードは以下の通り。

ダウンロードし終わったら以下の要領で解凍、コンパイル、インストール。

全部パスも通った状態になるのですぐに使えるようになる。

で、

と出てくる。

これを見てやればいいだけなのだが、今回は実際に前回落としたようなペアエンドのリードのクオリティコントロールを行ってみる。

使用例

モロバレのアクセッション番号で研究内容をばらしていくスタイル

何らかの形で手に入れたペアエンドのfastqファイルをダウンロードし、用意されている状態から始まる。

参考: SRA Toolkitの使い方 ~fastq-dumpでSRAファイルをダウンロード~

まずインプットオプション“-fastq”、”-fastq2″でインプットfastqファイルを指定する。ペアエンドの場合は両方指定してやる。

FASTQ形式以外にもFASTA形式も使うことが可能だが、「出力はデフォルトでFASTQ」「クォリティ値は一律31 (A)として扱う」となっている。

“-out_name”で出力の際のファイル名を指定。FASTQ形式で出てくる。

“-trim_left” でleft方向 (5′->3′) からいくつの塩基を削除するかしていする。

“-trim_tail_left” で3’末端に付加されたポリA/T鎖を削除する。

“-trim_qual_right” では、指定したクォリティ値と比較して5’末端から再帰的に-trim_qual_windowの範囲でクォリティが低い部分を削っていく。-trim_qual_windowのデフォルトは5である。

“-ns_max_n” はそのリードにおいて指定した値以上Nが出てきたリードは切り捨てるというもの。オリジナルのPRINSEQでは割合だったが、こちらは絶対値。ちょっと不便な気がする。

“-min_len” で指定した値未満の長さのリードを切り捨てる。短すぎる配列は意味をなさないので切ってしまう。

といった例を紹介した。

Ryzen5 3400Gでもそう時間はかからなかったので、かなり早いほうだろう。

関連記事

RNA-seqデータをSTARでゲノムデータにマッピングする

参考文献リスト

  • Schmieder R and Edwards R: Quality control and preprocessing of metagenomic datasets. Bioinformatics 2011, 27:863-864. [PMID: 21278185]
  • Cantu, V. A., Sadural, J., & Edwards, R. (2019). PRINSEQ++, a multi-threaded tool for fast and efficient quality control and preprocessing of sequencing datasets. PeerJ Preprints7, e27553v1. リンク

2件のコメント

  1. ピンバック:RNA-seqのマッピングツールはSTARかHISAT2か – Kim Biology & Informatics

  2. ピンバック:RNA-seqデータをSTARでゲノムデータにマッピングする – Kim Biology & Informatics

コメントを残す

メールアドレスが公開されることはありません。