公開日:

EnTAPでde novoアセンブルしたRNA-seqデータにアノテーション – 実データ編

前回のインストールの記事からめちゃくちゃ時間が経ってしまった。サクッと続きとして実データでの稼働方法を記しておく。

このドキュメントをベースに。

Trinityでde novo assemble

Trinityで最初に自分のRNA-seqデータをアセンブルしておく。Trinity以外でも別に問題はない。FASTAファイルが入力形式となるので、それが出力されるものであれば良い。

Trinityについてはこの記事に軽く記した。

これが問題なく完了していることが前提。

Configファイルの修正

前回では最後にテストデータ用にConfigファイルを書き換えていたので、それを元のものに修正しておく。前回はデータベースを”own_database”というディレクトリに構築した。

それに合わせて修正する。

2021/03/01現在のバージョンではiniファイルになっている様子。

$ cat ~/path/to/EnTAP/entap_config.txt
diamond_exe_path=./libs/diamond-0.9.9/bin/diamond
rsem_exe_path=./libs/RSEM-1.3.0
genemarkst_exe_path=./libs/gmst_linux_64/gmst.pl
eggnog_sql_database=./own_database/databases/eggnog.db
eggnog_dmnd_database=./own_database/bin/eggnog_proteins.dmnd
interpro_exe_path=./interproscan.sh
entap_database_sql_path=./own_database/databases/entap_database.db
entap_database_bin_path=./own_database/bin/entap_database.bin
entap_graphing_script=./src/entap_graphing.py

実行コード

実行コードは以下の通り。

$ EnTAP --runP -i path/to/transcriptome.fasta -d path/to/database.dmnd -d path/to/database2.dmnd -t 24
  • runP:blastp
  • runN:blastx

この2つから選べる。

データベースは構築した数に合わせて実行できる。-t はスレッド数。

オプションとして便利だなと思ったのがFPKMを算出してカットオフしてくれるというもの。--fpkm でデフォルトで0.5でカットオフできる。低発現遺伝子が大量にある場合などはこれでフィルタリングが可能。

結果はentap_outfiles/final_resultsにある。TSV形式でアノテーションデータが存在する。