EnTAPでde novoアセンブルしたRNA-seqデータにアノテーション – 実データ編

前回のインストールの記事からめちゃくちゃ時間が経ってしまった。サクッと続きとして実データでの稼働方法を記しておく。

このドキュメントをベースに。

Trinityでde novo assemble

Trinityで最初に自分のRNA-seqデータをアセンブルしておく。Trinity以外でも別に問題はない。FASTAファイルが入力形式となるので、それが出力されるものであれば良い。

Trinityについてはこの記事に軽く記した。

これが問題なく完了していることが前提。

Configファイルの修正

前回では最後にテストデータ用にConfigファイルを書き換えていたので、それを元のものに修正しておく。前回はデータベースを”own_database”というディレクトリに構築した。

それに合わせて修正する。

2021/03/01現在のバージョンではiniファイルになっている様子。

$ cat ~/path/to/EnTAP/entap_config.txt
diamond_exe_path=./libs/diamond-0.9.9/bin/diamond
rsem_exe_path=./libs/RSEM-1.3.0
genemarkst_exe_path=./libs/gmst_linux_64/gmst.pl
eggnog_sql_database=./own_database/databases/eggnog.db
eggnog_dmnd_database=./own_database/bin/eggnog_proteins.dmnd
interpro_exe_path=./interproscan.sh
entap_database_sql_path=./own_database/databases/entap_database.db
entap_database_bin_path=./own_database/bin/entap_database.bin
entap_graphing_script=./src/entap_graphing.py

実行コード

実行コードは以下の通り。

$ EnTAP --runP -i path/to/transcriptome.fasta -d path/to/database.dmnd -d path/to/database2.dmnd -t 24

runP：blastp
runN：blastx

この2つから選べる。

データベースは構築した数に合わせて実行できる。-t はスレッド数。

オプションとして便利だなと思ったのがFPKMを算出してカットオフしてくれるというもの。--fpkm でデフォルトで0.5でカットオフできる。低発現遺伝子が大量にある場合などはこれでフィルタリングが可能。

結果はentap_outfiles/final_resultsにある。TSV形式でアノテーションデータが存在する。

EnTAPでde novoアセンブルしたRNA-seqデータにアノテーション – 実データ編

Trinityでde novo assemble

Configファイルの修正

実行コード

コメントを残すコメントをキャンセル

Recent Posts

【Qiskit】マルチオミクス解析を量子機械学習でやる①[環境構築・基礎]

Cell Hashing による複数サンプルデータ読み込み

肺の起源と進化について

NCBIからリファレンスゲノムを取得する方法〜クォリティなどのチェックも〜

VGP(脊椎動物ゲノムプロジェクト)のポリシー改定について

カテゴリ

EnTAPでde novoアセンブルしたRNA-seqデータにアノテーション – 実データ編

Trinityでde novo assemble

Configファイルの修正

実行コード

関連記事:

コメントを残す コメントをキャンセル

人気の記事

Recent Posts

【Qiskit】マルチオミクス解析を量子機械学習でやる①[環境構築・基礎]

Cell Hashing による複数サンプルデータ読み込み

肺の起源と進化について

NCBIからリファレンスゲノムを取得する方法〜クォリティなどのチェックも〜

VGP(脊椎動物ゲノムプロジェクト)のポリシー改定について

カテゴリ

コメントを残すコメントをキャンセル