GFF/GTFアノテーションにIntron情報を追加する

 イントロンの解析をする際に、既存のGFF/GTFのアノテーションファイルにIntron情報が入っていない場合がある。そうしたときにちまちまエキソン情報から計算してもいいが、便利なツールがいくつかあるので紹介する。

AGATを使う

 これが現状一番オススメの方法。GFF/GTFの変換のために使ったが、欠落しているイントロンの情報についても自動的に追加し、ソートしてくれる。

 公式のGitHubにインストール方法がある。Docker、Singularity、Bioconda、マニュアルがある。以下にCondaの例を示す。

$ conda install -c bioconda agat

 インストールできたら、

$ agat_convert_sp_gxf2gxf.pl -g [hoge.gtf] -o [hoge.gff]

などで変換すると欠落の補充とともにイントロンの情報が追加されている。

 また、別にGFF/GTFの変換をしたくないという場合は、

$ agat_sp_add_introns.pl --gff [input.gff/gtf] --out [out.gff/gtf]

で追加することが可能。他にもAGATは様々な機能があるので、ドキュメントを見るといいかもしれない。

 例えばGFFをGTFに変換するには以下のコマンドで実行できる。

$ agat_convert_sp_gff2gtf.pl --gff infile.gtf [ -o outfile ]

GenomeTools を使う

 GenomeToolsというツールが昔からあって、それにもイントロンを追加する機能がある。

 インストールはこちらからダウンロードして、パスを通すだけ。

 以下はGFFの例

$ gt gff3 -addintrons yes [gff3file]

 ただし、入力はGFF3に限定されているようなので、GTFしかないようであれば上のAGATのほうが早く済む。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です