イントロンの解析をする際に、既存のGFF/GTFのアノテーションファイルにIntron情報が入っていない場合がある。そうしたときにちまちまエキソン情報から計算してもいいが、便利なツールがいくつかあるので紹介する。
AGATを使う
これが現状一番オススメの方法。GFF/GTFの変換のために使ったが、欠落しているイントロンの情報についても自動的に追加し、ソートしてくれる。
公式のGitHubにインストール方法がある。Docker、Singularity、Bioconda、マニュアルがある。以下にCondaの例を示す。
$ conda install -c bioconda agat
インストールできたら、
$ agat_convert_sp_gxf2gxf.pl -g [hoge.gtf] -o [hoge.gff]
などで変換すると欠落の補充とともにイントロンの情報が追加されている。
また、別にGFF/GTFの変換をしたくないという場合は、
$ agat_sp_add_introns.pl --gff [input.gff/gtf] --out [out.gff/gtf]
で追加することが可能。他にもAGATは様々な機能があるので、ドキュメントを見るといいかもしれない。
例えばGFFをGTFに変換するには以下のコマンドで実行できる。
$ agat_convert_sp_gff2gtf.pl --gff infile.gtf [ -o outfile ]
GenomeTools を使う
GenomeToolsというツールが昔からあって、それにもイントロンを追加する機能がある。
インストールはこちらからダウンロードして、パスを通すだけ。
以下はGFFの例
$ gt gff3 -addintrons yes [gff3file]
ただし、入力はGFF3に限定されているようなので、GTFしかないようであれば上のAGATのほうが早く済む。