RepeatModelerでアノテーション出来ないTEを分類するcTENOR

ヒトやマウスなどのモデル生物ではRepbaseなどのリピート配列やTE(トランスポゾン)配列などのアノテーションが充実している。一方で、新規にゲノムを決定する・した生物ではそれがそもそもされていない場合が多い。

de novoでライブラリを作成し、アノテーションするパイプラインのゴールドスタンダードとして、RepeatModelerとRepeatMaskerがある。RepeatModelerでライブラリを作成し、RepeatMaskerでそのライブラリを元にゲノム配列に対してアノテーションを行うことができる。

しかし実際使ってみるとRepeatModeler単体だとUnknownな配列が多く現れることがある。

これに対し、DeepTE (Yan et al., 2020)といった、ディープラーニングをベースにして分類するツールが登場しつつある。また、その他にもRFSB (Riehl et al., 2022) などのツールも登場している。

これら二つのTE配列分類ツールの結果を統合するツールが開発された。

cTENOR

cTENOR (classified TE Non-Overlapping Result) は https://github.com/kim2039/cTENOR/tree/main からダウンロードできる。

どんなツールかというと、単純にRepeatModelerで出力されたリファレンス配列(FASTAファイル)について、分類できなかった配列を上述の二つのツールを使って予測するというものである。

インストール

パッケージとして配布はされていないが、基本的にcondaでインストール可能。

$ conda create -n cTENOR python=3.10
$ conda activate cTENOR

# Install DeepTE
$ git clone https://github.com/LiLabAtVT/DeepTE.git
$ conda install biopython keras numpy tensorflow pandas

# Install RFSB
$ conda install -c derkevinriehl -c bioconda transposon_classifier_rfsb 

# Install cTENOR
$ git clone https://github.com/kim2039/cTENOR.git
$ cd cTENOR
$ python configure.py
# type the full path for both tools.

これに従ってインストールが可能である。

使い方

cTENOR version 1.1.3
usage: cTENOR.py [-h] -f FASTA -d DIRECTORY -sp {P,M,F,O} [-s] [-t THRESHOLD] [-v]

optional arguments:
  -h, --help            show this help message and exit
  -f FASTA, --fasta FASTA
                        library fasta file which is outputfile of RepeatModeler
  -d DIRECTORY, --directory DIRECTORY
                        Output directory
  -sp {P,M,F,O}, --species {P,M,F,O}
                        P or M or F or O. P:Plants, M:Metazoans, F:Fungi, and O: Others.
  -s, --skip            Skip running DeepTE and RFSB (Please assign the directory containing the results of the previous analysis)
  -t THRESHOLD, --threshold THRESHOLD
                        set threshold for family classification
  -v, --version         show this version

オプションが用意されているが、植物、後生動物、菌類、その他のオプションがあるので、そのゲノムに応じて設定する必要がある。また、閾値(Threshold)はデフォルトで0.8である。

出力として、アウトプットディレクトリにCSVとFASTAが出てくる。CSVは両方のツールで予測した確度などが格納されている。もし丁寧に配列の予測結果を確認したい場合に参照することができる。RepeatModelerの結果が最優先されるが、もしこれらのツールの結果の結果を使いたい場合は別の手段で書き換える必要がある。

FASTAファイルは、RepeatModeler でUnknownになっていた配列について、ヘッダを書き換えたものが出力されている。これを使って次の RepeatMasker の解析に移ろう。

参考文献

Haidong Yan, Aureliano Bombarely, Song Li 2020 DeepTE: a computational method for de novo classification of transposons with convolutional neural network. Bioinformatics, Volume 36, Issue 15, 1 August 2020, Pages 4269–4275. https://doi.org/10.1093/bioinformatics/btaa519
Kevin Riehl, Cristian Riccio, Eric A Miska, Martin Hemberg, TransposonUltimate: software for transposon classification, annotation and detection, Nucleic Acids Research, 2022; gkac136, https://doi.org/10.1093/nar/gkac136
Yuki Kimura. 2022. cTENOR. Github. https://github.com/kim2039/cTENOR.