
最近は転移因子(TE、トランスポゾン)の話が連日続いているが、今回は前回の記事で紹介した機械学習によるTE分類ツールの1つ、DeepTE (Yan et al., 2020) を実際に使ってみる。

Yan, H., Bombarely, A., & Li, S. (2020). DeepTE: a computational method for de novo classification of transposons with convolutional neural network. Bioinformatics36(15), 4269-4275.


TEはいくつかのスーパーファミリーによる分類がなされてきているが、配列のパターンに基づいたものである。そこでこのDeepTEの開発者らはそれらのパターンを分類する分類器の研究をおこなった。DeepTEはその名の通りディープラーニング(深層学習)を適用したもので、事前に学習したモデルから、複雑なパターンを分類することが可能である。CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)によってそれぞれのTEスーパーファミリーの分類を行っている。詳しいモデルの中身については本文を参照して欲しい。


conda、CUDA、cuDNN等TensorFlowが実行できる環境がすでにインストールされているUbuntu 20.04を前提として行う(32スレッド、64GB RAM、GeForce GT710)。機械学習関連のツールをインストールしたことがある人なら揃っているかもしれないが、そうでない人にとっては一苦労かもしれない。


$ git clone https://github.com/LiLabAtVT/DeepTE.git
$ cd DeepTE

$ conda create -n deepTE python=3.6
$ conda activate deepTE
$ conda install tensorflow-gpu=1.14.0
$ conda install biopython
$ conda install keras=2.2.4
$ conda install numpy=1.16.0


$ python
> import tensorflow as tf
> tf.test.is_gpu_available()




現在グラボも高騰しているし、今年の予算はほぼ使い切ってしまったので、Google Colab. を使うことに。

Google Colab. における初期設定



!pip install biopython
!pip install keras
!pip install numpy
!pip install itertools
!pip install tensorflow

Google Driveに接続し、目的のディレクトリに移動する。

from google.colab import drive
import os
os.chdir('/content/drive/My Drive/Colab Notebooks/DeepTE')


!git clone https://github.com/LiLabAtVT/DeepTE.git



!python DeepTE.py -d sample -o sample/ -i example_data/input_test.fasta -sp M -m M


結果については -o で指定したディレクトリ、”sample”以下に保存されている。

ClassIII_Helitron_13	ClassIII_Helitron
ClassIII_Helitron_14	ClassIII_Helitron
ClassIII_Helitron_15	ClassIII_Helitron
ClassIII_Helitron_16	ClassIII_Helitron
ClassIII_Helitron_17	ClassIII_Helitron
ClassIII_Helitron_18	ClassIII_Helitron
ClassIII_Helitron_19	ClassIII_Helitron
ClassIII_Helitron_20	ClassIII_Helitron
ClassIII_Helitron_21	ClassIII_Helitron
ClassIII_Helitron_22	ClassIII_Helitron
ClassIII_Helitron_23	ClassIII_Helitron
ClassIII_Helitron_24	ClassIII_Helitron
ClassIII_Helitron_26	ClassIII_Helitron
ClassIII_Helitron_28	ClassIII_Helitron
ClassIII_Helitron_29	ClassIII_Helitron
ClassIII_Helitron_30	ClassIII_Helitron




!python DeepTE.py -d polypterus -o polypterus -i polypterus_RED_01.fasta -sp M -m_dir ../download_M_model_dir/Metazoans_model/

こんな具合に、一度ダウンロードしたモデルについて、そのディレクトリを-m_dir オプションで指定してやることで、毎回ダウンロードしてやらなくても済むようになる。

