RepeatModelerでアノテーション出来ないTEを分類するcTENOR

Dscf5987

ヒトやマウスなどのモデル生物ではRepbaseなどのリピート配列やTE(トランスポゾン)配列などのアノテーションが充実している。一方で、新規にゲノムを決定する・した生物ではそれがそもそもされていない場合が多い。 de novoでライブラリを作成し、アノテーションするパイプラインのゴールドスタンダード…

Continue reading

「ゲノム丸ごと」生成できるAI(基盤モデル) Evo

Evo

昨今の基盤モデル(Foundation model)の発展は著しい。OpenAIのGPTを筆頭にして世界各国様々な企業や組織が基盤モデルへの投資を加速させている。 我々一般的研究者としてはChatGPTを始め、CopilotやGeminiなど身近なところでも利用できる、基盤モデルをもとにしたアプリケ…

Continue reading

生命科学における量子計算アプローチ

Image 9

今回は量子コンピュータが生命科学にどういう形でアプローチできるのか、最近(2022年)のレビューを通じて紹介したい。量子コンピュータに限らず、現在の動向を色々と抑えて書き留めたいと思う。 最近の計算生命科学(バイオインフォ)の動向 最近のバイオインフォマティクスの分野の発展は著しい。特にタンパク質の…

Continue reading

MyGene.info のAPIを叩いてみる

Image 8

 タンパク質のRefSeqID(NPやXPから始まるID)を大量に持っていて、それをPython上でなんとかGene symbolに変換できないかを模索していた。  そんなとき、MyGene.info というサービスを見つけた。あまり日本語のドキュメントがないので軽く紹介しておく。 MyGene.i…

Continue reading

GFF/GTFアノテーションにIntron情報を追加する

スクリーンショット 2022 11 11 14.40.02

 イントロンの解析をする際に、既存のGFF/GTFのアノテーションファイルにIntron情報が入っていない場合がある。そうしたときにちまちまエキソン情報から計算してもいいが、便利なツールがいくつかあるので紹介する。 AGATを使う  これが現状一番オススメの方法。GFF/GTFの変換のために使ったが…

Continue reading

bioawk で multiple FASTA の配列長を取得

Image 3

参考: Sequence length from Fasta マルチFASTA で、それぞれの配列の長さを出してほしい時がある。 そういったときに簡単に出力してくれるのがbioawkだ。 で、仮想環境上にインストール。 で、出力してくれる。 全部出すと長い場合、パイプで繋いでやって欲しい部分に絞って…

Continue reading

配列解析におけるTwoBit File (2bit File) について

Image 7

バイオインフォマティクス関連で、稀にtwoBit file (2bit file) を使用する機会がある。 通常、ゲノムファイルなどのシーケンスデータはFASTA形式で頒布されているが、一部において効率的・高速な解析のためにtwoBit fileと呼ばれる形式が使用される。 UCSCによると、「ゲノ…

Continue reading

LASTZで全ゲノムをアライメント

Img 0064

2022/06/30 Seqkit のソート項目を追記 lastzについての日本語ドキュメントが少ないので備忘録として。 lastzはWhole genomeレベルでのアライメントができるツールである。 結構古くからあり有名なのでこの辺の説明は割愛。今も開発が続いている。 ダウンロードとインストール…

Continue reading

TE配列の分類を行うDeepTEの使い方

Dscf1975

最近は転移因子(TE、トランスポゾン)の話が連日続いているが、今回は前回の記事で紹介した機械学習によるTE分類ツールの1つ、DeepTE (Yan et al., 2020) を実際に使ってみる。 Yan, H., Bombarely, A., & Li, S. (2020). D…

Continue reading

転移因子(TE)の分類ツール: ClassifyTE、DeepTE

S Dscf2161

転移因子(トランスポゾン、TE)はゲノムのある位置からある位置へと飛んでいくというDNA配列である。様々な真核生物においてゲノムに存在し、様々な役割を担っていたり、あるいは単純に「ジャンクDNA」であるようなものも存在する(最初はジャンクとして見られていたけど近年になって様々な役割が明らかにされてき…

Continue reading