LASTZで全ゲノムをアライメント

lastzについての日本語ドキュメントが少ないので備忘録として。 lastzはWhole genomeレベルでのアライメントができるツールである。 結構古くからあり有名なのでこの辺の説明は割愛。今も開発が続いている。 ダウンロードとインストール GitHubが公開されているが、リリース版はこちらから…

Continue reading

TE配列の分類を行うDeepTEの使い方

最近は転移因子(TE、トランスポゾン)の話が連日続いているが、今回は前回の記事で紹介した機械学習によるTE分類ツールの1つ、DeepTE (Yan et al., 2020) を実際に使ってみる。 Yan, H., Bombarely, A., & Li, S. (2020). D…

Continue reading

転移因子(TE)の分類ツール: ClassifyTE、DeepTE

転移因子(トランスポゾン、TE)はゲノムのある位置からある位置へと飛んでいくというDNA配列である。様々な真核生物においてゲノムに存在し、様々な役割を担っていたり、あるいは単純に「ジャンクDNA」であるようなものも存在する(最初はジャンクとして見られていたけど近年になって様々な役割が明らかにされてき…

Continue reading

ゲノム中の反復配列を検出するソフト、REpeat Detector : Redの使い方

ゲノム中の反復配列、トランスポゾン等を検出するソフトは色々と開発されている。代表的なものにRepeat Maskerだったり、RepeatScout、WindowMasker、RepeatModeler等々ある。 それぞれライブラリをベースに検出を行ったり、あるいは denovo 法に基づいていたり…

Continue reading

枝が長い系統樹の注意点 – Long Branch Attraction

分子系統樹を作成する時、特に何も考えずにツールに突っ込んで得られたデータの樹形を見ているということはないだろうか? 系統樹に関する既知の問題点として「Long branch attraction」という現象が古くから(50年くらい前)知られている。ロングブランチアトラクション、の日本語訳はまだ当てら…

Continue reading

Featurecountsで”Successfully assigned alignments : 0 (0.0%)”と出る時

FeatureCountsを使ってマッピングしたRNA-seqリードをカウントしようとした時、どうしても全てが「0」カウントで出力されることがあった。 BAMファイルを調べる。 すると、GFFファイルとはぜんぜん異なる染色体の番号が……よくよく元のSTARのパラメータを記したshファイルを読み返すと…

Continue reading

EnTAPでde novoアセンブルしたRNA-seqデータにアノテーション – 実データ編

前回のインストールの記事からめちゃくちゃ時間が経ってしまった。サクッと続きとして実データでの稼働方法を記しておく。 このドキュメントをベースに。 Trinityでde novo assemble Trinityで最初に自分のRNA-seqデータをアセンブルしておく。Trinity以外でも別に問題はな…

Continue reading

FeatureCountsでマッピングしたペアエンドデータのカウントを行う

2021/05/25 追記: Ubuntuでのインストール方法を更新 前回の話とのつながりとしては、STARでRNA-seqのリードをリファレンスゲノムにマッピングしたという前提である。 さて、このマッピングしただけのデータ(SAMファイル)では統計的な解析に向かないという問題点がある。もちろん、こ…

Continue reading

ab1形式のシーケンスデータをFASTAに変換してJalviewでアライメントとかする

ラボの人に訊かれたのでついでにメモとして。私自身はシーケンスに出したりはしないが、そういうこともあるかもしれないので。 某ラボでは某クスのソフトを使ってシーケンス結果を見ているようだが、結構お高い有料ソフトなもので普通ならみんな導入できない。 今回はフリーソフトのみを使用して、ab1形式のシーケンス…

Continue reading