配列解析におけるTwoBit File (2bit File) について Kim 2022年6月29日 2023年11月27日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノム, ゲノミクス, KentUtils 0 バイオインフォマティクス関連で、稀にtwoBit file (2bit file) を使用する機会がある。 通常、ゲノムファイルなどのシーケンスデータはFASTA形式で頒布されているが、一部において効率的・高速な解析のためにtwoBit fileと呼ばれる形式が使用される。 UCSCによると、「ゲノ… Continue reading
脊椎動物最大ゲノムのハイギョのRNA-seq解析にはどの程度のスペックのパソコンが必要か? Kim 2021年12月24日 2024年2月21日RNA-seq, バイオインフォマティクス HISAT2, ゲノミクス, バイオインフォマティクス, ハイギョ, RNA-seq, STAR 0 タイトルの通り。これからハイギョのRNA-seq解析などをしたいという稀有な研究者に向けたメモ。 BLAST 正直BLASTするだけならそこまでスペックはいらない。他のゲノムと比べると時間がかかるが、数コアでも十分可能。 STAR を用いた RNA-seq マッピング RNA-seqでもTrinit… Continue reading
LASTZで全ゲノムをアライメント Kim 2021年10月21日 2023年11月27日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノム解析, ゲノミクス, アライメント 0 2022/06/30 Seqkit のソート項目を追記 lastzについての日本語ドキュメントが少ないので備忘録として。 lastzはWhole genomeレベルでのアライメントができるツールである。 結構古くからあり有名なのでこの辺の説明は割愛。今も開発が続いている。 ダウンロードとインストール… Continue reading
TE配列の分類を行うDeepTEの使い方 Kim 2021年9月12日 2023年11月27日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン, DeepTE 0 最近は転移因子(TE、トランスポゾン)の話が連日続いているが、今回は前回の記事で紹介した機械学習によるTE分類ツールの1つ、DeepTE (Yan et al., 2020) を実際に使ってみる。 Yan, H., Bombarely, A., & Li, S. (2020). D… Continue reading
転移因子(TE)の分類ツール: ClassifyTE、DeepTE Kim 2021年8月24日 2023年11月27日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン 0 転移因子(トランスポゾン、TE)はゲノムのある位置からある位置へと飛んでいくというDNA配列である。様々な真核生物においてゲノムに存在し、様々な役割を担っていたり、あるいは単純に「ジャンクDNA」であるようなものも存在する(最初はジャンクとして見られていたけど近年になって様々な役割が明らかにされてき… Continue reading
ゲノム中の反復配列を検出するソフト、REpeat Detector : Redの使い方 Kim 2021年8月23日 2023年11月27日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン, 反復配列 0 ゲノム中の反復配列、トランスポゾン等を検出するソフトは色々と開発されている。代表的なものにRepeat Maskerだったり、RepeatScout、WindowMasker、RepeatModeler等々ある。 それぞれライブラリをベースに検出を行ったり、あるいは denovo 法に基づいていたり… Continue reading
枝が長い系統樹の注意点 – Long Branch Attraction Kim 2021年7月9日 2023年11月27日分子進化(理論), 生物, バイオインフォマティクス バイオインフォマティクス, 進化生物学, 系統樹 0 分子系統樹を作成する時、特に何も考えずにツールに突っ込んで得られたデータの樹形を見ているということはないだろうか? 系統樹に関する既知の問題点として「Long branch attraction」という現象が古くから(50年くらい前)知られている。ロングブランチアトラクション、の日本語訳はまだ当てら… Continue reading
NovaseqやNextSeqのシーケンスデータにポリG配列(poly-G)が含まれる Kim 2021年6月14日 2023年11月27日RNA-seq, バイオインフォマティクス RNA-seq, fastp, FastQC, バイオインフォマティクス 0 先日またRNA-seqを外注した。 FASTQCでクォリティチェックを行ったところ、以下のように、”Overrepresented sequences”に関する表示が出ていた。なにやら”GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG… Continue reading
Featurecountsで”Successfully assigned alignments : 0 (0.0%)”と出る時 Kim 2021年3月17日 2023年11月27日RNA-seq, バイオインフォマティクス バイオインフォマティクス, RNA-seq, FeatureCounts 0 FeatureCountsを使ってマッピングしたRNA-seqリードをカウントしようとした時、どうしても全てが「0」カウントで出力されることがあった。 BAMファイルを調べる。 すると、GFFファイルとはぜんぜん異なる染色体の番号が……よくよく元のSTARのパラメータを記したshファイルを読み返すと… Continue reading
EnTAPでde novoアセンブルしたRNA-seqデータにアノテーション – 実データ編 Kim 2021年3月1日 2023年11月27日RNA-seq, バイオインフォマティクス de novo アセンブリ, EnTAP, バイオインフォマティクス, RNA-seq 0 前回のインストールの記事からめちゃくちゃ時間が経ってしまった。サクッと続きとして実データでの稼働方法を記しておく。 このドキュメントをベースに。 Trinityでde novo assemble Trinityで最初に自分のRNA-seqデータをアセンブルしておく。Trinity以外でも別に問題はな… Continue reading