bioawk で multiple FASTA の配列長を取得 Kim 2022年6月30日 2022年6月30日ゲノム解析, バイオインフォマティクス ゲノミクス, バイオインフォマティクス, Linux 参考: Sequence length from Fasta マルチFASTA で、それぞれの配列の長さを出してほしい時がある。 そういったときに簡単に出力してくれるのがbioawkだ。 で、仮想環境上にインストール。 で、出力してくれる。 全部出すと長い場合、パイプで繋いでやって欲しい部分に絞って… Continue reading
配列解析におけるTwoBit File (2bit File) について Kim 2022年6月29日 2023年1月17日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノム, ゲノミクス, KentUtils バイオインフォマティクス関連で、稀にtwoBit file (2bit file) を使用する機会がある。 通常、ゲノムファイルなどのシーケンスデータはFASTA形式で頒布されているが、一部において効率的・高速な解析のためにtwoBit fileと呼ばれる形式が使用される。 UCSCによると、「ゲノ… Continue reading
LASTZで全ゲノムをアライメント Kim 2021年10月21日 2022年6月30日ゲノム解析, バイオインフォマティクス アライメント, バイオインフォマティクス, ゲノム解析, ゲノミクス 2022/06/30 Seqkit のソート項目を追記 lastzについての日本語ドキュメントが少ないので備忘録として。 lastzはWhole genomeレベルでのアライメントができるツールである。 結構古くからあり有名なのでこの辺の説明は割愛。今も開発が続いている。 ダウンロードとインストール… Continue reading
TE配列の分類を行うDeepTEの使い方 Kim 2021年9月12日 2021年9月12日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン, DeepTE 最近は転移因子(TE、トランスポゾン)の話が連日続いているが、今回は前回の記事で紹介した機械学習によるTE分類ツールの1つ、DeepTE (Yan et al., 2020) を実際に使ってみる。 Yan, H., Bombarely, A., & Li, S. (2020). D… Continue reading
転移因子(TE)の分類ツール: ClassifyTE、DeepTE Kim 2021年8月24日 2021年8月24日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン 転移因子(トランスポゾン、TE)はゲノムのある位置からある位置へと飛んでいくというDNA配列である。様々な真核生物においてゲノムに存在し、様々な役割を担っていたり、あるいは単純に「ジャンクDNA」であるようなものも存在する(最初はジャンクとして見られていたけど近年になって様々な役割が明らかにされてき… Continue reading
ゲノム中の反復配列を検出するソフト、REpeat Detector : Redの使い方 Kim 2021年8月23日 2021年8月26日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン, 反復配列 ゲノム中の反復配列、トランスポゾン等を検出するソフトは色々と開発されている。代表的なものにRepeat Maskerだったり、RepeatScout、WindowMasker、RepeatModeler等々ある。 それぞれライブラリをベースに検出を行ったり、あるいは denovo 法に基づいていたり… Continue reading