codemlのCodonFreqの選択について Kim 2022年11月11日 2022年11月11日バイオインフォマティクス バイオインフォマティクス, 配列解析, codeml, PAML, 淘汰圧解析 選択圧(淘汰圧)を解析するためにPAMLのcodemlがよく使われる。 いくつか日本語でも解説が書かれており、それに従って使っていることが多かったが、CodonFrequencyについての記述は日英共に解説が少ない。どうやって選択すべきか調べていたが、灯台もと暗しで知人がきちんと統計的なモデル選択の… Continue reading
bioawk で multiple FASTA の配列長を取得 Kim 2022年6月30日 2022年6月30日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, Linux, ゲノミクス 参考: Sequence length from Fasta マルチFASTA で、それぞれの配列の長さを出してほしい時がある。 そういったときに簡単に出力してくれるのがbioawkだ。 で、仮想環境上にインストール。 で、出力してくれる。 全部出すと長い場合、パイプで繋いでやって欲しい部分に絞って… Continue reading
配列解析におけるTwoBit File (2bit File) について Kim 2022年6月29日 2023年1月17日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノム, ゲノミクス, KentUtils バイオインフォマティクス関連で、稀にtwoBit file (2bit file) を使用する機会がある。 通常、ゲノムファイルなどのシーケンスデータはFASTA形式で頒布されているが、一部において効率的・高速な解析のためにtwoBit fileと呼ばれる形式が使用される。 UCSCによると、「ゲノ… Continue reading
脊椎動物最大ゲノムのハイギョのRNA-seq解析にはどの程度のスペックのパソコンが必要か? Kim 2021年12月24日 2021年12月24日RNA-seq, バイオインフォマティクス バイオインフォマティクス, ハイギョ, RNA-seq, STAR, HISAT2, ゲノミクス タイトルの通り。これからハイギョのRNA-seq解析などをしたいという稀有な研究者に向けたメモ。 BLAST 正直BLASTするだけならそこまでスペックはいらない。他のゲノムと比べると時間がかかるが、数コアでも十分可能。 STAR を用いた RNA-seq マッピング RNA-seqでもTrinit… Continue reading
LASTZで全ゲノムをアライメント Kim 2021年10月21日 2022年6月30日ゲノム解析, バイオインフォマティクス ゲノミクス, アライメント, バイオインフォマティクス, ゲノム解析 2022/06/30 Seqkit のソート項目を追記 lastzについての日本語ドキュメントが少ないので備忘録として。 lastzはWhole genomeレベルでのアライメントができるツールである。 結構古くからあり有名なのでこの辺の説明は割愛。今も開発が続いている。 ダウンロードとインストール… Continue reading
TE配列の分類を行うDeepTEの使い方 Kim 2021年9月12日 2021年9月12日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン, DeepTE 最近は転移因子(TE、トランスポゾン)の話が連日続いているが、今回は前回の記事で紹介した機械学習によるTE分類ツールの1つ、DeepTE (Yan et al., 2020) を実際に使ってみる。 Yan, H., Bombarely, A., & Li, S. (2020). D… Continue reading
転移因子(TE)の分類ツール: ClassifyTE、DeepTE Kim 2021年8月24日 2021年8月24日ゲノム解析, バイオインフォマティクス トランスポゾン, バイオインフォマティクス, ゲノミクス 転移因子(トランスポゾン、TE)はゲノムのある位置からある位置へと飛んでいくというDNA配列である。様々な真核生物においてゲノムに存在し、様々な役割を担っていたり、あるいは単純に「ジャンクDNA」であるようなものも存在する(最初はジャンクとして見られていたけど近年になって様々な役割が明らかにされてき… Continue reading
ゲノム中の反復配列を検出するソフト、REpeat Detector : Redの使い方 Kim 2021年8月23日 2021年8月26日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン, 反復配列 ゲノム中の反復配列、トランスポゾン等を検出するソフトは色々と開発されている。代表的なものにRepeat Maskerだったり、RepeatScout、WindowMasker、RepeatModeler等々ある。 それぞれライブラリをベースに検出を行ったり、あるいは denovo 法に基づいていたり… Continue reading
枝が長い系統樹の注意点 – Long Branch Attraction Kim 2021年7月9日 2021年7月9日分子進化(理論), 生物, バイオインフォマティクス バイオインフォマティクス, 進化生物学, 系統樹 分子系統樹を作成する時、特に何も考えずにツールに突っ込んで得られたデータの樹形を見ているということはないだろうか? 系統樹に関する既知の問題点として「Long branch attraction」という現象が古くから(50年くらい前)知られている。ロングブランチアトラクション、の日本語訳はまだ当てら… Continue reading
NovaseqやNextSeqのシーケンスデータにポリG配列(poly-G)が含まれる Kim 2021年6月14日 2021年6月14日RNA-seq, バイオインフォマティクス FastQC, バイオインフォマティクス, RNA-seq, fastp 先日またRNA-seqを外注した。 FASTQCでクォリティチェックを行ったところ、以下のように、”Overrepresented sequences”に関する表示が出ていた。なにやら”GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG… Continue reading