codemlのCodonFreqの選択について Kim 2022年11月11日 2022年11月11日バイオインフォマティクス 淘汰圧解析, バイオインフォマティクス, 配列解析, codeml, PAML 選択圧(淘汰圧)を解析するためにPAMLのcodemlがよく使われる。 いくつか日本語でも解説が書かれており、それに従って使っていることが多かったが、CodonFrequencyについての記述は日英共に解説が少ない。どうやって選択すべきか調べていたが、灯台もと暗しで知人がきちんと統計的なモデル選択の… Continue reading
NCBI のAPIで”API rate limit exceeded”と出る Kim 2022年10月25日 2022年10月25日バイオインフォマティクス NCBI, Web NCBIのAPIでFASTAなどを取得するツールを作っているのだが、非同期処理を導入して大量に並列取得をしようとしたところ”API rate limit exceeded”とエラーが出ていることが判明した。 ググると以下のページのように、アクセス制限が存在することが明らかにな… Continue reading
bioawk で multiple FASTA の配列長を取得 Kim 2022年6月30日 2022年6月30日ゲノム解析, バイオインフォマティクス Linux, ゲノミクス, バイオインフォマティクス 参考: Sequence length from Fasta マルチFASTA で、それぞれの配列の長さを出してほしい時がある。 そういったときに簡単に出力してくれるのがbioawkだ。 で、仮想環境上にインストール。 で、出力してくれる。 全部出すと長い場合、パイプで繋いでやって欲しい部分に絞って… Continue reading
配列解析におけるTwoBit File (2bit File) について Kim 2022年6月29日 2023年1月17日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノム, ゲノミクス, KentUtils バイオインフォマティクス関連で、稀にtwoBit file (2bit file) を使用する機会がある。 通常、ゲノムファイルなどのシーケンスデータはFASTA形式で頒布されているが、一部において効率的・高速な解析のためにtwoBit fileと呼ばれる形式が使用される。 UCSCによると、「ゲノ… Continue reading
FASTAのヘッダ(名前)の行だけ抽出 Kim 2022年5月28日 2023年5月1日バイオインフォマティクス 何度も忘れてググるので備忘録。 “”を忘れると、対象のファイルがおかしなことになる(消える)ので注意。 Continue reading
脊椎動物最大ゲノムのハイギョのRNA-seq解析にはどの程度のスペックのパソコンが必要か? Kim 2021年12月24日 2021年12月24日RNA-seq, バイオインフォマティクス ゲノミクス, バイオインフォマティクス, ハイギョ, RNA-seq, STAR, HISAT2 タイトルの通り。これからハイギョのRNA-seq解析などをしたいという稀有な研究者に向けたメモ。 BLAST 正直BLASTするだけならそこまでスペックはいらない。他のゲノムと比べると時間がかかるが、数コアでも十分可能。 STAR を用いた RNA-seq マッピング RNA-seqでもTrinit… Continue reading
LASTZで全ゲノムをアライメント Kim 2021年10月21日 2022年6月30日ゲノム解析, バイオインフォマティクス ゲノム解析, ゲノミクス, アライメント, バイオインフォマティクス 2022/06/30 Seqkit のソート項目を追記 lastzについての日本語ドキュメントが少ないので備忘録として。 lastzはWhole genomeレベルでのアライメントができるツールである。 結構古くからあり有名なのでこの辺の説明は割愛。今も開発が続いている。 ダウンロードとインストール… Continue reading
TE配列の分類を行うDeepTEの使い方 Kim 2021年9月12日 2021年9月12日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン, DeepTE 最近は転移因子(TE、トランスポゾン)の話が連日続いているが、今回は前回の記事で紹介した機械学習によるTE分類ツールの1つ、DeepTE (Yan et al., 2020) を実際に使ってみる。 Yan, H., Bombarely, A., & Li, S. (2020). D… Continue reading
転移因子(TE)の分類ツール: ClassifyTE、DeepTE Kim 2021年8月24日 2021年8月24日ゲノム解析, バイオインフォマティクス ゲノミクス, トランスポゾン, バイオインフォマティクス 転移因子(トランスポゾン、TE)はゲノムのある位置からある位置へと飛んでいくというDNA配列である。様々な真核生物においてゲノムに存在し、様々な役割を担っていたり、あるいは単純に「ジャンクDNA」であるようなものも存在する(最初はジャンクとして見られていたけど近年になって様々な役割が明らかにされてき… Continue reading
ゲノム中の反復配列を検出するソフト、REpeat Detector : Redの使い方 Kim 2021年8月23日 2021年8月26日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン, 反復配列 ゲノム中の反復配列、トランスポゾン等を検出するソフトは色々と開発されている。代表的なものにRepeat Maskerだったり、RepeatScout、WindowMasker、RepeatModeler等々ある。 それぞれライブラリをベースに検出を行ったり、あるいは denovo 法に基づいていたり… Continue reading