MyGene.info のAPIを叩いてみる Kim 2023年9月14日 2023年9月14日Web, ゲノム解析, IT, Python, バイオインフォマティクス, Python Web, ゲノミクス, Ensembl, Python, バイオインフォマティクス, NCBI タンパク質のRefSeqID(NPやXPから始まるID)を大量に持っていて、それをPython上でなんとかGene symbolに変換できないかを模索していた。 そんなとき、MyGene.info というサービスを見つけた。あまり日本語のドキュメントがないので軽く紹介しておく。 MyGene.i… Continue reading
bioawk で multiple FASTA の配列長を取得 Kim 2022年6月30日 2022年6月30日ゲノム解析, バイオインフォマティクス Linux, ゲノミクス, バイオインフォマティクス 参考: Sequence length from Fasta マルチFASTA で、それぞれの配列の長さを出してほしい時がある。 そういったときに簡単に出力してくれるのがbioawkだ。 で、仮想環境上にインストール。 で、出力してくれる。 全部出すと長い場合、パイプで繋いでやって欲しい部分に絞って… Continue reading
配列解析におけるTwoBit File (2bit File) について Kim 2022年6月29日 2023年1月17日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノム, ゲノミクス, KentUtils バイオインフォマティクス関連で、稀にtwoBit file (2bit file) を使用する機会がある。 通常、ゲノムファイルなどのシーケンスデータはFASTA形式で頒布されているが、一部において効率的・高速な解析のためにtwoBit fileと呼ばれる形式が使用される。 UCSCによると、「ゲノ… Continue reading
脊椎動物最大ゲノムのハイギョのRNA-seq解析にはどの程度のスペックのパソコンが必要か? Kim 2021年12月24日 2021年12月24日RNA-seq, バイオインフォマティクス HISAT2, ゲノミクス, バイオインフォマティクス, ハイギョ, RNA-seq, STAR タイトルの通り。これからハイギョのRNA-seq解析などをしたいという稀有な研究者に向けたメモ。 BLAST 正直BLASTするだけならそこまでスペックはいらない。他のゲノムと比べると時間がかかるが、数コアでも十分可能。 STAR を用いた RNA-seq マッピング RNA-seqでもTrinit… Continue reading
LASTZで全ゲノムをアライメント Kim 2021年10月21日 2022年6月30日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノム解析, ゲノミクス, アライメント 2022/06/30 Seqkit のソート項目を追記 lastzについての日本語ドキュメントが少ないので備忘録として。 lastzはWhole genomeレベルでのアライメントができるツールである。 結構古くからあり有名なのでこの辺の説明は割愛。今も開発が続いている。 ダウンロードとインストール… Continue reading
TE配列の分類を行うDeepTEの使い方 Kim 2021年9月12日 2021年9月12日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン, DeepTE 最近は転移因子(TE、トランスポゾン)の話が連日続いているが、今回は前回の記事で紹介した機械学習によるTE分類ツールの1つ、DeepTE (Yan et al., 2020) を実際に使ってみる。 Yan, H., Bombarely, A., & Li, S. (2020). D… Continue reading
転移因子(TE)の分類ツール: ClassifyTE、DeepTE Kim 2021年8月24日 2021年8月24日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン 転移因子(トランスポゾン、TE)はゲノムのある位置からある位置へと飛んでいくというDNA配列である。様々な真核生物においてゲノムに存在し、様々な役割を担っていたり、あるいは単純に「ジャンクDNA」であるようなものも存在する(最初はジャンクとして見られていたけど近年になって様々な役割が明らかにされてき… Continue reading
ゲノム中の反復配列を検出するソフト、REpeat Detector : Redの使い方 Kim 2021年8月23日 2021年8月26日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン, 反復配列 ゲノム中の反復配列、トランスポゾン等を検出するソフトは色々と開発されている。代表的なものにRepeat Maskerだったり、RepeatScout、WindowMasker、RepeatModeler等々ある。 それぞれライブラリをベースに検出を行ったり、あるいは denovo 法に基づいていたり… Continue reading