NCBIからリファレンスゲノムを取得する方法〜クォリティなどのチェックも〜 Kim 2024年12月14日 2024年12月14日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, NCBI, ゲノミクス 0 導入 ヒトやマウスといったモデル生物以外のゲノムが染色体レベルで組み上がる時代に突入している。ゲノム「解読」黎明期ではゲノムを決定することで様々な生命現象が明らかになると思われていたが、実際は一次元の塩基配列だけでわかることには限界があるということがその後段々と浸透していった。そのため現在では「ゲノ… Continue reading
VGP(脊椎動物ゲノムプロジェクト)のポリシー改定について Kim 2024年11月2日 2024年11月2日ゲノム解析, バイオインフォマティクス ゲノムアノテーション, 公共データベース, ゲノム解析, ゲノム 0 背景 近年の次世代、あるいはロングリードシーケンサなどの発展に伴い、生物のゲノム決定が容易になっている。NCBI Genomeなどを覗くと、実に様々なマイナーな生物までゲノムがChromosomeレベルで決定されているのを目にすることが多いだろう。高品質な脊椎動物のゲノムが多く登録されており、アノテ… Continue reading
RepeatModelerでアノテーション出来ないTEを分類するcTENOR Kim 2024年10月1日 2024年10月1日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノム解析, ゲノム, ゲノムアノテーション 0 ヒトやマウスなどのモデル生物ではRepbaseなどのリピート配列やTE(トランスポゾン)配列などのアノテーションが充実している。一方で、新規にゲノムを決定する・した生物ではそれがそもそもされていない場合が多い。 de novoでライブラリを作成し、アノテーションするパイプラインのゴールドスタンダード… Continue reading
「ゲノム丸ごと」生成できるAI(基盤モデル) Evo Kim 2024年5月28日 2024年11月18日ゲノム解析, 生物, バイオインフォマティクス ゲノミクス, 基盤モデル, ゲノム解析, ゲノム 1 2024年11月16日 追記: 本論文は Science に掲載されました。OAではなく筆者は読めないので、最新の内容を知りたい方は本文を参照してください。また、本記事はメジャーリビジョンの前のbioRxivのv3に基づいて執筆しています。最近公開されたv4では図が新しくなっているので、もしアクセス… Continue reading
生命科学における量子計算アプローチ Kim 2024年4月18日 2024年7月12日ゲノム解析, 量子コンピュータ, 量子計算, バイオインフォマティクス 量子力学, 量子コンピュータ, バイオインフォマティクス 0 今回は量子コンピュータが生命科学にどういう形でアプローチできるのか、最近(2022年)のレビューを通じて紹介したい。量子コンピュータに限らず、現在の動向を色々と抑えて書き留めたいと思う。 最近の計算生命科学(バイオインフォ)の動向 最近のバイオインフォマティクスの分野の発展は著しい。特にタンパク質の… Continue reading
MyGene.info のAPIを叩いてみる Kim 2023年9月14日 2024年10月24日Web, ゲノム解析, IT, Python, Python, バイオインフォマティクス NCBI, Web, ゲノミクス, Ensembl, Python, バイオインフォマティクス 0 タンパク質のRefSeqID(NPやXPから始まるID)を大量に持っていて、それをPython上でなんとかGene symbolに変換できないかを模索していた。 そんなとき、MyGene.info というサービスを見つけた。あまり日本語のドキュメントがないので軽く紹介しておく。 MyGene.i… Continue reading
GFF/GTFアノテーションにIntron情報を追加する Kim 2023年7月18日 2023年11月27日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, GTF, GFF, ゲノムアノテーション 0 イントロンの解析をする際に、既存のGFF/GTFのアノテーションファイルにIntron情報が入っていない場合がある。そうしたときにちまちまエキソン情報から計算してもいいが、便利なツールがいくつかあるので紹介する。 AGATを使う これが現状一番オススメの方法。GFF/GTFの変換のために使ったが… Continue reading
bioawk で multiple FASTA の配列長を取得 Kim 2022年6月30日 2023年11月27日ゲノム解析, バイオインフォマティクス ゲノミクス, バイオインフォマティクス, Linux 0 参考: Sequence length from Fasta マルチFASTA で、それぞれの配列の長さを出してほしい時がある。 そういったときに簡単に出力してくれるのがbioawkだ。 で、仮想環境上にインストール。 で、出力してくれる。 全部出すと長い場合、パイプで繋いでやって欲しい部分に絞って… Continue reading
配列解析におけるTwoBit File (2bit File) について Kim 2022年6月29日 2023年11月27日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノム, ゲノミクス, KentUtils 0 バイオインフォマティクス関連で、稀にtwoBit file (2bit file) を使用する機会がある。 通常、ゲノムファイルなどのシーケンスデータはFASTA形式で頒布されているが、一部において効率的・高速な解析のためにtwoBit fileと呼ばれる形式が使用される。 UCSCによると、「ゲノ… Continue reading
LASTZで全ゲノムをアライメント Kim 2021年10月21日 2023年11月27日ゲノム解析, バイオインフォマティクス アライメント, バイオインフォマティクス, ゲノム解析, ゲノミクス 0 2022/06/30 Seqkit のソート項目を追記 lastzについての日本語ドキュメントが少ないので備忘録として。 lastzはWhole genomeレベルでのアライメントができるツールである。 結構古くからあり有名なのでこの辺の説明は割愛。今も開発が続いている。 ダウンロードとインストール… Continue reading