生命科学における量子計算アプローチ

今回は量子コンピュータが生命科学にどういう形でアプローチできるのか、最近(2022年)のレビューを通じて紹介したい。量子コンピュータに限らず、現在の動向を色々と抑えて書き留めたいと思う。 最近の計算生命科学(バイオインフォ)の動向 最近のバイオインフォマティクスの分野の発展は著しい。特にタンパク質の…

Continue reading

Protein blast における ‘Positives’ はどんな意味か?

tblastn、blastp をして結果を眺めて整理していたとき、あまり気にしていなかったが “Positives” というスコアがあることに気づいた。 そのとなりにある “Identities” はアライメントされたアミノ酸残基の完全一致率、数を示し…

Continue reading

MyGene.info のAPIを叩いてみる

 タンパク質のRefSeqID(NPやXPから始まるID)を大量に持っていて、それをPython上でなんとかGene symbolに変換できないかを模索していた。  そんなとき、MyGene.info というサービスを見つけた。あまり日本語のドキュメントがないので軽く紹介しておく。 MyGene.i…

Continue reading

アフリカハイギョのシングルセルトランスクリプトームから魚の陸上適応を明らかにする

 ハイギョは現生魚類の中で最も陸上脊椎動物(両生類や有羊膜類など)に近い生物である。その名の通り肺を持っている魚である。エラも持っており、エラと肺、両方で呼吸ができる特殊な魚である(他にもポリプテルスなどが同様に肺とエラ両方持っている)。  また、一部のハイギョでは水が干上がった乾季などにおいては泥…

Continue reading

GFF/GTFアノテーションにIntron情報を追加する

 イントロンの解析をする際に、既存のGFF/GTFのアノテーションファイルにIntron情報が入っていない場合がある。そうしたときにちまちまエキソン情報から計算してもいいが、便利なツールがいくつかあるので紹介する。 AGATを使う  これが現状一番オススメの方法。GFF/GTFの変換のために使ったが…

Continue reading

codemlのCodonFreqの選択について

選択圧(淘汰圧)を解析するためにPAMLのcodemlがよく使われる。 いくつか日本語でも解説が書かれており、それに従って使っていることが多かったが、CodonFrequencyについての記述は日英共に解説が少ない。どうやって選択すべきか調べていたが、灯台もと暗しで知人がきちんと統計的なモデル選択の…

Continue reading

bioawk で multiple FASTA の配列長を取得

参考: Sequence length from Fasta マルチFASTA で、それぞれの配列の長さを出してほしい時がある。 そういったときに簡単に出力してくれるのがbioawkだ。 で、仮想環境上にインストール。 で、出力してくれる。 全部出すと長い場合、パイプで繋いでやって欲しい部分に絞って…

Continue reading

配列解析におけるTwoBit File (2bit File) について

バイオインフォマティクス関連で、稀にtwoBit file (2bit file) を使用する機会がある。 通常、ゲノムファイルなどのシーケンスデータはFASTA形式で頒布されているが、一部において効率的・高速な解析のためにtwoBit fileと呼ばれる形式が使用される。 UCSCによると、「ゲノ…

Continue reading

脊椎動物最大ゲノムのハイギョのRNA-seq解析にはどの程度のスペックのパソコンが必要か?

タイトルの通り。これからハイギョのRNA-seq解析などをしたいという稀有な研究者に向けたメモ。 BLAST 正直BLASTするだけならそこまでスペックはいらない。他のゲノムと比べると時間がかかるが、数コアでも十分可能。 STAR を用いた RNA-seq マッピング RNA-seqでもTrinit…

Continue reading

LASTZで全ゲノムをアライメント

2022/06/30 Seqkit のソート項目を追記 lastzについての日本語ドキュメントが少ないので備忘録として。 lastzはWhole genomeレベルでのアライメントができるツールである。 結構古くからあり有名なのでこの辺の説明は割愛。今も開発が続いている。 ダウンロードとインストール…

Continue reading