bioawk で multiple FASTA の配列長を取得

参考: Sequence length from Fasta

マルチFASTA で、それぞれの配列の長さを出してほしい時がある。

そういったときに簡単に出力してくれるのがbioawkだ。

$ conda install bioawk

で、仮想環境上にインストール。

$ bioawk -c fastx '{ print $name, length($seq) }' < input.fa

で、出力してくれる。

全部出すと長い場合、パイプで繋いでやって欲しい部分に絞ってやれば良い。

$ bioawk -c fastx '{ print $name, length($seq) }' < input.fa | head -n 20
$ bioawk -c fastx '{ print $name, length($seq) }' < input.fa | tail -n 20

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です