NovaseqやNextSeqのシーケンスデータにポリG配列(poly-G)が含まれる

先日またRNA-seqを外注した。

FASTQCでクォリティチェックを行ったところ、以下のように、”Overrepresented sequences”に関する表示が出ていた。なにやら”GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG”のリードが2万近くあるとのこと……

あとビミョーにアダプター配列も検出された。

もちろん、GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGなんてBLASTかけたところで出てこなかったし、これが何なのかわからない。おそらくライブラリかシーケンスのエラーだろうと思って調べてみると、Illuminaのシーケンサ(NovaseqやNextSeq)特有のエラーらしい。読み取りがうまく行かなかったリードがこのGGG……になるというわけだ。

参考: Illumina 2 colour chemistry can overcall high confidence G bases

fastpでポリG配列を取り除く

こんなものを残した状態でマッピングするのはよろしくないので、トリミングする。

参考: Trimming reads and removing adapter sequences and polyG tails

fastpを使えば、Optionを加えてやるだけで簡単に取り除ける。

$ fastp -i "$FILE"_1.fastq.gz -I "$FILE"_2.fastq.gz -o trimmed_"$FILE"_1.fastq.gz -O trimmed_"$FILE"_2.fastq.gz -g -h report_"$FILE".html -q 20 -w 16

これのように、-gを加えてやるだけでポリG配列を排除できる。

その他のオプションは例えば-q 20は少なくとも20Phredクォリティスコアが必要、-w 16は使用スレッド数(最高16)、等。アダプター配列は特に指定しなくても取り除いてくれる。

きれいに取り除けた。

いやしかし、今回の発注したデータはポリGが多かったしその分エラーが多かったということ……なんかもったいないなあ。

NovaseqやNextSeqのシーケンスデータにポリG配列(poly-G)が含まれる

fastpでポリG配列を取り除く

コメントを残すコメントをキャンセル

Recent Posts

生命科学における量子計算アプローチ

DNAの突然変異と量子効果について

RNA velocity について

生物系博士課程の就活について簡潔に(IT・製薬・アカデミア)

基礎生物系博士課程の感想〜課題と今後の展望〜

カテゴリ

NovaseqやNextSeqのシーケンスデータにポリG配列(poly-G)が含まれる

fastpでポリG配列を取り除く

関連記事:

コメントを残す コメントをキャンセル

人気の記事

Recent Posts

生命科学における量子計算アプローチ

DNAの突然変異と量子効果について

RNA velocity について

生物系博士課程の就活について簡潔に(IT・製薬・アカデミア)

基礎生物系博士課程の感想〜課題と今後の展望〜

カテゴリ

コメントを残すコメントをキャンセル