2018/10/13 時点でのまとめ.先日GEAが登録開始したように追加があるので気が向いたら随時更新する予定.
これまで配列解析をする際にどの種類データがどのデータベースにあるかがはっきりわかっていなかったのでまとめ.
ここではデータベース=一次データベースとして扱う.一次データベースとは,研究者が実際に配列を登録するデータベースのことである.(二次データベースはこれらのデータを解析した上でのデータベース.例えばEnsemblとか……)
DNA/RNAの配列は論文に投稿する際にデータベースへの登録が義務付けられている.
例えば,発現解析でいうとGEOやArrayExpressに登録がされる(2018/7/25に日本のGEAから登録ができるようになった)が,そこのデータベースにゲノム配列を登録するようなことはしない.
それぞれデータの”種類”によって登録されるデータベースが定められており,おおよそ以下の理解で合っているはずだ.
ファイルの拡張子 | ファイルの内容 | 登録先データベース |
.fastq(ファストキュー) |
次世代シーケンサーから出てきた配列.
各塩基に対する信頼性を表すスコアがついている.
|
DRA,ERA,SRA 以前SRA Toolkitの紹介をした |
.fasta(ファストエー/ファスタ) |
おなじみの形式で,一行目に”>”から始まり,二行目以降に配列のみが記されたもの.
次世代シーケンサーから出てきた上記生配列とは違い,アセンブリ(断片を繋ぎ合わせること)されている.
|
DDBJ,ENA,GenBank |
.sam/.bam(サム/バム) | fastqファイルをリファレンスに対してアライメントしたもの.これはリファレンスゲノムが存在する生物種のみ. | DRA,ERA,SRA |
(発現解析データ) |
(マイクロアレイを含む)発現解析に関するデータ.データベースから元のデータをダウンロードできるものもある.(別のデータベースへの参照)
エピジェネティクスに関するものも登録されている.
|
GEA,ArrayExpress,GEO |
塩基配列に関しては基本的にアメリカのNCBI,ヨーロッパのEBI,日本のDDBJでデータの共有がSRAファイルによってなされている.
ただ発現解析については今の所三者の共有は完全ではないので注意が必要.
他にもいわゆるヒトに関するデータベースもあるが,そちらは非常に機密性の高い個人情報であるため,オープンアクセスとはなっていない.登録が必要となる.
また,FASTQファイルについては,NCBIからはWebから直接のダウンロードができない.SRA Toolkitというものが必要となる.(SRA Toolkitのインストールと設定について)
しかし,提携しているDRAとERAはFASTQで直接落とすことができるので,もし必要であればどちらかの方法を取るか選べる.
また,DDBJは日本にあるので国内の研究者であればここからダウンロードするほうが速いだろう.ただやっぱりなんか今は使いにくい気がする.個人的な感想だが,ENAのほうが使い勝手がわかりやすいイメージ.
間違っていたらコメントで教えてほしいです.