転移因子(TE)の分類ツール: ClassifyTE、DeepTE Kim 2021年8月24日 2023年11月27日ゲノム解析, バイオインフォマティクス バイオインフォマティクス, ゲノミクス, トランスポゾン 0 転移因子(トランスポゾン、TE)はゲノムのある位置からある位置へと飛んでいくというDNA配列である。様々な真核生物においてゲノムに存在し、様々な役割を担っていたり、あるいは単純に「ジャンクDNA」であるようなものも存在する(最初はジャンクとして見られていたけど近年になって様々な役割が明らかにされてき… Continue reading
ゲノム中の反復配列を検出するソフト、REpeat Detector : Redの使い方 Kim 2021年8月23日 2023年11月27日ゲノム解析, バイオインフォマティクス トランスポゾン, 反復配列, バイオインフォマティクス, ゲノミクス 0 ゲノム中の反復配列、トランスポゾン等を検出するソフトは色々と開発されている。代表的なものにRepeat Maskerだったり、RepeatScout、WindowMasker、RepeatModeler等々ある。 それぞれライブラリをベースに検出を行ったり、あるいは denovo 法に基づいていたり… Continue reading
枝が長い系統樹の注意点 – Long Branch Attraction Kim 2021年7月9日 2023年11月27日分子進化(理論), 生物, バイオインフォマティクス バイオインフォマティクス, 進化生物学, 系統樹 0 分子系統樹を作成する時、特に何も考えずにツールに突っ込んで得られたデータの樹形を見ているということはないだろうか? 系統樹に関する既知の問題点として「Long branch attraction」という現象が古くから(50年くらい前)知られている。ロングブランチアトラクション、の日本語訳はまだ当てら… Continue reading
NovaseqやNextSeqのシーケンスデータにポリG配列(poly-G)が含まれる Kim 2021年6月14日 2023年11月27日RNA-seq, バイオインフォマティクス バイオインフォマティクス, RNA-seq, fastp, FastQC 0 先日またRNA-seqを外注した。 FASTQCでクォリティチェックを行ったところ、以下のように、”Overrepresented sequences”に関する表示が出ていた。なにやら”GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG… Continue reading
Featurecountsで”Successfully assigned alignments : 0 (0.0%)”と出る時 Kim 2021年3月17日 2023年11月27日RNA-seq, バイオインフォマティクス FeatureCounts, バイオインフォマティクス, RNA-seq 0 FeatureCountsを使ってマッピングしたRNA-seqリードをカウントしようとした時、どうしても全てが「0」カウントで出力されることがあった。 BAMファイルを調べる。 すると、GFFファイルとはぜんぜん異なる染色体の番号が……よくよく元のSTARのパラメータを記したshファイルを読み返すと… Continue reading
EnTAPでde novoアセンブルしたRNA-seqデータにアノテーション – 実データ編 Kim 2021年3月1日 2023年11月27日RNA-seq, バイオインフォマティクス バイオインフォマティクス, RNA-seq, de novo アセンブリ, EnTAP 0 前回のインストールの記事からめちゃくちゃ時間が経ってしまった。サクッと続きとして実データでの稼働方法を記しておく。 このドキュメントをベースに。 Trinityでde novo assemble Trinityで最初に自分のRNA-seqデータをアセンブルしておく。Trinity以外でも別に問題はな… Continue reading
【R】ベクトル同士を比較して同じ要素が含まれているかを判定 Kim 2020年12月31日 2023年11月27日R, バイオインフォマティクス R 0 手こずったので備忘録。 ある遺伝子IDとカウントデータが存在し、別の条件で遺伝子IDだけを絞り込んだデータフレームが存在した。 その絞り込んだ遺伝子IDが含まれるカウントデータデータフレームのレコードが必要だった。 最初はdf[df$geneid == df_another$geneid]とかでやっ… Continue reading
FeatureCountsでマッピングしたペアエンドデータのカウントを行う Kim 2020年12月26日 2023年11月27日RNA-seq, バイオインフォマティクス FeatureCounts, バイオインフォマティクス, RNA-seq 0 2021/05/25 追記: Ubuntuでのインストール方法を更新 前回の話とのつながりとしては、STARでRNA-seqのリードをリファレンスゲノムにマッピングしたという前提である。 さて、このマッピングしただけのデータ(SAMファイル)では統計的な解析に向かないという問題点がある。もちろん、こ… Continue reading
【R】t検定を行い、有意差を示すアスタリスク付きのグラフを作成する【改】 Kim 2020年10月6日 2023年11月27日R, IT, バイオインフォマティクス R, ggplot2, 作図 0 今回論文を作成するにあたってggplot2を用いて有意差を示すアスタリスクとバーを含むきれいなグラフを作りたい、ということから勉強して作成した。 出来上がった図はこちら。 前回はライブラリ(ggplot2)を使わずに作成したが、以下のようなものだった。 ダサかったね。現時点で3000アクセス以上あっ… Continue reading
ab1形式のシーケンスデータをFASTAに変換してJalviewでアライメントとかする Kim 2020年9月19日 2023年11月27日バイオインフォマティクス MAFFT, Jalview, バイオインフォマティクス 0 ラボの人に訊かれたのでついでにメモとして。私自身はシーケンスに出したりはしないが、そういうこともあるかもしれないので。 某ラボでは某クスのソフトを使ってシーケンス結果を見ているようだが、結構お高い有料ソフトなもので普通ならみんな導入できない。 今回はフリーソフトのみを使用して、ab1形式のシーケンス… Continue reading