unicycler
unicyclerは、バクテリアゲノムに特化したアセンブラーで、short readとlong readのhybrid assemblyを目的として使用する。
使用例を以下に示す。尚、下準備として、作業環境の整備とトリミングが必要となる。都合上、一部を省略している。作業環境の整備およびlong readのトリミングに関しては
canuの項目を参照。
fastpによるトリミングとquality check
fastpによるトリミング
(base) ~ % cd Desktop/3D_bioinformatics/DATA/short_reads/novaseq_raw #作業ディレクトリをnovaseq_rawに
(base) novaseq_raw % cp AC18_1.fastq.gz AC18_2.fastq.gz /Users/ocumbacteriology/Desktop/3D_bioinformatics/WD/data/short_reads #ファイルを作業用ディレクトリ(ここではshort_reads)にコピーする
(base) novaseq_raw % cd ..../WD/data/short_reads #作業ディレクトリをshort_readsに
(base) short_reads % % seqstats AC18_1.fastq.gz #AC18_1.fastq.gzの中身を確認
(base) short_reads % mkdir fastp1 #fastp1というディレクトリを作成
(base) short_reads % cd fastp1 #作業ディレクトリをfastp1に
---- トリミング前後のクオリティが表示されるが、結果の表示は省略 ----
- -i: input1, -o: output1, -I: input2, -O: output2
- -h: html形式で結果を出力することを指定
- -j: json形式で結果を出力することを指定
- -q: クオリティートリミング 今回はクオリティーの高いショートリードのデータなので30に設定
- -n: 最低塩基数の指定
- -t, -T: input1およびinput2の3’末端を指定塩基数(今回は3塩基)トリミングする
- -l: リードの最低長を指定 今回20 bp
- -w: thread数の指定
quality check
(base) ls #fastp1の中身を表示
AC18_1_trimmed.fq.gz report.html
AC18_2_trimmed.fq.gz report.json
(base) fastp1 % seqstats AC18_1_trimmed.fq.gz #AC18_1_trimmed.fq.gzファイルの状況を確認
Total n: 15844552
Total seq: 2344377518 bp
Avg. seq: 147.96 bp
Median seq: 148.00 bp
N 50: 148 bp
Min seq: 31 bp
Max seq: 148 bp
(base) fastp1 % seqstats AC18_2_trimmed.fq.gz #AC18_2_trimmed.fq.gzファイルの状況を確認
---- 1と同様の結果が表示されるが、結果の表示は省略 ----
unicyclerによるハイブリッドアセンブリ
(base) ~ % cd /Users/ocumbacteriology/Desktop/3D_bioinformatics/WD # 作業ディレクトリをWDに
(base) WD % mkdir unicycler # unicyclerディレクトリを作成
(base) WD % cd unicycler # 作業ディレクトリをunicyclerに
(base) unicycler % conda activate unicycler # unicyclerという仮想環境を活性化(unicyclerも仮想環境にインストールしてある)
(unicycler) unicycler % unicycler -1 ../data/short_reads/fastp_-t-T_-3_-5/out_pair1.fq. -2 ../data/short_reads/fastp_-t-T_-3_-5/out_pair2.fq -l ../data/long_reads/Ac18_trimed.fq -o output --mode bold
- unicyclerによるハイブリッドアセンブリの実施
- -1: 1つ目のSRSのトリミング後のファイル
- -2: 2つ目のSRSのトリミング後のファイル
- -l(小文字のエル): LRSのトリミング後のファイル
- -o: アウトプットのディレクトリ名(任意に決められるが、今回はoutputにしている)
- --mode bold: 条件をboldにしている(アセンブルの精度とcontiguityの設定。defaultではブリッジのクオリティの閾値は10だが、conservativeでは25になる。同時にショートリードをブリッジ情報として使われなくなる。boldでは反対にcutoffの値が最低の1まで下がり、ショートリードもブリッジ情報として利用される)。
- long readのファイル(ここでは、../data/long_reads/Ac18_trimed.fq)は、canu項目で準備したもの。
関連項目 アセンブリ canu