fastファイル

 配列情報を記述するファイルで、fastaとfastqがある。fastaは、配列IDと配列情報のみのテキストデータであるが、fastqにはクオリティ情報が付加されている。
 記述例は以下の通りである。拡張子については、こちらを参照。

fasta形式

>genome_name_001
GCGTACAATCTATTGAAAGGCAGTGTATAAA・・・
>genome_name_002
TAAGAAATTTATAAAAATATTAAAGCCAGTT・・・
>genome_name_003



fastq形式

>genome_name_001
GCGTACAATCTATTGAAAGGCAGTGTATAAA・・・
+
?JB?B937?::JJ&ACACJ7J47JJIAB7JJ&&A・・・
>genome_name_002
TAAGAAATTTATAAAAATATTAAAGCCAGTT・・・
+
?JAB?B93&AJJIAB7C47JJ7JJ?::CJ7J&&A・・・
>genome_name_003



参考 クオリティスコア

 シークエンシングエラー(perror)は、下記の式に基づいて、クオリティスコア(Q)に変換されて記載される。
Q=-10log10perror
 Qは、数値ではなく、文字で記述されている。Qを数値に変換するには、その文字・記号のASCIIコードから33を引く計算を行う。
Q=(ASCIIコード)-33
 たとえば、Qの対応するASCIIコードが?の場合、63-33=30となる。
 これをさらに、perrorに変換するには、
perror= 10-Q/10= 10-3 = 0.001となる。
 つまり、0.1%の確率でエラーとなっていることを示している。


参考 ASCIIコード

 二進数に対応した文字のこと。たとえば、0はNUL、32はSPCに対応する。32までは2文字以上であるが、33から126までは1文字で表記されるため、クオリティを表現する数字の代わりに、対応する文字列で表す。33が!、47が/で、48が0、57が9、65〜90までが大文字のアルファベット、97〜122が小文字のアルファベットになっている。

33〜126までの文字コード
33-47 ! " # $ % & ' ( ) * + , - . /
48-57 0 〜 9
58-64 : ; < = > ? @
65-90 A 〜 Z
91-96 [ \ ] ^ _ `
97-122 a 〜 z
123-126 { | } ~

[戻る]