Jaký je rozdíl mezi FASTA a FASTQ

Obsah:

Jaký je rozdíl mezi FASTA a FASTQ
Jaký je rozdíl mezi FASTA a FASTQ

Video: Jaký je rozdíl mezi FASTA a FASTQ

Video: Jaký je rozdíl mezi FASTA a FASTQ
Video: Difference between FASTA and FASTQ file formats. How to make a fasta formatted file. 2024, Červenec
Anonim

Klíčový rozdíl mezi FASTA a FASTQ je ten, že FASTA je textový formát, který ukládá pouze nukleotidové nebo proteinové sekvence, zatímco FASTQ je textový formát, který ukládá jak sekvence, tak hodnoty související s kvalitou sekvence.

Bioinformatika je obor, který k analýze a pochopení biologických dat používá různé programy, zejména pokud je soubor dat složitý a velký. Tento obor kombinuje biologii, chemii, fyziku, informatiku, informační inženýrství, matematiku a statistiku za účelem analýzy a interpretace biologických dat. FASTA a FASTQ jsou dva formáty reprezentace sekvencí v oblasti bioinformatiky pro srovnání a analýzu sekvencí. FASTQ je ve skutečnosti formát souboru sekvence, který rozšiřuje formát FASTA o možnost uložit kvalitu sekvence.

Co je FASTA?

FASTA je software pro zarovnání DNA a proteinové sekvence. Software FASTA používá formát FASTA. Jedná se o textový formát, který představuje buď nukleotidové sekvence, nebo aminokyselinové (proteinové) sekvence. Zde jednopísmenné kódy představují obě tyto sekvence. FASTA je důležitým nástrojem v oblasti bioinformatiky a biochemie. Tento formát umožňuje názvy sekvencí a komentáře před sekvencemi.

FASTA vs FASTQ v tabulkové formě
FASTA vs FASTQ v tabulkové formě

Obrázek 01: Sekvence FASTA

Tento formát vznikl ze softwaru FASTA a byl představen Davidem J. Lipmannem a Williamem R. Pearsonem v roce 1985. Nástroj FASTA prošel postupem času mnoha modifikacemi a nejnovější verze se skládá z programů pro protein:protein, DNA:DNA, protein:přeložená DNA (s posuny snímků) a hledání uspořádaných nebo neuspořádaných peptidů. FASTA čte danou nukleotidovou nebo aminokyselinovou sekvenci a hledá odpovídající databázi sekvencí pomocí lokálního zarovnání sekvencí k nalezení shod podobných databázových sekvencí.

Co je FASTQ?

FASTQ je zarovnávací software používaný v oblasti bioinformatiky, který ukládá jak biologickou sekvenci (obvykle nukleotidovou sekvenci), tak její odpovídající skóre kvality. FASTQ byl původně vyvinut pro spojení sekvence ve formátu FASTA a souvisejících údajů o kvalitě od Wellcome Trust Sanger Institute. S rozvojem v oblasti bioinformatiky se FASTQ stal de facto standardem pro ukládání výstupu mnoha vysoce výkonných sekvenačních nástrojů.

Formát FASTQ používá čtyři různé řádky na sekvenci. Řádek 1 začíná znakem @ a za ním následuje identifikátor sekvence (podobný titulkovému řádku FASTA). Řádek 2 obsahuje písmena nezpracované sekvence. Na řádku 3 sekvence začíná znakem „+“a volitelně za ní následuje stejný identifikátor sekvence. Řádek 4 zakóduje hodnoty kvality pro sekvenci na řádku 2 a měl by sestávat ze stejného počtu symbolů jako písmen v sekvenci.

Jaké jsou podobnosti mezi FASTA a FASTQ?

  • FASTA a FASTQ jsou nástroje pro zarovnání.
  • Jsou to dva formáty reprezentace sekvence.
  • Oba souvisí s oblastí bioinformatiky.
  • FAST i FASTQ jsou důležité nástroje pro účely ukládání a sekvenování.
  • FASTQ je rozšíření formátu FASTA s možností uložit kvalitu sekvence.

Jaký je rozdíl mezi FASTA a FASTQ?

FASTA je textový formát, který ukládá pouze nukleotidové nebo proteinové sekvence, zatímco FASTQ je textový formát, který ukládá jak sekvenční, tak související hodnoty kvality sekvence. Toto je klíčový rozdíl mezi FASTA a FASTQ. Navíc FASTA ukládá fragmenty sekvence po mapování, zatímco FASTQ ukládá fragmenty sekvence před mapováním. Kromě toho je dalším rozdílem mezi FASTA a FASTQ to, že FASTA se skládá z jednoho řádku popisu a FASTAQ se skládá ze čtyř řádků.

Níže uvedená infografika představuje rozdíly mezi FASTA a FASTQ v tabulkové formě pro srovnání vedle sebe.

Shrnutí – FASTA vs FASTQ

Bioinformatika používá různé formáty sekvencí, jako je FASTA a FASTQ atd. FASTA ukládá fragmenty sekvencí po namapování, zatímco FASTQ ukládá fragmenty sekvencí před mapováním. FASTA je software pro zarovnání DNA a proteinové sekvence. Skládá se z programů pro protein:protein, DNA:DNA, protein:translated DNA (s frameshifty) a uspořádané nebo neuspořádané vyhledávání peptidů. FASTQ je software pro zarovnání používaný v oblasti bioinformatiky a ukládá jak biologickou sekvenci (obvykle nukleotidovou sekvenci), tak její odpovídající skóre kvality. FASTA se skládá z jednoho řádku popisu a FASTQ se skládá ze čtyř řádků. Toto shrnuje rozdíl mezi FASTA a FASTQ.

Doporučuje: