Klíčový rozdíl mezi podobností a identitou při zarovnání sekvencí je ten, že podobnost je podobnost (podoba) mezi dvěma sekvencemi ve srovnání, zatímco identita je počet znaků, které se přesně shodují mezi dvěma různými sekvencemi.
Bioinformatika je interdisciplinární vědní obor, který zahrnuje především molekulární biologii a genetiku, informatiku, matematiku a statistiku. Sekvenční zarovnání je hlavním termínem v bioinformatice. Je to postup, při kterém jsou sekvence DNA, RNA nebo proteinu uspořádány tak, aby identifikovaly oblasti podobnosti, což je důsledek funkčního, strukturálního nebo evolučního vztahu mezi sekvencemi. Na konci zarovnání budou zobrazeny jako řádky v matici. Aby bylo možné zarovnat identické znaky v následných sloupcích, jsou mezi zbytky přítomny vložené mezery.
Co je podobnost?
Podobnost v zarovnání sekvencí je podobnost mezi dvěma sekvencemi při srovnání. Tato skutečnost je závislá na identitě sekvencí. Podobnost znázorňuje rozsah, ve kterém jsou zbytky zarovnány. Proto podobné sekvence obsahují podobné vlastnosti. V bioinformatice je podobnost nástrojem k posouzení podobnosti mezi dvěma proteiny.
Obrázek 01: Podobnost v zarovnání sekvencí
Proces sekvenčního zarovnání má dva hlavní kroky. Počátečním krokem je párové zarovnání, které pomáhá najít optimální zarovnání mezi dvěma sekvencemi (včetně mezer) pomocí algoritmů jako BLAST, FastA a LALIGN. Porovnávací algoritmus najde minimální počet editačních operací; in-dels a substituce za účelem srovnání jedné sekvence s druhou sekvencí. Po párovém srovnání je nutné získat dva kvantitativní parametry z každého párového srovnání. Jsou to identita a podobnost.
Co je identita?
Identita v zarovnání sekvence je počet znaků, které se přesně shodují mezi dvěma různými sekvencemi. Mezery se tedy při posuzování identity nepočítají. Měření je považováno za vztah ke kratší sekvenci mezi dvěma sekvencemi. Významně to znamená, že má účinek tam, kde sekvenční identita není tranzitivní. Jestliže X=Y a Y=Z, pak X se nemusí nutně rovnat Z. Toto je odvozeno z hlediska míry identity.
Obrázek 02: Identita v sekvenčním zarovnání
Například X má sekvenci AAGGCTT, Y má sekvenci AAGGC a Z má sekvenci AAGGCAT. Identita mezi X a Y je 100% {5 identických nukleotidů / min[délka(X), délka(Y)]}. Identita mezi Y a Z je také 100 %. Ale identita mezi X a Z je pouze 85 % {(6 identických nukleotidů / 7)}.
Jaké jsou podobnosti mezi podobností a identitou v zarovnání sekvencí?
- Podobnost i identita jsou dva termíny, které používáme při zarovnání sekvencí.
- Odkazují také na podobnost mezi těmito dvěma sekvencemi.
- Navíc je vyjadřujeme jako procentuální hodnotu.
Jaký je rozdíl mezi podobností a identitou v zarovnání sekvencí?
Podobnost v zarovnání říká podobnost mezi dvěma sekvencemi při porovnání, zatímco identita v sekvenčním zarovnání říká množství znaků, které se přesně shodují mezi dvěma různými sekvencemi. Toto je tedy klíčový rozdíl mezi podobností a identitou v sekvenčním zarovnání.
Shrnutí – podobnost vs identita v zarovnání sekvencí
Zarovnání sekvencí pomáhá identifikovat oblasti podobnosti v DNA, RNA nebo proteinu vzniklé v důsledku funkčního, strukturálního nebo evolučního vztahu mezi sekvencemi. Podobnost a identita jsou tedy dva klíčové pojmy v kontextu sekvenčního zarovnání. Klíčový rozdíl mezi těmito dvěma termíny je ten, že podobnost je podobnost mezi dvěma sekvencemi ve srovnání, zatímco identita je počet znaků, které se přesně shodují mezi dvěma různými sekvencemi. Toto je shrnutí rozdílu mezi podobností a identitou v sekvenčním zarovnání.