Informație

Cum să construiești un arbore filogenetic fără un grup extern?


Am secvențe întregi aliniate cu genomul a patru populații de gândaci din aceeași specie. Doresc să construiesc un arbore filogenetic cu cei patru. Cu toate acestea, nu reușesc să găsesc un grup extern adecvat al speciilor, așa că nu pot folosi un grup extern pentru a înrădăcina copacului. Există o metodă specială pe care o puteți folosi pentru a construi un arbore fără un grup extern? Am descoperit că software-ul MEGA face acest lucru bine. Care este teoria și înțelegerea construirii unui arbore fără un grup extern? care sunt implicațiile construirii unui arbore fără un grup extern? Sunt distanțele dintre copaci măsurate unul față de celălalt?


Majoritatea algoritmilor clasici de reconstrucție a filogeniei rădăcinează arborele a posteriori, pe baza grupului extern ales de utilizator. Arborele este de fapt dedus și reprezentat intern fără rădăcină.

Prin urmare, dacă utilizați un program care vă solicită un grup extern, este posibil să alegeți unul arbitrar și mai târziu să „de-rădăcinați” arborele obținut.


Construcția studenților de arbori filogenetici într-un curs introductiv de biologie

Arborii filogenetici au devenit din ce în ce mai esențiali în cadrul disciplinelor de biologie. În consecință, învățarea despre arborii filogenetici a devenit o componentă importantă a educației în biologie și o zonă de interes pentru cercetarea educației în biologie. Sarcinile de construcție, în care elevii generează arbori filogenetici din anumite tipuri de date, sunt adesea folosite pentru instruire. Cu toate acestea, impactul acestor exerciții asupra învățării elevilor este incert, în parte din cauza cunoștințelor noastre fragmentate despre ceea ce elevii construiesc în timpul sarcinilor. Scopul acestui proiect a fost de a dezvolta o metodă mai robustă de descriere a arborilor filogenetici generați de elevi, care va sprijini investigațiile viitoare care încearcă să lege sarcinile de construcție cu învățarea elevilor.

Rezultate

Prin examinarea iterativă a datelor dintr-un curs introductiv de biologie, am dezvoltat o metodă de descriere a arborilor filogenetici generați de studenți în termeni de stil, convenționalitate și acuratețe. Elevii au folosit stilul diagonală mai des decât stilul bracket pentru sarcinile de construcție. Majoritatea arborilor filogenetici au fost construiți în mod convențional, iar orientarea variabilă a ramurilor a fost cea mai comună caracteristică neconvențională. În plus, majoritatea arborilor filogenetici au fost generați corect (fără erori) sau adecvat (doar erori minore) în ceea ce privește acuratețea. Cea mai frecventă eroare majoră a fost cea mai frecventă eroare majoră, în timp ce ramurile goale și nodurile suplimentare au fost erori minore foarte frecvente.

Concluzii

Metoda pe care am dezvoltat-o ​​pentru a descrie arborii filogenetici construiți de elevi a descoperit câteva tendințe care justifică investigații suplimentare. De exemplu, în timp ce arborii filogenetici în diagonală și paranteză conțin informații echivalente, preferința elevilor pentru utilizarea stilului diagonal ar putea afecta înțelegerea. În plus, în ciuda lipsei de instruire explicită, studenții au generat arbori filogenetici care au fost în mare parte convenționali și precisi. În mod surprinzător, acuratețea și convenționalitatea au fost, de asemenea, dependente una de cealaltă. Metoda noastră de descriere a arborilor filogenetici construiți de studenți se bazează pe datele de la un curs introductiv de biologie la o instituție, iar rezultatele sunt probabil limitate. Încurajăm cercetătorii să folosească metoda noastră ca bază pentru dezvoltarea unui instrument mai generalizabil, care va sprijini investigațiile viitoare care încearcă să lege sarcinile de construcție cu învățarea elevilor.


Materiale și metode

Eșantionarea taxonilor și a caracterelor

Pentru a testa relațiile crocodilomorfilor talatosuchieni, am efectuat o analiză filogenetică a 394 de caractere morfologice punctate pentru opt taxoni din afara grupului și 78 din grup, inclusiv 24 de specii talatosuchiene (Anexa 1 online disponibilă ca Material suplimentar despre Dryad la http://dx.doi. org/10.5061/dryad.00ss6). Acest nou set de date este o versiune modificată a celei prezentate în Wilberg (2015) cu adăugarea a 10 caractere noi și modificarea multor altele (Anexa 2 online disponibilă ca material suplimentar despre Dryad la http://dx.doi.org/ 10.5061/driada.00ss6). Pentru a minimiza erorile în codificarea caracterelor, am concentrat eșantionarea în grup pe specimene pe care le puteam observa direct sau pe cele cu descrieri detaliate publicate. Am făcut un efort pentru a eșantiona pe scară largă din toate grupurile majore de crocodilomorfe. Eșantionarea taxonilor în Thalattosuchia sa concentrat pe captarea gamei largi de morfologii prezente în grup pe întreaga durată temporală a acestora. Eșantionarea în afara grupului a fost crescută față de analizele anterioare, cu intenția de a caracteriza mai bine distribuția stărilor de caracter la noncrocodiliforme. suchianul bazal Gracilisuchus a fost folosit pentru a înrădăcina arborele pe baza poziției sale în analiza la scară largă a Archosauriei de către Nesbitt (2011). Rauisuchid (sensu Nesbitt 2011) Postosuchus kirkpatricki a fost inclus din două motive principale. În primul rând, Rauisuchidae a fost adesea recuperat ca grup soră cu Crocodylomorpha, chiar în afara „Sphenosuchia” instabilă din punct de vedere filogenetic (de exemplu, Benton și Clark 1988 Parrish 1993 Juul 1994 Nesbitt 2011). Al doilea, Postosuchus kirkpatricki este bine cunoscut din mai multe exemplare reprezentând aproape scheletul complet, permițând notarea majorității personajelor. De asemenea, au fost prelevați șase taxoni „sphenosuchian”. Trei dintre acestea au fost recuperate ca taxon soră cu Crocodyliformes în analizele anterioare (Junggarsuchus sloani, Clark şi colab. 2004 Kayentasuchus walkeri, Nesbitt 2011 Almadasuchus figarii, Pol şi colab. 2013). Includerea acestor taxoni va oferi un test mai riguros al plasării potențiale a Thalattosuchia ca grup soră cu Crocodyliformes. Pentru a evalua sensibilitatea topologiei la eșantionarea în afara grupului, analiza a fost, de asemenea, efectuată în trei permutări: Excluzând suchianul bazal Gracilisuchus (înrădăcinarea pe Postosuchus) excluzând taxonii noncrocodilomorfi Gracilisuchus și Postosuchus (înrădăcinarea pe Hesperosuchus agilis) și excluzând toate noncrocodiliformele și înrădăcinarea pe protosuchian Orthosuchus stormbergi ca în unele analize publicate (de exemplu, Sereno și Larsson 2009).

Ca și în cazul oricărei analize filogenetice paleontologice, setul de date de studiu conține cantități relativ mari de date lipsă (40,75% lipsă sau inaplicabile). O mare parte din datele lipsă sunt concentrate în caracterele postcraniene, deoarece numeroși taxoni crocodilomorfi sunt cunoscuți în principal din materialul cranian. Trei taxoni (Zaraasuchus shepardi, Eoneustes gaudryi, și Stenosaurus brevidens) sunt foarte incomplete (80–82%), în timp ce mediana incompletă per taxon este de ~36%. Cu toate acestea, deși s-a demonstrat că datele lipsă reduc acuratețea filogenetică (de exemplu, Wiens 2003 Prevosti și Chemisquy 2010 și referințele din acestea), cantitatea de date lipsă nu se corelează direct cu conținutul de informații al unui taxon. Un taxon extrem de incomplet poate crește rezoluția dacă conține informații sinapomorfe informative (Kearney și Clark 2003 Wiens 2003).

Analiza parcimoniei

Setul de date filogenetice a fost analizat în TNT v1.1 ( Goloboff et al. 2008) folosind parcimonie egal ponderată. Arborii cu lungime minimă au fost găsiți folosind o căutare euristică cu 1000 de replici ale arborilor Wagner folosind secvențe de adiție aleatoare urmate de schimbarea ramurilor de bisectare și reconectare a arborilor (TBR). Cei mai scurti arbori obținuți din aceste replici au fost supuși unei runde finale de schimbare a ramurilor TBR pentru a se asigura că toți arborii de lungime minimă au fost descoperiți. Ramurile de lungime zero au fost prăbușite dacă nu aveau suport sub oricare dintre arborii de lungime minimă (Regula 1 a Coddington și Scharff 1994). Au fost efectuate două analize separate. În primul, pentru a testa efectul seturilor potențial imbricate de omologii prezente în unele caractere cu mai multe stări, 36 de caractere au fost tratate așa cum a fost comandat (Anexa 2 online disponibilă ca material suplimentar despre Dryad la http://dx.doi.org/10.5061/dryad .00ss6). În al doilea, caracterele cu mai multe stări au fost tratate ca neordonate pentru a evita crearea a priori ipotezele despre procesul evoluției (deși a fost pus sub semnul întrebării dacă tratarea unor astfel de personaje ca neordonate implică presupuneri mai bine justificate, de exemplu, Lipscomb 1992 Slowinski 1993).

Suport nodal

Sprijinul nodal a fost evaluat folosind reeșantionarea jackknife, așa cum este aplicat datelor de caractere ( Farris et al. 1996). Suportul Jackknife a fost calculat în TNT folosind 1000 de replici, cu probabilitatea de eliminare independentă a caracterelor stabilită la 0,37 (∼e -1 așa cum este recomandat în Farris et al. 1996). A fost utilizată o căutare euristică cu fiecare replicare constând din 10 secvențe de adiție aleatorie, salvând 10 arbori per replicare. Topologiile rezultate au fost rezumate folosind frecvențele GC (diferența dintre frecvența de recuperare a unui grup dat și cel mai frecvent grup contradictoriu Goloboff et al. 2003). Frecvențele GC sunt preferate față de frecvențele absolute (metoda standard de numărare a frecvențelor în analizele bootstrap și jackknife) deoarece ele reprezintă dovezile în sprijinul unei clade, precum și cantitatea de dovezi care falsifică acea cladă.

Matrici comparative

Pentru a evalua efectul eșantionării în afara grupului asupra topologiei arborelui, au fost investigate două matrice taxon-caracter crocodilomorfe publicate anterior (Turner și Buckley 2008 Sereno și Larsson 2009). Analiza lui Turner și Buckley (2008) constă din 75 de taxoni și 290 de caractere și include Gracilisuchus stipanicicorum, Terrestrisuchus gracilis, și Dibothrosuchus elaphros ca taxoni din afara grupului (înrădăcinați pe Gracilisuchus). Analiza lui Sereno și Larsson (2009) include 43 de taxoni și 252 de caractere (înrădăcinate pe protosuchian). Orthosuchus stormbergi). Ambele matrice au fost nemodificate, cu excepția adăugării de noi taxoni din afara grupului. În cazul lui Turner și Buckley (2008), taxonul unic terminal Postosuchus kirkpatricki a fost adăugat. În scopuri comparative, ambele Postosuchus și Gracilisuchus au fost adăugate la setul de date al lui Sereno și Larsson (2009). Aceste seturi de date au fost analizate folosind parcimonie neponderată în TNT v. 1.1 și aceiași parametri de căutare descriși mai sus. Ambele analize au încorporat caractere aditive, iar acestea au fost reținute ca atare. Gracilisuchus a fost setat ca rădăcină pentru ambele matrice. Toate seturile de date filogenetice sunt disponibile ca material suplimentar pe Dryad la http://dx.doi.org/10.5061/dryad.00ss6.


Cum să construiți un arbore filogenetic în Geneious Prime

Arborii filogenetici sunt utilizați pentru a deduce relații evolutive între secvențe. Geneious poate construi arbori filogenetici folosind distanță, probabilitate maximă sau metode bayesiene. Acest ghid descrie pașii de bază pentru a construi un arbore și a manipula vizualizatorul de arbore în Geneious.

Înainte de a începe să vă construiți arborele, ar trebui să vă familiarizați cu principiile de construire a copacilor și cu punctele forte și punctele slabe ale fiecărei metode. Recenzia de mai jos este un loc bun de început.

1. Aliniați-vă secvențele

Înainte de a putea construi un arbore filogenetic, trebuie să vă aliniați secvențele. Pentru a face acest lucru, selectați toate secvențele și alegeți Aliniere/Asamblare - Aliniere multiplă. Acest link oferă un ghid pentru algoritmii disponibili.

Odată ce sunteți mulțumit de aliniere, selectați-l și faceți clic Copac pentru a deschide opțiunile de construire a copacului.

2. Alegeți generatorul de arbori și parametrii dvs

În partea de sus a opțiunilor de construire a arborelui, veți vedea algoritmii de construire a arborilor disponibili. Aceasta include generatorul încorporat Geneious Tree Builder (și generatorul Consensus Tree) și orice plugin pe care le-ați instalat.

Geneious Tree Builder produce arbori la distanță folosind fie metodele Neighbor-Joining, fie UPGMA. În plus, următoarele plugin-uri sunt disponibile pentru a produce probabilitate maximă, parcimonie sau arbori bayesieni:

RAxML - Probabilitate maximă, optimizat pentru seturi mari de date

FastTree - Probabilitate maximă aproximativă, pentru seturi de date extrem de mari

PAUP* - Parcimonie sau probabilitate maximă (necesită propria ta copie a PAUP*, fie versiunea 4.0b10, fie 4.0a149 și mai sus de aici )

Mai multe informații despre constructorii de arbori cu probabilitate maximă sunt disponibile la acest link.

Fiecare constructor de arbore are o interfață diferită pentru specificarea modelului evolutiv și a altor parametri. Vă sugerăm să consultați manualul de utilizare pentru fiecare constructor de copaci pentru a vă familiariza cu opțiunile disponibile. De asemenea, poate doriți să utilizați un program precum Modeltest în afara Geneious pentru a determina cel mai bun model pentru datele dvs. înainte de a construi arborele.

3. Rulați-vă copacul

Faceți clic pe OK pentru a începe construirea arborelui. Timpul necesar pentru a construi arborele va varia în funcție de algoritmul pe care l-ați ales, de dimensiunea alinierii și de parametrii (cum ar fi numărul de replici bootstrap) pe care i-ați ales. Arborii de la distanță se completează în mod normal destul de repede (în câteva minute), dar probabilitatea maximă și copacii bayesieni pot dura ore sau chiar zile.

4. Vizualizați arborele dvs

Când arborele s-a terminat de rulat, va fi creat un nou document arbore și se va deschide automat în vizualizator. În mod implicit, Geneious afișează copacii în aspect dreptunghiular (înrădăcinat), chiar dacă arborele este nerădăcinat. Opțiuni pentru formate circulare sau radiale pot fi găsite sub General fila, împreună cu comenzile Zoom.

Dacă doriți să vă înrădăcinați arborele, faceți clic pe nodul taxonului pe care doriți să îl specificați ca grup extern și faceți clic pe Rădăcină. Pentru a inversa poziția taxonilor pe verticală, fără a schimba topologia, utilizați Schimbați frații opțiune.

Controalele din partea de sus a vizualizatorului conțin, de asemenea, opțiuni pentru colorare și setarea dimensiunilor fonturilor în arborele dvs. Pentru a colora o întreagă cladă, selectați nodul de la baza cladei și selectați Noduri de culoare.


1 Răspuns 1

Aveți nevoie de suport pentru bootstrap folosind un algoritm de construire a arborilor bazat pe model, prin probabilitate maximă (câțiva oameni folosesc Bayes). Formatul fișierului este format phylip relaxat (vă rugăm să trimiteți o întrebare separată dacă aveți dificultăți aici - este puțin complicat).

Eu folosesc RAxML standard aici, în special raxmlHPC (se poate descărca cu ușurință și se compilează pe Linux și OSX). Codurile sunt destul de complicate și le-am dat mai jos.

Un arbore robust al probabilității maxime este,

Acest arbore va bootstrap pentru 500 de replicări, totuși, pentru a începe, aș folosi 100 de replicări.

Faceți un arbore de consens pentru bootstraps,

Aveți nevoie de suport pentru bootstrap > 80% și vă rugăm să repetați acest lucru cu și fără 5-2/5-3 (încă pare lung)

Clusterul la care aveți acces este în regulă pentru calcul, va dura aproximativ 24 de ore pentru a finaliza un calcul bootstrap pentru un set de date și, evident, trebuie să paralelizați calculul în cele 22 de contig.

Vizualizarea arborelui, FigTree (pentru Mac OSX) este ușoară.

Înrădăcinarea poate fi complicată pentru că nu-ți cunosc cu adevărat bacteriile.

Problema recombinării este mai complicată, dar aș construi 22 de arbori din contig-urile dvs. și aș evalua congruența acestora. Panmixia este o preocupare, ceea ce înseamnă prea multă recombinare


Cum să citiți un arbore filogenetic

Au trecut peste 50 de ani de când Willi Hennig a propus o nouă metodă pentru determinarea relațiilor genealogice între specii, pe care a numit-o sistematică filogenetică. Cu toate acestea, mulți oameni încă abordează metoda cu prudență, îngrijorați că vor trebui să se confrunte cu un număr copleșitor de termeni și concepte noi. De fapt, citirea și înțelegerea arborilor filogenetici nu este deloc dificilă. Trebuie doar să înveți trei cuvinte noi, autapomorfie, sinapomorfie și plesiomorfie. Toate celelalte concepte (de exemplu, strămoși, grupuri monofiletice, grupuri parafiletice) sunt familiare care făceau deja parte din evoluția darwiniană înainte de sosirea lui Hennig pe scenă.

Eu și Dan Brooks predăm un curs de biodiversitate (EEB 265) studenților din anul II de la Universitatea din Toronto. Întregul curs este structurat în jurul unui cadru filogenetic. Începem cu arborele mare, deși simplificat, al Metazoei, apoi ne străduim drumul de la bureți la șerpi, concentrându-ne pe personajele care leagă grupurile și pe personajele care fac fiecare grup unic. Dacă ne facem treaba corect, elevii noștri ar trebui să poată răspunde la următoarele întrebări: ce este acest animal (de unde știi)? Ce face? Ce îl face special? Ce aspecte ale biologiei sale îl fac vulnerabil la intervenția antropică? Deoarece toți studenții făcuseră deja un laborator de biologie din primul an care acoperă elementele fundamentale ale filogeneticii, am presupus că nu va fi nevoie să revizuim metodologia filogenetică în cursul nostru de biodiversitate. Nu a durat mult până să ne dăm seama că presupunerea noastră era naivă când mulți dintre studenți au ajuns în EEB 265, ei au apăsat deja butonul de ștergere de lângă „filogenetică” din creierul lor. Este întotdeauna umilitor să (re)descoperi că nu toată lumea îți împărtășește părerile despre lucrurile din viață care sunt interesante și importante!

Înapoi la planșa de desen. Una dintre problemele majore cu predarea unui curs despre diversitatea metazoarelor este că pur și simplu nu aveți suficient timp pentru a acoperi toate grupurile. Ultimul lucru pe care am vrut să-l facem a fost să sacrificăm cursurile bazate pe biologie pentru o discuție despre teorie. Așadar, provocarea a fost simplă: proiectați o prelegere care, în 50 de minute, să-i învețe pe elevi cum să înțeleagă ce le spune un arbore filogenetic. Nu a fost intenția noastră să-i învățăm pe elevi cum să facă copaci, doar cum să-i citească. Această lucrare se bazează pe acea prelegere.

Cuvântul „filogenie” este o combinație de două cuvinte grecești, phyle (trib – în special, cea mai mare subdiviziune politică din statul antic atenian [www.yourdictionary.com www.etymonline.com]: un alt cuvânt pe care îl obținem de la aceasta este „phylum”) și geneia (origine [www.etymonline.com]: un alt cuvânt pe care îl obținem din aceasta este „genă”). A fost inventat de biologul de dezvoltare Ernst Haeckel în 1866 și apoi susținut de Darwin în celebra sa lucrare, Despre Originea Speciilor (începând cu ediția a V-a în 1869). Ambii biologi au legat ideea de „filogeneză” – originea grupurilor – de evoluție. Arborii filogenetici sunt astfel pur și simplu diagrame care descriu originea și evoluția grupurilor de organisme.

Deși s-ar putea să nu știți, cu toții suntem familiarizați cu ideea de arbori filogenetici. Oamenii au făcut astfel de copaci de zeci de ani, înlocuind cuvântul „familie” cu „filogenetic” (Fig. 1). Așa cum oamenii dintr-o familie de-a lungul generațiilor sunt conectați prin legături de „sânge” (procesul de reproducere care produce descendenți), speciile individuale sunt conectate prin legături evolutive (procese biologice precum selecția naturală și procese geologice, cum ar fi deriva continentală sau un râu). schimbarea cursului care produc specii). În acest sens, speciația (producția de noi specii) = reproducere (producția de noi indivizi). Cu alte cuvinte, suntem cu toții, de la membrii aceleiași familii până la membrii aceleiași specii, legați prin gene.

Arborele genealogic pentru un grup interesant de oameni. În termeni filogenetici, arbori genealogici (genealogii de oameni) = arbori filogenetici (genealogii ale speciilor)

Copacii genealogici tind să fie desenați ca și cum ar fi atârnați cu capul în jos, ca un ciorchine de struguri. Arborii filogenetici sunt reprezentați oarecum diferit. Imaginați-vă că țineți arborele genealogic pentru pisicile mari prezentate în Fig. 2a. Acum, întoarceți-l în lateral (rotiți-l cu 90° în sens invers acelor de ceasornic) și aveți imaginea prezentată în 2b. Rotiți această imagine încă cu 90° în sens invers acelor de ceasornic, neteziți-o și aveți imaginea prezentată în Fig. 2c (această formă de copac a fost cea folosită de Darwin în Despre Originea Speciilor). Lucrul important de reținut este că toate cele trei reprezentări spun exact același lucru despre relațiile dintre speciile de pisici mari. Modul în care alegeți să vă desenați arborii filogenetici depinde, în parte, de preferințele personale – unora le este mai ușor să citească 2b, alții preferă 2c.

Ac Atât de multe moduri de a desena un arbore genealogic/filogenetic pentru gen Panthera

Arborii filogenetici sunt reconstruiți printr-o metodă numită „sistematică filogenetică” (Fig. 3). Această metodă grupează grupuri de organisme împreună pe baza unor caractere comune, unice numite sinapomorfii. De exemplu, împărtășești prezența unei coloane vertebrale cu pisicile, dar nu și cu fluturii. Prezența unei coloane vertebrale ne permite astfel să facem ipoteza că ființele umane sunt mai strâns legate de pisici decât de fluturi (Fig. 4a) pisicile și oamenii ambii au o coloană vertebrală, fluturii sunt fără coloană Nota de subsol 1 . Nu toate personajele sunt sinapomorfii. Unele trasaturi, numite plesiomorfii, sunt partajate de toți membrii unui grup. Revenind la copacul nostru, vedem că pisicile, oamenii și fluturii au toți ADN (Fig. 4b). Prezența ADN-ului ne permite să facem ipoteza că aceste trei specii fac toate parte din același grup, dar nu ne spune nimic despre modul în care aceste specii sunt legate între ele. Gândește-te așa: numele meu de familie îmi spune că fac parte din clanul McLennan. Dacă întâlnesc pe cineva pe nume Jessie McLennan, știu că suntem rude cumva, dar nu am idee dacă este o verișoară pierdută de mult sau cineva dintr-o ramură mai îndepărtată a arborelui genealogic. Termenul final pe care trebuie să-l știți este autapomorfie— trăsături care se găsesc doar la un membru al grupului. De exemplu, fluturii se pot distinge de pisici și oameni, deoarece au un exoschelet format din chitină (un derivat dur, rezistent la apă al glucozei). Autapomorfiile ne ajută să identificăm o anumită specie într-un grup, dar, ca și plesiomorfiile, nu ne spun nimic despre relațiile din cadrul grupului. În general, aceste trei tipuri de personaje pot fi asemănate cu povestea Goldilocks: plesiomorfiile sunt prea fierbinți (prea răspândite), autapomorfiile sunt prea reci (prea restrânse) și sinapomorfiile sunt tocmai potrivite (pentru determinarea relațiilor filogenetice).

Baza sistematicii filogenetice

Identificarea tipurilor de caractere dintr-un arbore filogenetic. A o sinapomorfie b o plesiomorfie c o autapomorfie

Destul de personaje pentru moment înapoi la copaci înșiși. De ce ramurile de pe un copac au nume (de exemplu, leu, tigru etc.), în timp ce liniile care unesc diferite ramuri împreună nu au (Fig. 5)? Acest lucru se datorează faptului că aceste linii reprezintă strămoșii. Un strămoș este o specie care a suferit un eveniment de speciație pentru a produce specii descendente. Strămoșul „dispare” de obicei în procesul de speciație. Înseamnă asta că strămoșul dispare?

Găsirea strămoșilor pe un arbore filogenetic

Pentru a răspunde la aceasta, trebuie să călătorim în timp purtând un dispozitiv digital care înregistrează tot ceea ce vedem (Fig. 6). Imaginați-vă că călătoriți înapoi cu 10.000.000 de ani, apoi vă opriți, intrigat de o specie interesantă de șopârlă cu pete roșii pe tot spatele (specia A). După un timp, decizi să avansezi în timp cinci milioane de ani sau cam așa ceva, apoi te oprești din nou. Căutați în jur și descoperiți două specii noi de șopârle, una cu pete albastre pe spate (specia B), iar cealaltă cu dungi roșii (specia C), dar specia A nu se vede nicăieri. A dispărut? Priviți înapoi peste înregistrarea digitală a acelor cinci milioane de ani și descoperiți că specia A s-a împărțit în două grupuri, care au devenit diferite în anumite privințe una de cealaltă de-a lungul timpului. În termeni evolutivi, specia A este un strămoș (strămoșul 1), iar speciile B și C sunt descendenții săi. Avanză rapid până astăzi (cu mai mult material digital de urmărit) și găsești trei specii de șopârlă: vechiul tău prieten, șopârla cu pete albastre (specia B) și două noi șopârle (descendenții speciei C, șopârla cu dungi roșii), una cu albastru. dungi (specia D) iar celălalt cu spatele negru solid (specia E). Astăzi, deci, există doar trei specii de șopârle în viață. Nu mai vedeți niciunul dintre strămoși (șopârlele cu pete roșii și cu dungi roșii), dar încă le arătăm pe arborele filogenetic.

Călătorind înapoi în timp pentru a descoperi strămoșii

Răspunsul la întrebarea noastră inițială „a dispărut strămoșul?” este deci Nu! În multe cazuri, strămoșul este subdivizat și informația biologică (genetică) cuprinsă în strămoș este transmisă speciei descendente. De-a lungul timpului, descendenții se schimbă și devin diferiți în anumite privințe unul de celălalt și de strămoș, păstrând în același timp unele lucruri în comun (de exemplu, toate speciile noastre de șopârle au o coloană vertebrală). Aceasta este evoluția.

Deci, ce contează cu adevărat ca extincție? Extincția este pierderea informațiilor biologice - pierderea fizică a unei specii. De exemplu, luați în considerare un arbore filogenetic simplificat al dinozaurilor (Fig. 7). Toate grupurile de pe ramuri punctate sunt dispărute – niciuna dintre speciile din acele grupuri nu mai există pe această planetă (în ciuda Jurassic Park), ceea ce înseamnă că toate informațiile care au fost unic pentru fiecare dintre aceste grupuri a fost pierdut. Singurul grup care a reușit să evite dispariția a fost Aves (sau păsări) – speciile aviare sunt ultimii dinozauri rămași.

Extincții reale. Grupurile descrise cu linii punctate au dispărut, astfel încât toate trăsăturile genetice, morfologice, fiziologice, ecologice și comportamentale care sunt unice pentru fiecare grup au fost pierdute în biosfere

OK, să luăm ceea ce am învățat despre strămoși și grupurile de grupare bazate pe caractere unice comune (sinapomorfii) și să le folosim pentru a descifra informațiile conținute într-un arbore filogenetic. Iată un copac care înfățișează relațiile dintre membrii vii ai Amniotei, un grup mare de vertebrate care include majoritatea animalelor cu care ești familiar (Fig. 8). Știți deja că numele speciilor sau grupurile de specii sunt scrise peste vârfurile ramurilor de pe copac. Următorul lucru pe care trebuie să-l știți este că personajele sunt descrise în punctul lor de origine pe un arbore filogenetic. Deci, pe acest arbore puteți vedea că (1) oul amniotic își are originea în strămoșul 1 și a fost transmis tuturor descendenților săi (mamifere, strămoș 2, țestoase, strămoș 3, strămoș 4, crocodili, păsări, strămoș 5, tuatare). , și șopârle plus șerpi). În termeni evolutivi, oul amniotic este o trăsătură unică care este împărtășită doar de strămoșul 1 și de toți descendenții săi (2) un tip special de proteină a pielii (β keratina) a apărut în strămoșul 2 și a fost transmis tuturor descendenților săi ( țestoase, strămoș 3, strămoș 4, crocodili, păsări, strămoș 5, tuatare și șopârle plus șerpi). Keratina β este o trăsătură unică împărtășită de grupul numit „Reptilia” și (3) o coadă care se poate rupe își are originea în strămoșul 5 și a fost transmisă tuturor descendenților săi (tuatare, șopârle plus șerpi). O coadă care se poate rupe este o trăsătură unică împărtășită de membrii grupului tuataras + șopârle + șerpi.

Cum să citești caractere pe un arbore filogenetic

De fapt, fiecare organism este un mozaic complex de mii de trăsături. Dacă nu crezi asta, așează-te și enumera toate trăsăturile care te fac pe tine. Pe lângă lucrurile evidente, cum ar fi culoarea ochilor și culoarea părului, nu uitați că aveți ARN, ADN, celule individuale, un capăt anterior și posterior, un craniu, maxilare, os, brațe și picioare, provin dintr-un amniotic. ou, au trei oase în urechea internă, au fost alăptați cu lapte produs în glandele mamare, au degetul mare opozabil și nu au coadă. Cu alte cuvinte, când te uiți la un arbore filogenetic, vei vedea că toate ramurile au cel puțin unul, și, mai probabil, multe, caractere pe ele (semnele oblice din Fig. 9a). Din această cauză, este adesea dificil să etichetați efectiv toate trăsăturile de pe un copac, deoarece distrage atenția vizuală. O metodă de prescurtare a fost dezvoltată pentru a rezolva această problemă: desenați arborele care arată relațiile dintre grupuri (Fig. 9b) și enumerați sinapomorfiile pentru fiecare ramură în altă parte dintr-un tabel. Pe de altă parte, dacă sunteți interesat de una sau mai multe trăsături particulare, le puteți evidenția pe arborele filogenetic fără a afișa toate celelalte caractere. De exemplu, dacă doriți să discutați despre evoluția mamiferelor, puteți arăta arborele amniot și ați evidenția doar sinapomorfiile pentru mamifere (de exemplu, trei oase ale urechii medii: Fig. 9c). Amintiți-vă, aceasta este doar stenografie!

Ac Reprezentarea personajelor pe un arbore filogenetic

Există un ultim lucru despre personaje care este important de înțeles: personajele nu sunt lucruri statice. Ele evoluează în timp. Cu alte cuvinte, este posibil ca o „sinapomorfie” să nu „arate la fel” la toate speciile care o au. Așadar, de exemplu, luați în considerare banda, unul dintre cele trei oase din urechea medie care sunt responsabile pentru transferul undelor sonore de la timpan la membrana urechii interne. Acest os mic are o istorie evolutivă lungă, complicată și fascinantă. Pentru a înțelege această istorie, trebuie să călătorim înapoi multe sute de milioane de ani până la originea Deuterostomelor, un grup mare care include Echinodermata (stelele de mare și rudele lor), Hemichordata (creaturi marine asemănătoare viermilor) și Chordata ( amphioxus + tunicate + Craniata [organisme cu cranii]). Strămoșul acestui grup mare avea numeroase fante în faringe (numite arcuri viscerale) care au fost implicate cu hrănirea prin filtrare. Timpul a trecut și au apărut tije cartilaginoase care furnizează suport pentru arcade, au fost subdivizate și modificate. Secțiunea superioară a celui de-al doilea arc visceral este punctul central al poveștii noastre (Fig. 10). Pe măsură ce avansăm și mai departe în timp, acest personaj suferă în esență diverse modificări structurale și poziționale, devine mai mare, mai robust și implicat în susținerea maxilarelor (moment în care se numește hiomandibula), se schimbă de la cartilaj la os, apoi începe o reducere treptată a dimensiunii, se decuplează din zona maxilarului/obrazului și se deplasează în urechea medie (moment în care se numește etapă). În general, porțiunea superioară a celui de-al doilea arc visceral – hiomandibula – este aceeași structură care și-a modificat atât forma, cât și funcția de-a lungul a sute de milioane de ani. Deci, deși prezența unei „tijei cartilaginoase în al 2-lea arc visceral găsit în regiunea gâtului” poate fi o sinapomorfie pentru Craniata, nu veți găsi acea structură exactă la niciun animal cu patru picioare. In schimb, ceea ce vei gasi este modificarea acelei tije cartilaginoase, stapes. Evoluția continuă a unui anumit personaj dincolo de punctul său de origine se numește an serie de transformări evolutive.

Sinapomorfiile nu sunt statice, pot continua să evolueze. Modificări ale caracterului „porțiunea superioară a celui de-al doilea arc visceral” [hyomandibula, stapes] sunt urmărite pe arborele filogenetic pentru Chordata (animale cu notocorde). Atât povestea, cât și arborele filogenetic au fost simplificate substanțial pentru a sublinia ideea originii și modificării caracterului, mai degrabă decât detaliile mai fine ale evoluției caracterului. Nume în cursive se referă la specii dispărute cunoscute din fosile. Desene și fotografii ale diferitelor structuri și specii pot fi găsite cu ușurință pe web

Următorul lucru pe care trebuie să îl știe studenții de filogenetică este cum să recunoască diferite tipuri de grupuri de organisme. Există două tipuri generale de grupuri, unul „bun” și celălalt „rău”.

Să începem cu „binele”, un grup monofiletic (Fig. 11). Cuvântul „monofiletic” este o combinație de două cuvinte grecești, monos (singur) și phyle (trib). A fost inventat de vechiul nostru prieten Ernest Haekel, care, după cum vă amintiți, a inventat și cuvântul filogenie. A monophyletic group includes an ancestor and toate a urmașilor săi. It is identified by the presence of shared, unique characters (synapomorphies). Each phylogenetic tree contains as many monophyletic groups as there are ancestors. For example, looking at the tree in Fig. 11, we can identify five monophyletic groups, only two of which are shown on Fig. 12 (I’ll leave it up to you to discover the other three).

Identifying monophyletic groups

Two of the five monophyletic groups on the hypothetical tree

Now onto “the bad.” The word “paraphyletic” is, once again, a combination of two Geek words, para (near) and phyle (tribe), so the implication is that the whole tribe is not present (Fig. 13). Paraphyletic groups include an ancestor but nu tot a urmașilor săi. On this hypothetical tree, species C has been eliminated from the group, even though it is a descendant of ancestor 1 just like the rest of the species. Paraphyletic groups are problematic because they mislead us about how characters evolve and how species are related to one another. For example, let’s consider the big tree for the Amniota and highlight the “old” Reptilia, one of the most famous paraphyletic groups (Fig. 14). Even today people still speak about three distinct classes, the reptiles, the birds, and the mammals. When you look at this figure, what is wrong about the class Reptilia, the way it is drawn?

Identifying paraphyletic groups

The most famous paraphyletic group, the reptiles

Dreapta! In (Fig. 15) Ancestor 2 is the ancestor of all the reptiles but, as highlighted on this figure, the Reptilia does not include all of ancestor 2’s descendants ancestor 4 and the birds have been removed from the group. The only way to make the Reptilia a monophyletic group is to redefine the term to include crocodiles, turtles, tuataras, lizards, snakes, și păsări. In the past, birds were not considered to be reptiles because they are warm-blooded (in fact, they were often grouped with mammals because of that trait). But phylogenetic studies have demonstrated that birds are indeed reptiles because they share many morphological, behavioral, and molecular characters with other reptilian species in general (synapomorphies originating in ancestor 2 e.g., β keratin), și they share many characters with crocodiles in particular (synapomorphies originating in ancestor 4 e.g., holes in the skull just in front of the eyes).

How to make the Reptilia monophyletic

Why is it important to have monophyletic groups? Say you wanted to figure out how red hair appeared in your family. What would be your chances of tracking down your original red-haired ancestor if no records were kept about the union between your great-great-great-great grandfather Sven and his Irish bride Maggie? Missing information creates problems for any research, be it genealogical or evolutionary, and paraphyletic groups are missing information. In evolutionary terms, monophyletic groups are “real” biological units that is, they are the product of descent with modification (an ancestor and all of its descendants) and as such can be used to study the evolutionary processes that produced them. Paraphyletic groups, on the other hand, are the product of “human error” arising from incomplete or flawed information (e.g., poor descriptions of characters). Using such groups to study evolutionary processes will direct us along misleading and confusing pathways.

Why do we use phylogenetic trees? There are many ways to answer this question (and many papers/books written about it), but the most general answer is that trees summarize valuable information about the evolution of organisms that allows us to understand them better. For example, here’s the family tree for the Hominoidea, the group that includes us and all of our closest relatives (Fig. 16). When you look at the distribution of characters on this tree you can see that a number of traits we associate only with human beings, such as hunting, infanticide, tool making, self-awareness, and language, originated long before Homo sapiens. In other words, human beings are not as unique as you might think. If we want to understand how and why those traits evolved, we must study their expression and function in ourselves and in our relatives. So much information from just one phylogenetic tree!


Phylogenetic Trees Tutorial

Investigate the evolutionary origins of HIV

Notă: To complete the tutorial with the referenced data please download the tutorial above and install in Geneious Prime.

In this tutorial, you will use Geneious Prime to investigate the evolutionary origins of human immunodeficiency viruses (HIVs) using molecular phylogenetic tools. You will learn how to align sequences and build a phylogenetic tree, as well as how to view and manipulate the tree to answer questions on the origins of HIV-1.

Introduction: Human and Simian Immunodeficiency Viruses

HIVs, the causes of acquired immune deficiency syndrome (AIDS), are closely related to simian (monkey and ape) immunodeficiency viruses (SIVs). These and other similar viruses are retroviruses. Retroviruses are characterised by their RNA genomes, which once inside a host cell, are reverse transcribed into DNA and then integrated into the host cell’s genome. The integrated viral genome is known as a provirus. You will be working with proviral DNA sequences.

The origins of HIVs were mysterious when these viruses were first discovered in the early 1980s. There are two types of HIVs. HIV type 1 (HIV-1) is more widespread and causes more severe disease than HIV type 2 (HIV-2). HIV-1 is also far more diverse than HIV-2. HIV-1 is classified into three major groups: M, N, and O. The viruses causing the AIDS pandemic (widespread epidemic) belong to Group M. Group M is subdivided into several subtypes. You will be analysing sequences from HIV-1 Group M Subtypes A, B, C, D, F, G, H, J, K. The HIV-1 viruses infecting people in North America, Europe and Australia are mostly from Group M Subtype B. All groups and subtypes of HIV-1 and HIV-2 are found in Africa.

Both HIV-1 and HIV-2 are closely related to SIVs found in a variety of African primate species. This lead early on to researchers hypothesising that HIVs had jumped to humans from one or more African primate species. It was suggested that close contact between humans and monkeys that were kept as pets or hunted for food had allowed the SIVs to jump hosts.

More information on HIV can be found on this Wikipedia page.

In this tutorial you will use molecular phylogenetics to determine the evolutionary relationships of HIVs and SIVs, and so determine from which African primates HIVs originated. În Exercise 1 you will build an alignment of the HIV and SIV sequences, then in Exercise 2 you will learn to build a basic phylogenetic tree. Exercises 3 and 4 provide questions and answers to further your understanding on interpreting phylogenetic trees.

SIV sequences and primate taxa

The sequences in this tutorial come from various African primate species known to be infected with different SIVs. There are also three non-African species, all from Asia, that have been infected with SIVs in captivity: the pig-tailed macaque, the rhesus macaque and the stump-tailed macaque. The SIVs from all of these primate species are referred to by the three-letter code given with each picture. For example, the SIV from the sooty mangabey is called SIVSMM and the sequence in the alignment or tree is labelled SIV-SMM.

Mona monkey
Cercopithecus mona mona [denti]
MON [DEN]

de Brazza’s monkey
Cercopithecus neglectus
DEB

Tantalus monkey
Chlorocebus tantalus
TAN

Syke’s monkey
Cercopithecus albogularis
SYK

Greater spot-nosed monkey
Cercopithecus nictitans
GSN

Green monkey
Chlorocebus sabaeus
SAB

Mustached guenon
Cercopithecus cephus
MUS

Vervet monkey
Chlorocebus pygerythrus
VER

Grivet
Chlorocebus aethiops
GRV

L’Hoest’s monkey
Cercopithecus lhoest
LST

Sooty mangabey
Cercocebus atys
SMM

Red-capped mangabey
Cercocebus torquatus
RCM

Sun-tailed monkey
Cercopithecus solatus
SOARE

Mandrill
Mandrillu sphinx
MND

Burghiu
Mandrillus leucophaeus
DRL

Pig-tailed macaque
Macaca nemestrina
MNE

Stump-tailed macaque
Macaca arctoides
STM

Rhesus macaque
Macaca mulatta
MAC

Common chimpanzee
Pan troglodite
CPZ

Exercise 1: Multiple alignment of HIV and SIV sequences

Before a phylogeny can be constructed, the sequences must be aligned. The objective of sequence alignment is to maximize the similarity between sequences, inserting gaps in sequences where necessary to improve the overall alignment.

Multiple alignment algorithms use a scoring system where sequence matches and mismatches for each site are assigned a value, and gaps are penalized. The insertion of gaps in an alignment can increase the similarity of the surrounding bases, so the overall alignment score is a trade-off between the increased match/mismatches scores and the cost of opening and extending a gap.

In this exercise you will construct an alignment of 62 înv sequences of HIV-1, HIV-2, and various SIVs. The SIV sequences come from various African and non-African primate species.

The înv gene is found in all retroviruses. It codes for two viral envelope glycoproteins that are positioned on the virion surface and interact with host cell-surface receptors.

Click on ‘HIV_sequences’ to view the sequences.

The sequences are labelled in the format: virus type followed by the common name of the primate species for the SIV sequences, or the group or subtype for HIV-1 and HIV-2 sequences finally followed by the accession number.

To align these sequences, go to Align/Assemble -> Multiple Align. Geneious has 3 different alignment programs built in (Geneious aligner, MUSCLE, and Clustal Omega), plus a plugin for the MAFFT aligner is available. For further information on these aligners please see this article. We will use the MUSCLE aligner for this example, as it is suitable for a medium sized dataset.

Selectați MUSCLE alignment from the alignment options. We will use the default parameters, so click on the settings cog in the bottom left of the window and choose Reset to defaults (if it is greyed out, the default parameters are already set). Apasă pe More Options button to view the parameters if you wish. Clic OK to start the alignment – it may take several minutes to complete.

Once the alignment has completed, click on it to view it and zoom in to see the bases. Note that there are many large gaps, which is characteristic of an alignment of a rapidly evolving gene in divergent species.

Exercise 2: Build a Phylogeny of HIVs and SIVs

In this exercise you will construct a phylogeny using the Neighbour-Joining tree building method and the Tamura-Nei model. Models of evolution describe expected frequencies of each nucleotide and the rate of change between nucleotides. The Tamura-Nei model assumes each base has a different equilibrium frequency and allows transitions and transversions to occur at different rates. It allows the two types of transitions (A ↔ G and C ↔ T) to have different rates. This is useful when analysing HIV sequences because HIV exhibits hyper G-to-A mutation caused by a host enzyme (APOBEC3G). You will use the Neighbour-Joining method because these sequences do not, in general, evolve in a clock-like manner.

Select the alignment you created in Exercise 1.

To construct a Neighbour-Joining tree using the Tamura-Nei model, with bootstrapping, click the Tree button and select the Geneious Tree Builder. Check that the default parameters are initially set by clicking Reset to Defaults.

For the genetic distance model select Tamura-Nei and for the tree build method select Neighbor-Joining. Set the outgroup to “SIV-MON Mona monkey AY340701”. This sequence will be used to root the tree.

To calculate support values for the tree use bootstrapping. To do this, tick the box next to Resample tree și selectați Bootstrap in the dropdown box next to resampling method. Set number of replicates to 100 and the support threshold to 0.

The tree building options should now look similar to this:

Clic OK to build the tree.

Once the tree builder completes, the tree document will appear in the document table in Geneious and should open automatically.

Viewing and Manipulating Phylogenetic Trees

A phylogenetic tree is a branching diagram of evolutionary relationships. It contains information about the order of evolutionary divergences within, and hence about the relationships among, a group of organisms. It can also contain information about the amount of evolutionary change which occurred between any two branching events. The lines on the the tree are called branches and the intersections of these lines are called nodes. A node represents a branching event in the tree. The branching pattern of a tree is called its topology. The topology shows how organisms are related to one another.

Depending on the size of your screen and the size of the tree, it may not be physically possible to display all of the sequence names on the tree, so Geneious will only display some of the sequence names. To zoom in on the tree, use the Zoom slider under “General” in the panel on the right hand side of the tree view. To expand the distance between the branches of the tree, use the Expansiune slider. As the amount of space between the branches increases, more sequence names will be displayed on the tree.

As this tree was created using an alignment in Geneious, the alignment is attached to the tree. Click on the “Alignment View” tab to view the alignment.

The sequences in the alignment are sorted according to the topology of the tree. On the left hand side of the sequence names, you can see the tree topology (this may not be visible if you are working with large trees). Select the “SIV-MON Mona monkey AY340701” sequence in the alignment then return to the “Tree View”. This sequence is now selected in the tree as well.

The sequences used to build this alignment and tree have additional meta-data associated with them (this is the data found in the “Properties” field in the “Info” tab in the individual sequence documents). This information can be displayed on the tips of the trees. To display the organism on the tips of the tree, select “Organism” from the box next to “Display” under “Show Tip Labels”.

To display the organism and host organism, hold Ctrl (on Windows) or Cmd (on Macs) and select “Organism” and “Host Organism”. Now the host organism and organism are displayed on the tips of the tree, separated by a comma. To display the sequence names on the tree, select “Names”.

Just as a sentence can be printed using different fonts, or colors of ink, without any change in meaning, so too can trees be represented in different shapes and orientations. The information encoded in the tree remains unchanged, even as the appearance changes. For example, the appearance of the tree can be changed by rotating groups of branches. To rotate the branches, select an internal node in the tree and click the Swap Siblings button at the top of the window. This will rotate the branches in that subtree however, the degree of relatedness is not altered by rotating branches in a tree. Simply having two names close together in a tree does not imply any close relationship.

Try this with the tree you have created. Select the node in the tree containing the Grivet monkey and the four Vervet monkeys and click the Swap Siblings buton.

The order of these samples will change in the tree, but the relationship between the sample from the Grivet monkey and those from the four Vervet monkeys has not changed.

Rooted Trees

Trees may be unrooted or rooted. To view the HIV tree as an unrooted tree, click one of the unrooted views under the “General” options in the panel on the right hand side of the tree view.

Unrooted trees do not tell us much about evolutionary relationships. We cannot tell which node is the ancestor and which are the descendent nodes on the tree. To establish ancestor-descendent relationships we need to identify a suitable outgroup and then root the tree on the branch separating the outgroup from the remainder of the tree (the ingroup). We can specify the root before the building the tree to produce a rooted tree, or we can specify the root after the tree is built to change an unrooted tree to a rooted tree.

When you built the tree of HIV and SIV sequences you specified an outgroup (“SIV-MON Mona monkey AY340701”) so Geneious has produced a rooted tree. To view the tree as a rooted tree, click the rooted view under the “General” options in the panel on the right hand side of the tree view.

Rooted phylogenetic trees may be oriented horizontally, as above, or vertically. Here the time axis is implicit, running from left to right. The node at the left end of the tree is the root node, which represents the oldest point on the tree. As we move from the root node, we can identify nodes which are ancestral to their descendent clades. Working in from the tips of the tree enables us to identify close and distant relatives. The degree of relatedness of any two organisms is given by how far back on a rooted tree you must go to find their common ancestor. If, in tracing back to the common ancestor of A and B, you pass the common ancestor of A and C, then you can say that A and C are more closely related than A and B.

On a rooted tree, each node and all of its descendent nodes form a clade. This is what we would commonly refer to as a “branch” on a real tree – the physical branch and all the little branches and leaves attached to it. Because an unrooted tree lacks the time axis described above, it is inappropriate to discuss clades in that context.

Phylograms and cladograms

The lengths of the branches of a tree may be arbitrary (eg. cladogram) or can represent the amount of the evolutionary change (phylogram).

In a phylogram, the lengths of the branches are proportional to the amount of change which occurred between those branching events. As the tree you built was estimated using a distance (1 – similarity) measure (i.e. NJ), the proximity of nodes represents their overall degree of similarity.

To display the lengths of the branches of the tree, in the panel on the right hand side of the tree view, select “Substitutions per site” from the dropdown box next to “Display” under “Show Branch Labels”.

On your tree, find “SIV-MAC Rhesus macaque M33262” and “SIV-MNE Pig-tailed macaque U79412” and look at the length of the branches separating these two taxa. Now find “SIV-RCM Red-capped mangabey AF382829” and “SIV-RCM Red-capped mangabey AF349680” and look at the length of these branches. The length of the branches separating the SIV-MAC and SIV-MNE sequences is shorter than the length of the branches separating the two SIV-RCM sequences. From this you can conclude that SIV-MAC is more similar to SIV-MNE, than the two SIV-RCM sequences are to each other.

If an optimality method (e.g., MP or ML) was used to estimate the tree then the proximity of two nodes reflects the number of evolutionary changes in character states estimated to have occurred between them. If the total branch length from the root of a tree to organism A at one tip is much greater than from the root to organism B at another tip, then you can say that evolution has been faster in the A lineage than in the B lineage for the characters on which the tree was based.

To transform the tree to a cladogram, tick the Transform branches box in the “Formatting” options. In the dropdown box next to Transforma Selectați Cladogram

Notice how the branch lengths of the tree change and all of the tips of the tree are aligned on the right hand side of the tree view. With this transformation the lengths of the branches are meaningless. If you now look at “SIV-MAC Rhesus macaque M33262” and “SIV-MNE Pig-tailed macaque U79412” and then look at “SIV-RCM Red-capped mangabey AF349680” and “SIV-RCM Red-capped mangabey AF382829” you can see that the branch lengths separating SIV-MAC from SIV-MNE are the same lengths as the branches separating the two SIV-RCM sequences. With the transformed branches you can not draw any conclusions about how similar the sequences are to each other.

To convert the tree back to a phylogram, untick the option Transform branches. To hide the branch lengths, untick the box next to “Show Branch Labels”.

Displaying support values

In addition to the information conveyed by the topology of the tree and the branch lengths of the tree, further information can also be written on the nodes and/or branches of the tree. The information that is available to display will depend on the tree building method and the options used. Often, support values are displayed on the tree.

Tree building methods produce the tree which best explains the information in the alignment however, it is unlikely this tree will explain all of the variation in the alignment. Not all of the sites in the alignment will support this tree and not all of the clades in the tree will necessarily be strongly supported by the alignment. For example, with rapid speciation events, there may be insufficient information in the alignment to determine the branching pattern of a group of species, and some of the clades in the tree may have only marginally more support than alternative possible clades.

If you look at the tree you have built it is difficult to tell which clades are strongly supported and which are not. For example, does the clade containing “SIV-RCM Red-capped mangabey AF382829” and “SIV-RCM Red-capped mangabey AF349680” have the same support from the alignment as the clade containing “SIV-MND Mandrill AY159322” and “SIV-MND Mandrill AF367411”?

To find out how strongly the alignment supports each of the clades in the tree, we can calculate support values. In the tree building options you selected the “Bootstrap” resampling method. The bootstrap statistic for a clade in the tree is the percentage of times that clade appeared in the set of bootstrap replicate trees. This percentage ranges from 0% (the clade did not appear in any of the bootstrap trees) to 100% (the clade appeared in all of the bootstrap trees). A bootstrap replicate tree is generated by randomly sampling sites, with replacement, from the alignment, to create a new randomised alignment and then building a tree from this sampled alignment. This process is repeated for the specified number of bootstrap replicates (in your case, this was 100).

To show the bootstrap values on the tree, tick the box next to Show Branch Labels și selectați Consensus Support (%) from the dropdown box next to “Display”.

The bootstrap value for a clade will appears to the left of the most recent common ancestral node for that clade.

Now the bootstrap values are displayed on the tree, you can see that there is strong support (100%) for the clade containing the SIV-RCM sequences. However the clade containing the two mandrill sequences has less support (55%). Note that due to the nature of the bootstrapping process, the support values on your tree may be slightly different.

Sometimes it is useful to collapse nodes that have little bootstrap support so that these do not contribute to the topology of the tree. This can be done in the bootstrapping options when the tree is built by changing the Support threshold valoare. If this is set on 50%, nodes with bootstrap support of less than 50% will be collapsed into polytomies. The screenshot below shows an example where the nodes with 38% and 36% bootstrap support in (A) are collapsed when the support threshold is set to 50% (B).


PHYLOGENETIC TREE CONSTRUCTION NOTES

A speculatively rooted tree for rRNA genes, showing the three life domains Bacteria, Archaea, and Eucaryota, and linking the three branches of living organisms to the LUCA (the black trunk at the bottom of the tree) cf. next graphic.

A rooted phylogenetic tree, illustrating how Eukaryota and Archaea are more closely related to each other than to Bacteria (based on Cavalier-Smith‘s theory of bacterial evolution). Neomura is a clade composed of two life domains, Archaea and Eukaryota. LUCA, a variant of LUA, stands for last universal common ancestor.

A arbore filogenetic sau evolutionary tree is a branching diagram or “tree” showing the inferred evolutionary relationships among various biological species or other entities—their filogenie—based upon similarities and differences in their physical or genetic characteristics. The taxa joined together in the tree are implied to have descended from a common ancestor. Phylogenetic trees are central to the field of phylogenetics.

Într-o înrădăcinată phylogenetic tree, each node with descendants represents the inferred most recent common ancestor of the descendants, and the edge lengths in some trees may be interpreted as time estimates. Each node is called a taxonomic unit. Internal nodes are generally called hypothetical taxonomic units, as they cannot be directly observed. Trees are useful in fields of biology such as bioinformatics, systematics, and phylogenetic comparative methods.

Unrooted trees illustrate only the relatedness of the leaf nodes and do not require the ancestral root to be known or inferred.

The idea of a “tree of life” arose from ancient notions of a ladder-like progression from lower to higher forms of life (such as in the Great Chain of Being). Early representations of “branching” phylogenetic trees include a “paleontological chart” showing the geological relationships among plants and animals in the book Elementary Geology, by Edward Hitchcock (first edition: 1840).

Charles Darwin (1859) also produced one of the first illustrations and crucially popularized the notion of an evolutionary “tree” in his seminal book Originea speciilor. Over a century later, evolutionary biologists still use tree diagrams to depict evolution because such diagrams effectively convey the concept that speciation occurs through the adaptive and semirandom splitting of lineages. Over time, species classification has become less static and more dynamic.

Rooted tree

A rooted phylogenetic tree (see two graphics at top) is a directed tree with a unique node corresponding to the (usually imputed) most recent common ancestor of all the entities at the leaves of the tree. The most common method for rooting trees is the use of an uncontroversial outgroup—close enough to allow inference from trait data or molecular sequencing, but far enough to be a clear outgroup.

Unrooted tree

An unrooted phylogenetic tree for myosin, a superfamily of proteins. [1]

Unrooted trees illustrate the relatedness of the leaf nodes without making assumptions about ancestry. They do not require the ancestral root to be known or inferred. [2] Unrooted trees can always be generated from rooted ones by simply omitting the root. By contrast, inferring the root of an unrooted tree requires some means of identifying ancestry. This is normally done by including an outgroup in the input data so that the root is necessarily between the outgroup and the rest of the taxa in the tree, or by introducing additional assumptions about the relative rates of evolution on each branch, such as an application of the molecular clock hypothesis. [3]

Bifurcating tree

Both rooted and unrooted phylogenetic trees can be either bifurcating or multifurcating, and either labeled or unlabeled. A rooted bifurcating tree has exactly two descendants arising from each interior node (that is, it forms a binary tree), and an unrooted bifurcating tree takes the form of an unrooted binary tree, a free tree with exactly three neighbors at each internal node. In contrast, a rooted multifurcating tree may have more than two children at some nodes and an unrooted multifurcating tree may have more than three neighbors at some nodes. A labeled tree has specific values assigned to its leaves, while an unlabeled tree, sometimes called a tree shape, defines a topology only. The number of possible trees for a given number of leaf nodes depends on the specific type of tree, but there are always more multifurcating than bifurcating trees, more labeled than unlabeled trees, and more rooted than unrooted trees. The last distinction is the most biologically relevant it arises because there are many places on an unrooted tree to put the root. For labeled bifurcating trees, there are:

total unrooted trees, where n represents the number of leaf nodes. Among labeled bifurcating trees, the number of unrooted trees with n leaves is equal to the number of rooted trees with n − 1 leaves. [4]

Special tree types

This section nu cite orice surse. Please help improve this section by adding citations to reliable sources. Materialul fără sursă poate fi contestat și eliminat. (October 2012) (Learn how and when to remove this template message)

A spindle diagram, showing the evolution of the vertebrates at class level, width of spindles indicating number of families. Spindle diagrams are often used in evolutionary taxonomy.

A highly resolved, automatically generated tree of life, based on completely sequenced genomes. [5] [6]

  • A dendrogram is a broad term for the diagrammatic representation of a phylogenetic tree.
  • A cladogram is a phylogenetic tree formed using cladistic methods. This type of tree only represents a branching pattern i.e., its branch spans do not represent time or relative amount of character change.
  • A phylogram is a phylogenetic tree that has branch spans proportional to the amount of character change.
  • A chronogram is a phylogenetic tree that explicitly represents evolutionary time through its branch spans.
  • A spindle diagram (often called a Romerogram after the American palaeontologist Alfred Romer) is the representation of the evolution and abundance of the various taxa through time.
  • A Dahlgrenogram is a diagram representing a cross section of a phylogenetic tree
  • A phylogenetic network is not strictly speaking a tree, but rather a more general graph, or a directed acyclic graph in the case of rooted networks. They are used to overcome some of the limitations inherent to trees.

Constructie

Phylogenetic trees composed with a nontrivial number of input sequences are constructed using computational phylogenetics methods. Distance-matrix methods such as neighbor-joining or UPGMA, which calculate genetic distance from multiple sequence alignments, are simplest to implement, but do not invoke an evolutionary model. Many sequence alignment methods such as ClustalW also create trees by using the simpler algorithms (i.e. those based on distance) of tree construction. Maximum parsimony is another simple method of estimating phylogenetic trees, but implies an implicit model of evolution (i.e. parsimony). More advanced methods use the optimality criterion of maximum likelihood, often within a Bayesian Framework, and apply an explicit model of evolution to phylogenetic tree estimation. [4] Identifying the optimal tree using many of these techniques is NP-hard, [4] so heuristic search and optimization methods are used in combination with tree-scoring functions to identify a reasonably good tree that fits the data.

Tree-building methods can be assessed on the basis of several criteria: [7]

  • efficiency (how long does it take to compute the answer, how much memory does it need?)
  • power (does it make good use of the data, or is information being wasted?)
  • consistency (will it converge on the same answer repeatedly, if each time given different data for the same model problem?)
  • robustness (does it cope well with violations of the assumptions of the underlying model?)
  • falsifiability (does it alert us when it is not good to use, i.e. when assumptions are violated?)

Tree-building techniques have also gained the attention of mathematicians. Trees can also be built using T-theory. [8]

Although phylogenetic trees produced on the basis of sequenced genes or genomic data in different species can provide evolutionary insight, they have important limitations. Most importantly, they do not necessarily accurately represent the evolutionary history of the included taxa. In fact, they are literally scientific hypotheses, subject to falsification by further study (e.g., gathering of additional data, analyzing the existing data with improved methods). The data on which they are based is noisy the analysis can be confounded by genetic recombination, [9] horizontal gene transfer, [10] hybridisation between species that were not nearest neighbors on the tree before hybridisation takes place, convergent evolution, and conserved sequences.

Also, there are problems in basing the analysis on a single type of character, such as a single gene or protein or only on morphological analysis, because such trees constructed from another unrelated data source often differ from the first, and therefore great care is needed in inferring phylogenetic relationships among species. This is most true of genetic material that is subject to lateral gene transfer and recombination, where different haplotype blocks can have different histories. In general, the output tree of a phylogenetic analysis is an estimate of the character’s phylogeny (i.e. a gene tree) and not the phylogeny of the taxa (i.e. species tree) from which these characters were sampled, though ideally, both should be very close. For this reason, serious phylogenetic studies generally use a combination of genes that come from different genomic sources (e.g., from mitochondrial or plastid vs. nuclear genomes), or genes that would be expected to evolve under different selective regimes, so that homoplasy (false homology) would be unlikely to result from natural selection.

When extinct species are included in a tree, they are terminal nodes, as it is unlikely that they are direct ancestors of any extant species. Skepticism might be applied when extinct species are included in trees that are wholly or partly based on DNA sequence data, because little useful “ancient DNA” is preserved for longer than 100,000 years, and except in the most unusual circumstances no DNA sequences long enough for use in phylogenetic analyses have yet been recovered from material over 1 million years old.

The range of useful DNA materials has expanded with advances in extraction and sequencing technologies. Development of technologies able to infer sequences from smaller fragments, or from spatial patterns of DNA degradation products, would further expand the range of DNA considered useful.

In some organisms, endosymbionts have an independent genetic history from the host.

Phylogenetic networks are used when bifurcating trees are not suitable, due to these complications which suggest a more reticulate evolutionary history of the organisms sampled.


Rooting

Evolutionary trees are (almost) always starting with an ancestor and then dividing, so you can always identify the root (if there is one) as the point where all the branches converge. Historically, it was drawn at the bottom like a real tree (as with the great Molluscan tree in OUMNH and the OneZoom Tree of Life Explorer). These days, it is usually drawn on the left as in these diagrams but I have seen trees with the root at the top, bottom or even on the right. (The latter is usually only used when mirroring another tree.) I have posted before on how to root a phylogenetic tree, so I won't go over that again here. The rooting method ar trebui să be given in the methods but, when it is missing, you can often guess from the shape of the tree and using the root-to-tip branch lengths again:
Unrooted trees are pretty obvious when shown in the "radiation" style. If the tree is rooted, it is almost certainly either midpoint rooted or outgroup rooted (see "how to root a phylogenetic tree"). Midpoint rooting can be identified by virtue of the fact that the two longest root-to-tip distances will (a) be the same length and (b) be either side of the root. If either of these conditions is broken, it is not midpoint rooted and is probably outgroup rooted. (Note that if both conditions sunt met, it is still possible that the tree is outgroup rooted. Indeed, if the evolutionary rates are fairly consistent, outgroup rooting and midpoint rooting should be the same.)

Ideally, a rooted tree should have the root marked. Sometimes, however, it is left off, as in the bottom left. This can be confusing as tree visualising programs will often display trees in the "traditional" style even when they are not rooted. This is particularly a problem when branch lengths are nu shown as it will not be at all obvious when the tree is rooted or not. The time that I see this catch people out most is when making a Maximum Parsimony tree using the popular software, MEGA - these trees are displayed randomly rooted and without branch lengths by default.


Phylogenetic Tools for Comparative Biology

Folosind function drop.tip() we can easily excise a single taxon or a list of taxa from our "phylo" tree object in R. However, it is not immediately obvious how to prune the tree to include, rather than exclude, a specific list of tips. Trina Roberts (now at NESCent) shared a trick to do this with me some time ago, and I thought I'd pass it along to the readers of this blog.

First, let's start with a tree of 10 species:

> tree write.tree(tree)
[1] "(t8:0.22,((((t3:0.9,(t7:0.48,t2:0.5):0.12):0.47,t6:0.55):0.08,(t5:0.49,(t9:0.71,t10:0.13):0.15):0.7):0.87,(t1:0.72,t4:0.62):0.55):0.47)"

Now, say we want to keep the species t2 , t4 , t6 , t8 , and t10 in our pruned tree, we just put these tip names into a vector:

[More commonly, this vector will probably come from the row names in our data matrix, or we might read it from a text file.]

We create the pruned tree with one command:

Now we have our pruned tree, as desired:

28 comments:

If there are tips in the "species" vector that are not in the tree, match(species,tree$tip.label) will one or mulitple NAs, and the procedure will fail. To avoid this problem, one can just do:
> pruned.tree<-drop.tip(tree, tree$tip.label[-na.omit(match(species, tree$tip.label))])

Even less code than the -match trick:

pruned.tree<-drop.tip(tree, setdiff(tree$tip.label, species))

setdiff is very handy. (as is intersect and %in%)

Dan's method will also work even if some of the labels in "species" are not in "tree."


Priveste filmarea: Visit Northern Romania during pandemic ep22 -Arbore Church, Suceava County-video travel vlog tourism (Ianuarie 2022).