Informație

Matrice Blosum cu probabilități în locul scorurilor pozitive și negative


Încerc să găsesc o versiune a matricei BLOSUM care să aibă frecvențele în loc de șansele de logare scalate. adică în loc de versiunea comună care ne spune că scorul LEU/ASP este -4, aș dori să știu probabilitatea ca LEU să fie înlocuit cu ASP.


Descărcați datele și codul sursă BLOSUM de aici. Dezarhivați arhiva care are mai multe fișiere. Fișierul numitblosum'XX'.qijvor avea probabilitățile de co-apariție, iar probabilitățile de substituție pot fi calculate din acestea.

Aruncă o privire și la acest articol.


Este clar că nu toate situsurile din proteinele omoloage sunt conservate în aceeași măsură. Cele care sunt esențiale vor fi foarte conservate (intoleranți la schimbare), în timp ce altele care sunt mai puțin importante pentru structură și funcție se vor afla sub constrângeri mai puțin evolutive (toleranți la schimbare). Aici, Ng și Henikoff descriu un algoritm, SIFT, o metodă bazată pe omologie de secvență care sortează substituțiile de aminoacizi intolerante de tolerante. Prin alinierea mai multor secvențe similare și evaluarea probabilității de substituție la orice poziție dată din secvență, SIFT ajută la evaluarea impactului înlocuirii aminoacizilor asupra structurii sau funcției unei proteine. Această metodă poate fi utilă în următoarele circumstanțe: în timpul screening-ului mutațiilor, atunci când starea unei mutații suspectate a fi patogenă nu poate fi demonstrat în mod oficial (de exemplu, în absența ADN-ului parental) pentru a evalua impactul substituțiilor de aminoacizi asupra aptitudinii la la scară genomică și în genetica populației, pentru a evita utilizarea markerilor care ar putea fi supuși unei presiuni selective.

SIFT preia o secvență de interogare și caută secvențe similare folosind instrumente binecunoscute (PSI-BLAST și MOTIF). Apoi, se obține o aliniere a secvenței multiple și se calculează probabilitățile normalizate pentru toate substituțiile posibile la fiecare poziție a aliniamentului (furnizează informații specifice poziției). Dacă probabilitatea înlocuirii este mai mică decât o limită specificată, modificarea este considerată dăunătoare. Performanța SIFT a fost testată folosind trei seturi de date de mutație: represorul operonului lactoză, Lacl proteaza HIV-1 și lizozima bacteriofagului T4. Precizia de predicție a SIFT este în intervalul 60-80%, în funcție de setul de date. În toate cazurile, performanța SIFT a fost comparată cu concluziile trase din matricea de scoring de căutare BLOSUM62 (Block substitution matrix), care este folosită, la fel ca multe altele, pentru a evalua semnificația unei alinieri a secvenței de proteine ​​(ca în EXPLOZIE). BLOSUM62 ajută la distingerea între un rezultat biologic „real” și o aliniere a secvenței obținută întâmplător. În BLOSUM, fiecărei modificări posibile de aminoacizi i se atribuie un scor, unde scorurile pozitive vor fi asociate cu modificări conservatoare și scorurile negative cu modificări mai puțin conservatoare. Informațiile specifice poziției se pierd în matricea BLOSUM, dar sunt reținute de SIFT, astfel încât SIFT depășește concluziile derivate din BLOSUM62.


Construirea matricelor de substituție

Este posibil să se măsoare asemănarea secvenței în multe moduri diferite, cum ar fi numărarea numărului de diferențe dintre ele (Distanța de Hamming), numărând numărul de inserții, ștergeri și substituții necesare pentru a face două secvențe identice (Distanța Levenshtein), identitate procentuală sau pur și simplu utilizați un sistem de scor arbitrar pentru potriviri, nepotriviri, inserări și ștergeri. Toate aceste metode oferă o măsură a relației dintre secvențe, dar niciuna nu reflectă vreo asociere biologică între ele.

În domeniul bioinformaticii, suntem interesați de o relație evolutivă a secvențelor de ADN și proteine, cu excepția cazului de asamblare a secvenței în care măsurarea erorilor de secvențiere și separarea repetărilor sunt centrale.

Secvențele pot fi mai mult sau mai puțin similare prin pură întâmplare aleatorie și, în consecință, avem nevoie de o metodă pentru a distinge o asemănare aleatorie de similaritatea cauzată de relația evolutivă. Cu alte cuvinte, dorim să știm dacă secvențele sunt omoloage, adică au un strămoș comun și în special dacă secvențele au aceeași funcție în ciuda faptului că nu au secvențe identice. A fi capabil de a determina dacă două secvențe au aceeași funcție este util în evaluarea funcției unei proteine ​​și gene necunoscute prin comparație cu una cunoscută.

figura 1. O descriere schematică a evoluției secvențelor de gene omoloage, adică secvențe care au un strămoș comun. Subsetul de secvențe omoloage este secvențele paraloge și ortologe.
[Faceți clic pe imagine pentru a comuta zoom ◱]

Secvența de aminoacizi a unei proteine ​​este crucială în determinarea structurii acesteia și, la rândul său, funcția este profund dependentă de structura tridimensională a unei proteine. Multe mutații de aminoacizi care au ca rezultat modificarea aminoacizilor având proprietăți fizico-chimice similare pot să nu modifice structura unei proteine ​​în niciun mod critic funcțional. În schimb, o singură modificare a aminoacidului poate modifica funcția. Rețineți că putem observa doar cazurile în care o funcție alterată nu este dăunătoare și, prin urmare, nu duce la moartea unui organism. În plus, modificările care au ca rezultat o funcție alterată produc în continuare proteine ​​omoloage, dar acestea nu mai sunt ortologe, deoarece nu au aceeași funcție (Figura 1).

În consecință, prin observarea mutațiilor între secvențele de proteine ​​ortologe, putem determina care modificări de aminoacizi sunt posibile fără a modifica funcția unei proteine. În plus, prin enumerarea frecvențelor acestor modificări, putem construi sisteme de notare.

Cercetările efectuate pentru prima dată de Margaret Dayhoff în anii 1970 și de colegi și mai târziu de Henikoff și Henikoff la începutul anilor 1990 au dus la matrice de substituție PAM și BLOSUM și sunt cele mai utilizate astăzi. Acest tutorial descrie construcția și utilizarea lor.

Matrici BLOSUM

Prin studierea unui set larg de secvențe din specii diferite, cunoscute a fi omoloage și având aceeași funcție, adică secvențe ortologe, putem observa modificări ale aminoacizilor care păstrează o funcție.

Pentru a măsura frecvențele de aminoacizi, Henikoff și Henikoff au analizat regiuni conservate ale secvențelor de proteine ​​înrudite pe care le-au obținut din baza de date BLOCKS. În total, au examinat 2.000 de blocuri fără goluri și 500 de grupuri de proteine ​​înrudite prin numărarea numărului de potriviri și nepotriviri ale fiecărui tip de 20 de aminoacizi diferiți.

Din contorizarea fiecărui tip, Henikoff și Henikoff au creat un tabel de frecvență și folosind aceste frecvențe au calculat în continuare probabilitatea fiecărui tip de potrivire și nepotrivire și apoi au convertit probabilitățile în logaritm de cote. În acest fel, scorul de aliniere devine zero dacă frecvențele observate sunt cele așteptate, scor negativ dacă frecvențele sunt mai mici decât cele așteptate și scor pozitiv când frecvențele sunt peste frecvențele așteptate.

Cu toate acestea, acestea nu sunt scorurile finale din matricea BLOSUM finală. Pentru a obține scorurile finale în matrice, Henikoff și Henikoff au convertit în continuare rapoartele log-cote în unități de biți și au înmulțit fiecare scor de biți cu un factor de scalare de doi și au rotunjit la cel mai apropiat număr întreg, producând scorurile finale în matricea BLOSUM.

O familie de matrici

Secvențele dintr-un grup întreg de familie de proteine ​​pot fi destul de divergente din cauza contribuțiilor rudelor îndepărtate. Prin urmare, Henikoff și Henikoff au împărțit grupurile de familie în sub-clustere în funcție de procentul lor de similitudine pentru a reduce contribuțiile multiple la frecvențele perechilor de aminoacizi. Această divizare a dus la familia BLOSUM de matrice în care numărul asociat, de exemplu, BLOSUM65 înseamnă că scorurile sunt dintr-un grup de secvențe în care secvențele sunt similare în cel puțin 65%, în matricea BLOSUM80 scorurile sunt din grupuri cu cel puțin 80% asemănare și așa mai departe.


Figura 3. Exemplu de coloană de aliniere a secvenței a zece secvențe ale unui bloc conservat. Nouă D și un N.

Matematica

Ca exemplu, luăm în considerare o coloană formată din nouă D-uri și un N. Există nouă perechi N-D și nouă D-N și 36 (1 + 2 + 3 + .8) posibile perechi D-D (Figura 3).

Pentru a crea un tabel de frecvență, numărăm de câte ori, ( n ), fiecare dintre cele 210 (20, 19 + . 1) posibile perechi de aminoacizi apar într-un bloc cu o adâncime de secvențe ( d ) ca urmează: ( wd(d-1)/2=n ), unde ( w ) este numărul de coloane din bloc. În acest exemplu ( d = 10 ) și ( w=1 ) Astfel, blocul contribuie la numărare cu 1x10x(10-1)/2 = 45 de perechi de aminoacizi.

Probabilitatea de apariție observată ( q_ ) din fiecare pereche de aminoacizi ( i ), ( j ) este

Unde ( 1 leq i leq j leq 20 ). Inserând numerele în ecuația de mai sus în exemplul nostru din Figura 2, obținem următoarele: ( f_

=36 ), ( f_=9 ), ( q_
=36/45=0,8 ) și ( q_=9/45=0.2 ).

Ulterior, estimăm probabilitatea de apariție ( P(x) ) a fiecărui aminoacid ca

În exemplul nostru, 36 de perechi de secvențe au D în ambele poziții, iar nouă perechi au D doar într-o singură poziție, astfel, probabilitatea așteptată (P(D) = frac<[36+(9/2)]> <45> = 0,9) și (P(N)=frac<(9/2)><45>=0,1), presupunând că frecvențele observate sunt aceleași ca în populație. Formula generală pentru calcularea probabilității apariției ( p_ ) al (i)-lea aminoacid dintr-o pereche (i), (j) este

Calculul probabilității așteptate de apariție a fiecărei perechi de aminoacizi este (p_p_) pentru (i=j) și (p_p_+p_p_=2p_p_) pentru (i e j). În exemplul nostru, aceasta dă DD( =0,9 imes 0,9=0,81) și pentru DN+ND(=2 imes (0,9 imes 0,1)=0,18).

Pentru a obține un punctaj la îndemână (s_), mai întâi calculăm un tabel de cote în care o intrare (e_) pentru fiecare pereche de aminoacizi este (frac<>><>>) și apoi luați un logaritm de bază doi din fiecare intrare (s_=log_<2>(frac<>><>>) ). Acest punctaj are ca rezultat scorul de aliniere (s_) să devină zero dacă frecvențele observate sunt cele așteptate, la un scor negativ dacă frecvențele sunt mai mici decât cele așteptate și la un scor pozitiv când frecvențele sunt mai mari decât frecvențele așteptate.

Apoi înmulțim fiecare scor (s_) cu doi și rotunjiți la cel mai apropiat număr întreg pentru a genera scorurile finale în matricele BLOSUM (Figura 2).

De ce diferitele perechi identice de aminoacizi nu au același scor?

Privind scorurile BLOSUM62, putem observa că împerecherea de identitate a diferiților aminoacizi nu obține același scor. Motivul este că abundența observată de aminoacizi nu este aceeași. De exemplu, împerecherea Leucină-Leucină (Leu-Leu) obține scorul patru, iar împerecherea Triptofan-Triptofan (Trp-Trp) obține scorul 11, deoarece se observă că leucina este mai abundentă în natură decât Triptofanul. Astfel, împerecherea Trp-Trp este mai puțin probabil să fi unul aleatoriu.

Testarea ipotezei

Metoda de notare de mai sus este, de fapt, testarea ipotezelor și, în general, scorul (S(a,b)) pentru o substituție a aminoacidului (a) cu aminoacid (b) este

În ecuația de mai sus (P_) este probabilitatea ipotezei pe care dorim să o testăm: reziduurile corelate deoarece sunt omoloage și ( f_f_ ) este probabilitatea unei ipoteze nule: reziduurile nu au legătură.


Note suplimentare

Un program pentru luarea unei matrice a scorurilor de aliniere (posibil arbitrară) și calcularea inversă a frecvențelor țintă implicite pab. (DOC 81 kb)

Pentru a face acest lucru necesită rezolvarea pentru o lambda diferită de zero în: sum_ab f_a f_b e = 1 și aceasta este o scuză bună pentru a demonstra două metode de găsire a rădăcinii: căutarea bisecției și metoda Newton/Raphson.

Programul este ANSI C și ar trebui să fie compilat pe orice mașină cu un compilator C: % cc -o lambda lambda.c -lm Orice întrebări despre acest program trebuie adresate direct autorului.


Declanșarea generării aliniamentelor întrerupte

Figura 1 arată că, chiar și atunci când utilizați metoda originală cu o singură lovitură cu parametrul de prag T = 13, în general nu există o șansă mai mare de 4% de a pierde un HSP cu scor >38 biți. În timp ce acest lucru ar părea suficient pentru cele mai multe scopuri, implicit cu o singură lovitură T parametrul a fost de obicei setat la 11, producând un timp de execuție de aproape trei ori mai mare decât pentru T = 13. De ce să plătiți acest preț pentru ceea ce pare în cel mai bun caz câștiguri marginale în sensibilitate? Motivul este că programul original BLAST tratează implicit aliniamentele întrerupte prin localizarea, în multe cazuri, a mai multor HSP-uri distincte care implică aceeași secvență de bază de date și calculând o evaluare statistică a rezultatului combinat ( 21, 22). Aceasta înseamnă că două sau mai multe HSP-uri cu scoruri mult sub 38 de biți pot, în combinație, să ajungă la semnificație statistică. Dacă oricare dintre aceste HSP este omis, la fel poate fi rezultatul combinat.

O extensie întreruptă generată de BLAST pentru compararea leghemoglobinei I (87) și β-globinei de cal (88). (A) Regiunea graficului de traseu explorată atunci când este însămânțată prin alinierea reziduurilor de alanină la pozițiile respective 60 și 62. Această sămânță derivă din HSP generat de partea stângă a celor două extensii negapped ilustrate în Figura 2. Xg Parametrul de retragere este scorul nominal 40, utilizat împreună cu scorurile de înlocuire BLOSUM-62 și un cost de 10 + k pentru goluri de lungime k. (b) Calea corespunzătoare alinierii locale optime generate, suprapusă hit-urilor descrise în Figura 2. Programul original BLAST, folosind euristica cu o singură lovitură cu T = 11, este capabil să localizeze trei dintre cele cinci HSP incluse în această aliniere, dar numai primul și ultimul obțin un scor suficient pentru a fi raportat. (c) Alinierea locală optimă, cu scor nominal 75 și scor normalizat 32,4 biți. În contextul unei căutări a SWISS-PROT ( 26), eliberarea 34 (21 219 450 de reziduuri), folosind secvența de leghemoglobină (143 de reziduuri) ca interogare, E-valoarea este 0,54 dacă nu este invocată nicio corecție a efectului marginii (22). Programul inițial BLAST localizează primul și ultimul segment negapat al acestui aliniament. Folosind statistici de sumă fără corecție a efectului marginii, acest rezultat combinat are un E-valoarea 31 ( 21, 22). Pe liniile centrale ale alinierii, identitățile sunt ecou și substituțiile cărora matricea BLOSUM-62 ( 18) dă un scor pozitiv sunt indicate printr-un simbol „+”.

O extensie întreruptă generată de BLAST pentru compararea leghemoglobinei I (87) și β-globinei de cal (88). (A) Regiunea graficului de traseu explorată atunci când este însămânțată prin alinierea reziduurilor de alanină la pozițiile respective 60 și 62. Această sămânță derivă din HSP generat de partea stângă a celor două extensii negapped ilustrate în Figura 2. Xg Parametrul de retragere este scorul nominal 40, utilizat împreună cu scorurile de înlocuire BLOSUM-62 și un cost de 10 + k pentru goluri de lungime k. (b) Calea corespunzătoare alinierii locale optime generate, suprapusă hit-urilor descrise în Figura 2. Programul original BLAST, folosind euristica cu o singură lovitură cu T = 11, este capabil să localizeze trei dintre cele cinci HSP incluse în această aliniere, dar numai primul și ultimul obțin un scor suficient pentru a fi raportat. (c) Alinierea locală optimă, cu scor nominal 75 și scor normalizat 32,4 biți. În contextul unei căutări a SWISS-PROT ( 26), eliberarea 34 (21 219 450 de reziduuri), folosind secvența de leghemoglobină (143 de reziduuri) ca interogare, E-valoarea este 0,54 dacă nu este invocată nicio corecție a efectului marginii (22). Programul inițial BLAST localizează primul și ultimul segment negapat al acestui aliniament. Folosind statistici de sumă fără corecție a efectului marginii, acest rezultat combinat are un E-valoarea 31 ( 21, 22). Pe liniile centrale ale alinierii, identitățile sunt ecou și substituțiile cărora matricea BLOSUM-62 ( 18) dă un scor pozitiv sunt indicate printr-un simbol „+”.

Abordarea adoptată aici permite BLAST să producă simultan aliniamente cu goluri și să ruleze semnificativ mai rapid decât anterior. Ideea centrală este de a declanșa o extensie întreruptă pentru orice HSP care depășește un scor moderat Sg, aleasă astfel încât să nu fie invocată mai mult de o extensie la 50 de secvențe de bază de date. (Prin ecuație 2, pentru o interogare de proteine ​​de lungime tipică, Sg ar trebui să fie setată la ~22 de biți.) O extensie întreruptă durează mult mai mult pentru a fi executată decât o extensie fără întrerupere, dar executând foarte puține dintre ele, fracțiunea din timpul total de rulare pe care o consumă poate fi menținută relativ scăzută.

Căutând o singură aliniere cu decalaj, mai degrabă decât o colecție de cele negapped, doar unul dintre HSP-urile constitutive trebuie să fie localizat pentru ca rezultatul combinat să fie generat cu succes. Aceasta înseamnă că putem tolera o șansă mult mai mare de a rata orice HSP cu scor moderat. De exemplu, luați în considerare un rezultat care implică două HSP, fiecare cu aceeași probabilitate P de a fi ratat în stadiul de succes al algoritmului BLAST și să presupunem că dorim să găsim rezultatul combinat cu o probabilitate de cel puțin 0,95. Algoritmul original, care trebuie să găsească ambele HSP-uri, necesită 2PP 2 ≤ 0,05, sau P mai puțin de ~0,025. În schimb, noul algoritm necesită doar asta P 2 ≤ 0,05 și, prin urmare, poate tolera P până la 0,22. Acest lucru permite T parametrul pentru stadiul de succes al algoritmului să fie crescut substanțial, păstrând în același timp o sensibilitate comparabilă - de la T = 11 la T = 13 pentru euristica cu o lovitură. (Euristica cu două lovituri descrisă mai sus scade T înapoi la 11.) După cum va fi discutat mai jos, creșterea rezultată a vitezei compensează mai mult decât timpul suplimentar necesar pentru extinderea rar întâlnită.

În rezumat, noul algoritm BLAST cu decalaj necesită cel puțin două accesări de scor care nu se suprapun. T, la distanţă A unul de altul, pentru a invoca o extensie negapped a celui de-al doilea hit. Dacă HSP-ul generat are cel puțin scor normalizat Sg biți, apoi se declanșează o extensie întreruptă. Alinierea decalată rezultată este raportată numai dacă are un E-valoare suficient de mică pentru a fi de interes. De exemplu, în comparația pe perechi din Figura 2, extensia negapped invocată de perechea de lovituri din stânga produce un HSP cu scorul de 23,6 biți (calculat folosind λu și Ku). Acest lucru este suficient pentru a declanșa o extensie întreruptă, care generează o aliniere cu un scor de 32,4 biți (calculat folosind λg și Kg) și E-valoare de 0,5 ( Fig. 3). Programul original BLAST localizează numai primul și ultimul segment negapped din acest aliniament (Fig. 3c) și le atribuie o combinație E-valoare > de 50 de ori mai mare.


Alinierea secvenței în perechi

Cât de asemănătoare sunt două secvențe? Această întrebare simplă conduce o mare parte din bioinformatică, de la asamblarea fragmentelor de secvențe suprapuse în contig, alinierea unor noi secvențe împotriva genomilor de referință, căutările BLAST ale bazelor de date de secvențe, filogenia moleculară și modelarea omologiei structurilor proteinelor.

Răspunsul la această întrebare necesită găsirea alinierii optime între două secvențe diferite, notarea similarității acestora pe baza alinierii optime și apoi evaluarea semnificației acestui scor. Alinierea optimă, desigur, depinde de schema de notare.

Să luăm în considerare 3 metode pentru alinierea secvenței în perechi: 1) graficul cu puncte, 2) alinierea globală și 3) alinierea locală.

Dot Plot

Cea mai simplă metodă este graficul cu puncte. O secvență este scrisă orizontal, iar cealaltă secvență este scrisă vertical, de-a lungul părții superioare și laterale a unei grile m x n, unde m și n sunt lungimile celor două secvențe. Un punct este plasat într-o celulă din grilă oriunde se potrivesc cele două secvențe. O linie diagonală din grilă arată vizual unde cele două secvențe au identitatea secvenței. Comparațiile grafice cu puncte ale secvenței de acid nucleic vor arăta un nivel foarte ridicat de fundal (25% șanse de potrivire aleatorie), astfel încât parametrii trebuie modificați pentru a plasa un punct numai dacă există o potrivire aproape perfectă de-a lungul unei „ferestre glisante” 10 sau mai multe nucleotide consecutive (vezi sfaturile de mai jos).

Implementările grafice de puncte bazate pe web pot fi găsite aici:

http://emboss.bioinformatics.nl/cgi-bin/emboss/dotmatcher – atât pentru secvențe de acid nucleic, cât și pentru secvențe de proteine, cu matrice standard de scor EMBOSS

Programele de grafică de puncte autonome operabile fie prin GUI, fie prin linie de comandă pot fi găsite în EMBOSS (JEMBOSS este GUI Java)

Sfaturi pentru graficele cu puncte ADN (secvență de acid nucleic):

  • Utilizați o matrice de notare a acidului nucleic: ednafull în EMBOSS
  • Pentru că există doar 4 nucleotide, măriți dimensiunea ferestrei și scorul de prag până când fundalul dispare și rămâneți cu semnal clar.
  • Utilizarea unei ferestre prea mare, cum ar fi 100, cu un prag scăzut, va face ca diagonalele să se suprapună și să piardă rezoluția pentru a vedea repetări sau inversiuni mici. Utilizați o fereastră mai mică (mai puțin de 30) și creșteți scorul prag pentru a favoriza potrivirile aproape exacte

Î: Ce va arăta un dot plot dacă există

  1. insertii si stergeri?
  2. O inversare?
  3. Un motiv de secvență care se repetă?
  4. O întindere homopolimerică?
  5. Un grafic de puncte care compară două secvențe de nucleotide va avea o mulțime de zgomot de fundal – cum poate fi redus sau suprimat acest zgomot de fond?

Alinierea globală: Needleman-Wunsch

Algoritmul publicat de Needleman și Wunsch în 1970 pentru alinierea a două secvențe de proteine ​​a fost prima aplicare a programării dinamice la analiza secvenței biologice. Algoritmul Needleman-Wunsch găsește cea mai bună aliniere globală între două secvențe. O postare pe blog a lui Chetan are o explicație foarte clară a modului în care funcționează. Aliniamentele globale sunt cele mai utile atunci când cele două secvențe comparate sunt de lungimi similare și nu prea divergente.

Aliniament local: Smith-Waterman

Viața reală este adesea complicată și observăm că genele și proteinele pe care le codifică au fost supuse amestecării exonilor, recombinării, inserțiilor, delețiilor și chiar fuziunilor. Multe proteine ​​prezintă arhitectură modulară. În căutarea în baze de date pentru secvențe similare, este util să găsiți secvențe care au domenii similare sau motive funcționale. Smith & Waterman (1981) au publicat o aplicație de programare dinamică pentru a găsi aliniamente locale optime. Algoritmul este similar cu Needleman-Wunsch, dar valorile celulelor negative sunt resetate la zero, iar procedurile de urmărire pornesc de la celula cu cel mai mare scor, oriunde în matrice, și se termină atunci când calea întâlnește o celulă cu o valoare zero.

Matrice de punctaj

Algoritmii Needleman-Wunsch și Smith-Waterman necesită o matrice de scor. Matricea de scor atribuie un scor pozitiv pentru un meci și o penalizare pentru o nepotrivire. Pentru alinierea secvenței de nucleotide, cea mai simplă matrice de punctare acordă +1 pentru o potrivire și -1 pentru o nepotrivire. Algoritmul blastn de la NCBI are scoruri de +5 pentru un meci și -4 pentru o nepotrivire. Aceste matrice de scor tratează toate mutațiile (nepotrivirile) în mod egal. În realitate, tranzițiile (pirimidină -> pirimidină și purină -> purină) apar mult mai frecvent decât transversiunile (pirimidină -> purină și invers). Pentru alinierea secvențelor de ADN care nu codifică proteine, o matrice de punctare de tranziție/transversie poate fi mai adecvată. Pentru alinierea secvențelor de ADN care codifică proteine, alinierea secvențelor de aminoacizi a proteinei va fi aproape întotdeauna mai fiabilă.

Tranziții și transversiuni, din Wikipedia

Pentru alinierea secvenței proteinelor, matricele de punctare sunt mai complicate. Scopul este de a reflecta procesele evolutive. Unele modificări ale secvenței de aminoacizi pot apărea dintr-o singură modificare de nucleotidă, în timp ce alte modificări de aminoacizi necesită două modificări de nucleotide. Unele modificări de aminoacizi sunt mai puțin susceptibile de a afecta structura sau funcția proteinelor decât alte modificări de aminoacizi. Deci, cum putem estima probabilitatea relativă a unor modificări specifice de aminoacizi?

Dayhoff a folosit alinieri ale proteinelor foarte conservate pentru a evalua ce modificări de aminoacizi ar fi probabil acceptate – P oint A ccepted M utations. Din aceste date, ea a conceput o matrice de substituție de 20 x 20 de aminoacizi pentru PAM-1, o unitate de schimbare evolutivă care are ca rezultat 1 mutație acceptată la 100 de aminoacizi. De acolo ea a calculat alte matrici, cum ar fi PAM-2 sau PAM-30 sau PAM-250, unde PAM-n matricea este derivată prin înmulțirea matricei PAM-1 cu ea însăși n ori. Matricele de substituție sunt convertite în matrice de punctaj prin conversia probabilităților de substituție în rapoarte log-cote pentru fiecare celulă.

Matricele BLOSUM (BLO cks SU bstitution Matrix) își derivă frecvențele de substituție a aminoacizilor din baza de date Blocks de aliniamente de secvențe multiple locale negapped. BLOSUM62 este calculat din secvențe cu 62% identitate sau mai puțin BLOSUM 80 din secvențe cu 80% sau mai puțin.

Articolul Wikipedia despre matricele de substituție oferă o descriere rezonabil de concisă și precisă a matricelor PAM și BLOSUM. http://en.wikipedia.org/wiki/Substitution_matrix

Penalizare de gol

Alinierea secvenței necesită de obicei inserarea de goluri, reflectând mutațiile de inserție sau deleție. Dacă o nucleotidă sau un aminoacid dintr-o secvență este aliniată la un gol din secvența țintă, atunci aceasta ar trebui penalizată ca o nepotrivire. Cu toate acestea, golurile de la sfârșitul secvențelor nu ar trebui să fie penalizate. Mai mult, o singură mutație de inserție sau deleție ar putea avea ca rezultat un decalaj contigu de mai multe reziduuri. Prin urmare, un singur gol cu ​​o lungime de 3 reziduuri ar trebui să suporte o penalizare mai mică decât 3 goluri diferite, câte un reziduu fiecare. Un penalizare de decalaj afine schema penalizează puternic deschiderea unui decalaj, dar extinderea unui decalaj preexistent implică o penalizare mult mai mică pe reziduu suplimentar.

Evaluarea semnificației unei alinieri

Algoritmii Needleman-Wunsch și Smith-Waterman vor găsi întotdeauna cea mai bună aliniere între două secvențe, indiferent dacă acestea sunt sau nu legate evolutiv.

Î: Așadar, cum putem evalua dacă o anumită aliniere între două secvențe este semnificativă sau indică omologie (strămoș comun)?

Avem nevoie de o modalitate de a estima semnificația statistică a unui anumit scor de aliniere. Cât de probabil este ca două secvențe aleatorii de lungime și compoziție similare să se alinieze cu un scor egal sau mai bun decât alinierea țintă?

Pentru aliniamente globale, nu există o teorie adecvată pentru a prezice distribuția scorurilor de aliniere din secvențele generate aleatoriu. Se pot genera pur și simplu scoruri din aliniamente de secvențe care au fost amestecate aleatoriu de multe ori. Dacă 100 de astfel de amestecări produc scoruri de aliniere care sunt mai mici decât scorul de aliniere observat, atunci se poate spune că valoarea p este probabil mai mică de 0,01.

Pentru aliniamentele locale, teoria probabilității prezice că secvențele amestecate aleatoriu vor produce scoruri de aliniere cu o distribuție de valori extreme (maxim de tip I).


Materiale și metode

Tabel de reactivi și instrumente

Reactiv/Resurse Referință sau sursă Identificator sau Număr de catalog
Software
piton v3.7 https://www.python.org/
scanpy v1.4 https://pypi.org/project/scanpy/
tensorflow v2.0.1 https://pypi.org/project/tensorflow/

Metode și protocoale

Notă generală despre seturile de date

În acest studiu, am lucrat la seturi de date din bazele de date publice IEDB (Vita et al, 2019 ) și VDJdb (Shugay et al, 2018) și pe un set de date publice dintr-un experiment de specificitate a celulelor T unicelulare bazat pe pMHC (10x Genomics, 2019). IEDB și VDJdb conțin perechi de receptori de legare a celulelor T (TCR) și antigene. În experimentul cu o singură celulă, celulele au fost mai întâi tratate cu pMHC cu coduri de bare și apoi au fost separate fizic în picături într-o configurație de microfluidic. pMHC-urile capturate în aceste secvențe de receptor de picături și celule T asociate cu celulele capturate sunt codificate cu bare cu o secvență specifică picăturilor, astfel încât ambele să poată fi mapate la o singură observație după secvențiere (10x Genomics, 2019). În consecință, se poate obține nu numai o listă de TCR-uri și antigene legați, ci și numărătoare de pMHC pentru fiecare TCR. Aceste numărări pot fi discretizate în evenimente obligatorii și legături „false” sau pot fi modelate direct așa cum este propus în textul principal. Important, se poate stabili cu ușurință identitatea antigenelor de legare multiple la o singură secvență TCR pe baza unor astfel de numărări pMHC. Doi dintre cei patru donatori (donatorii 1 și 2) au fost HLA-A*02:01 (10x Genomics, 2019), care a fost și tipul HLA selectat în probele IEDB și VDJdb. O descriere detaliată a tipurilor HLA și a tipurilor pMHC utilizate în acest studiu este furnizată în altă parte (10x Genomics, 2019).

Statistici

Vă prezentăm P-valori pentru comparațiile de performanță ale modelului selectat. Aceste P-valorile au fost calculate prin compararea a două seturi de metrici de performanță. Noi am folosit-o pe ale lui Welch t-test dacă am comparat două seturi de metrici de performanță din două seturi separate de validare încrucișată, ceea ce este echivalent cu cazul ambelor seturi care partajează toți hiper-parametrii modelului, alții decât partiția de validare încrucișată. Am folosit testul Wilcoxon dacă am comparat valorile între seturi de modele care variază în hiper-parametri, deoarece nu ne-am mai aștepta la o distribuție unimodală a metricii de performanță în aceste cazuri.

Arhitecturi de rețea feed-forward

Aici, descriem arhitecturile propuse ale modelelor care prezic specificitatea antigenului unui receptor de celule T (TCR) pe baza buclei CDR3 a ambelor lanțuri ɑ- și β și pe covariate specifice celulei. Rețineți că influențele care determină specificitatea buclelor CDR1 și CDR2 (Cole et al, 2009 Madura et al, 2013 Stadinski et al, 2014) și regiunile distale (Harris et al, 2016a, b) au fost de asemenea demonstrate, dar nu au fost măsurate în testul pMHC cu o singură celulă. Toate rețelele prezentate conțin o încorporare inițială de aminoacizi, un bloc de încorporare a datelor secvențe și un bloc final de strat dens conectat.

Încorporarea aminoacizilor

Alegerea înglobării inițiale a aminoacizilor poate avea un impact asupra datelor și eficienței parametrilor modelului și, prin urmare, poate afecta puterea predictivă a modelelor antrenate pe seturi de date care sunt disponibile în prezent. Am folosit înglobări de aminoacizi codificate one-hot, înglobări inspirate de substituție evolutivă (BLOSUM) și înglobări învățate. Înglobările învățate au fost o convoluție 1 × 1 deasupra unei codificări BLOSUM și au fost adăugate stivei de strat model de secvență. Aici, canalele sunt înglobarea inițială a aminoacizilor (am ales BLOSUM50) și filtrele sunt încorporarea aminoacizilor învățați. Această încorporare învățată poate reduce dimensiunea parametrilor stivei de straturi de model de secvență. Toate potrivirile prezentate în manuscris, altele decât în ​​Anexa Fig S1, se bazează pe o astfel de încorporare învățată cu cinci filtre. Anticipăm că înglobările bazate pe secvențe vor câștiga relevanță în contextul extrapolării între antigene în viitor. Aici, eficiența parametrilor în modelele de secvență va juca un rol important, iar convoluția 1 × 1 prezentată aici este un prim pas intuitiv în această direcție.

Încorporarea datelor secvențe

Am analizat mai multe tipuri de straturi în blocul de încorporare a datelor secvenței: straturi recurente (GRU bidirecționale și LSTM), straturi de auto-atenție, straturi convoluționale (convoluții simple și asemănătoare inițierii) și straturi dens conectate ca referință. Tipurile de straturi recurente și straturile de auto-atenție au fost anterior utile pentru modelarea limbajului (Vaswani et al, 2017) și epitop (Wu et al, 2019 ) date. Tipurile de straturi convoluționale au fost utile pentru modelarea epitopului (Han & Kim, 2017 Vang & Xie, 2017) și a imaginii (Szegedy et al, 2015 ) date. Straturile modelului de secvență rețin informații de poziție în straturile ulterioare și pot astfel construi o reprezentare din ce în ce mai abstractă a secvenței. Pentru a realiza acest lucru pe rețelele recurente, am ales ca ieșirea unui strat să fie o stare de rețea în funcție de poziție, care are ca rezultat un tensor de ieșire de dimensiune (lot, poziții × 2, dimensiune de ieșire) pentru o rețea bidirecțională. Această codificare în funcție de poziție apare în mod natural în rețelele de autoatenție și convoluționale. Nu am folosit transformări caracteristice cu semnale poziționale (Vaswani et al, 2017 ) pe rețelele de autoatenție, astfel încât rețeaua nu are cunoștințe despre structura secvenței inițiale, dar poate reține în continuare structura dedusă în straturile ulterioare. Am prezentat modele care se potrivesc pe bucla CDR3 a ambelor lanțuri ɑ- și β ale TCR (Fig 1B) și modelele se potrivesc pe bucla CDR3 a lanțului β și secvența antigenului (Fig 3B). În ambele cazuri, trebuia să integrăm două secvențe. În acest scop, fie am folosit stive separate de straturi de încorporare a secvenței pentru fiecare secvență (toate modelele prezentate în fig. 1 și modelele indicate ca „separate” în fig. 3), fie adăugând cele două secvențe căptușite și utilizând o singură stivă de straturi de încorporare a secvenței. (modelele indicate ca „concatenate” în Fig 3). Am redus codificarea pozițională la un spațiu latent de dimensionalitate fixă ​​în ultimul strat de încorporare a secvenței al rețelelor recurente prin starea emisă a modelului pe ultimul element al secvenței în fiecare direcție. Acest ultim strat permite utilizarea acelorași straturi dense finale, independent de lungimea secvenței de intrare. Rețelele convoluționale și de autoatenție nu au fost construite pentru a fi independente de lungimea secvenței. Cu toate acestea, am completat secvențele de intrare pentru a atenua această problemă pe datele tratate în această lucrare. Am folosit o conexiune reziduală în toate straturile de încorporare a secvenței. Alți hiper-parametri specifici stratului pot fi extrași din codul furnizat cu acest manuscris (Setul de date EV1 și EV2).

Straturi finale dens conectate

Am alimentat activarea generată în blocul de încorporare a secvenței într-o rețea densă care poate integra informațiile despre secvență cu covariate continue sau categorice specifice donatorului și celulei. Am modelat evenimentul de legare ca o distribuție de probabilitate pe două stări (legat și nelegat) și am calculat abaterea predicției modelului de la evenimentele de legare observate prin pierderea de entropie încrucișată. În primul rând, se pot folosi astfel de modele pentru a prezice evenimente de legare pe un singur antigen reprezentat ca un singur nod de ieșire cu o funcție de activare a sigmoidului. În al doilea rând, se poate modela un eveniment unic de legare între un panou de antigeni cu un vector de noduri de ieșire (câte unul pentru fiecare antigen și un nod pentru nelegare) care sunt transformați cu o funcție de activare softmax.

Prelucrare covariabilă

Am creat o matrice de design inspirată din modelarea liniară pentru a fi utilizată ca matrice covariabilă. Am modelat donatorul ca o covariabilă categorică, rezultând o codificare one-hot a donatorului. Am modelat numărul total, numărul pMHC cu control negativ și numărul proteinelor de suprafață ca covariabile continue. Înregistrăm(X + 1)-control negativ transformat pMHC și număr de proteine ​​de suprafață pentru a crește stabilitatea antrenamentului. Am modelat numărul total ca număr total de ARNm per celulă împărțit la numărul total mediu.

Antrenament, validare și secțiuni de testare

Am folosit date de antrenament pentru a calcula actualizările parametrilor, date de validare pentru a controla supraadaptarea și date de testare pentru a compara modele între hiper-parametri. Antrenamentul modelului a fost încheiat odată ce s-a atins un număr maxim de epoci sau dacă pierderea de validare nu mai scadea. În acest din urmă caz, modelul cu cea mai mică validare într-o fereastră glisantă de n epoci până s-a ales ultima epocă n este dat în scripturile de căutare în grilă (Setul de date EV3). Valorile modelului prezentate în acest manuscris sunt metrici evaluate pe datele de testare pentru modelele selectate pe baza entropiei încrucișate (predicția de legare categorială) sau a erorii de log pătrat mediu (predicția numărului de dextramer) a datelor de validare. Oferim curbe de antrenament pentru toate modelele care au contribuit la panourile din acest manuscris în Dataset EV3.

Optimizare

Am folosit optimizatorul ADAM pe tot parcursul manuscrisului pentru toate modelele. Am folosit programe ale ratei de învățare care reduc rata de învățare în momentul antrenamentului odată ce sunt atinse platourile în metrica de validare. Rata de învățare inițială și toți hiper-parametrii rămași (dimensiunea lotului, numărul de epoci, răbdarea, pași pe epocă) au fost variate așa cum este indicat în lista de hiper-parametri de căutare în grilă.

Obiective de adaptare a modelului

Am ales pierderea de entropie încrucișată pe valorile de activare a ieșirii transformate prin sigmoid sau softmax pentru a antrena modele care prezic evenimente de legare binarizate și eroare logaritmică pătrată medie (msle) pe valorile de activare a ieșirii exponențiate pentru modelele care prezic afinități de legare continue (număr).

Valori de performanță

Am folosit AUC ROC, scorurile F1, ratele fals-negative și ratele fals-pozitive în studiu pentru a evalua modele care prezic probabilitățile de legare. AUC ROC este utilă dacă observațiile acoperă întreaga gamă de praguri de clasificare și este utilă deoarece oferă o măsură care rezumă toate pragurile de clasificare scalară. Scorurile F1 pot fi întotdeauna folosite pentru a evalua un clasificator, dar se bazează pe un prag strict. Am folosit AUC ROC acolo unde a fost posibil, dar am completat cu scoruri F1 dacă scorul AUC ROC poate suferi de un suport disjuns al setului de date de testare pe pragul de clasificare. Ratele fals-negative și fals-pozitive sunt utilizate în apendicele Fig S4 pentru a sublinia modul în care modelele antrenate pe date cu o singură celulă se generalizează la datele din IEBD și VDJdb atât în ​​clasele negative cât și în cele pozitive separat. Noi am folosit R 2 pentru a evalua performanța modelelor care au prezis numărul pMHC (spațiu întreg pozitiv).

Procesarea datelor repertoriului imunitar unicelular (CD8 + celule T).

Prelucrarea datelor primare

Am descărcat datele complete ale tuturor celor patru donatori dintr-un alt studiu (10x Genomics, 2019). Toată prelucrarea datelor pentru fiecare model de potrivire este documentată în codul pachetului (Setul de date EV1) și scripturile de căutare în grilă (Setul de date EV2). Numărul de clonotipuri de celule T per antigen a variat drastic între ordinul 10 0 și 10 4 (Anexa Fig S3A și B). Ulterior, am selectat cele mai obișnuite opt antigene (ELAGIGILTV, GILGFVFTL, GLCTLVAML, KLGGALQAK, RLRAEAQVK, IVTDFSVIK, AVFDRKSDAK, RAKFKQLL) pentru potriviri categorice de model de panou pentru a evita problemele cu dezechilibrele de clasă. Am folosit predicția evenimentului de legare binarizat de către autorii setului de date (10x Genomics, 2019 etichetat „*_binder” în fișierele „*_binarized_matrix.csv”) ca etichetă pentru predicție. Pentru cazul continuu, în care am prezis numărul pMHC, am ales coloanele de date de numărare corespunzătoare din același fișier. Apoi, am efectuat mai multe straturi de filtrare a observației: (i) îndepărtarea dubletului, (ii) eșantionarea în jos a clonotipului și (iii) eșantionarea în jos a clasei. S-a arătat anterior că dubletele, și anume, picăturile care conțin două celule vizate cu același cod de bare, care nu pot fi distinse în etapele de analiză din aval, tind să fie îmbogățite în subseturi de clustere derivate din transcriptom (Wolock et al, 2019).Propunem utilizarea numărului de alele lanțului TCR reconstruite pentru a identifica potențiale dublete și pentru a demonstra că dubletele astfel caracterizate sunt într-adevăr îmbogățite într-un anumit grup în fiecare donator (Anexa Fig S2A-D). Există celule care au două alele active pentru fiecare lanț TCR, dar acestea nu pot fi separate cu ușurință de dubletele care apar în procesul de separare a celulelor. Pentru a evita părtinirea rezultatelor prezentate de către potențiale dublete celulare, am ales să excludem toate celulele care prezintă mai mult de o alele fie pentru lanțul ɑ- sau pentru lanțul β. Am investigat în continuare contribuția globală a moleculelor potențial ambientale care dau naștere la toate celulele T observate și am constatat că lanțurile de înaltă frecvență nu domină semnalul general (Anexa Fig S2E și F). Această analiză prezintă o limită superioară a impactului moleculelor ambientale asupra acestui experiment, deoarece efectele evolutive contribuie probabil și la suprareprezentarea anumitor secvențe de lanț. Ulterior, am eliminat toate codurile de bare celulare care conțin mai mult de un lanț ɑ- sau β, deoarece celulele T CD8 + mature sunt de așteptat să aibă doar o singură alele funcționale de lanț ɑ- și β. Apoi, am eșantionat fiecare clonotip la maximum 10 observații pentru a evita influențarea datelor de antrenament sau de testare către clone mari. Aici, am folosit clonotipuri așa cum au fost definite de autorii setului de date în fișierele „*_clonotypes.csv” (10x Genomics, 2019). În cele din urmă, am eșantionat clasa mai mare până la maximum de două ori dimensiunea clasei mai mici atunci când am prezis un eveniment de legare binar pentru un singur antigen. Nu am efectuat acest ultim pas pe scenarii de predicție multiclasă și numărare. Am umplut fiecare secvență CDR3 la o lungime de 40 de aminoacizi și am concatenat aceste observații de lanț căptușit la o secvență cu lungimea de 80 pentru modelele care au fost antrenate pe ambele lanțuri. Am efectuat validarea încrucișată cu excluderea unui donator pe modele care nu au luat identitatea donatorului ca covariabilă. Am eșantionat 25% din clonotipurile de date complete și am atribuit toate celulele corespunzătoare setului de testare pentru toate modelele care au folosit covariata donor. Ultimul caz a produs 68.716 clonotipuri și 91.495 celule la toți cei patru donatori. Toate validările încrucișate afișate pe diferite modele se bazează pe o validare încrucișată triplă cu împărțiri de testare-tren inedite care au ca rezultat aceeași împărțire între toți hiper-parametrii. Prezentăm o analiză a diversității clonotipurilor întâlnite în acest set de date în Anexa Fig S6.

Binarizarea pMHC cu o singură celulă numără în stări legate și nelegate

Am folosit binarizarea descrisă în publicația originală (10x Genomics, 2019) pentru numărările brute pentru a primi etichete binare de rezultat: un număr total de UMI pMHC mai mare de 10 și de cel puțin cinci ori mai mare decât cel mai mare număr de UMI observat la toate negative- pMHCs de control a fost necesar pentru un eveniment de legare. Dacă mai mult de un pMHC a trecut aceste criterii, pMHC cu cel mai mare număr de UMI a fost ales ca liant unic.

Ansamblul set de testare pentru modelele se potrivește pe datele IEDB

Această secțiune descrie modul în care a fost pregătit testul descris în Fig 3E și apendicele Fig S5C. Celulele au fost filtrate așa cum este descris mai sus. Apoi am extras o pereche de legare TCR-antigen per celulă din această listă. Am folosit perechile TCR-antigen rămase ca exemple negative validate și le-am eșantionat la numărul de observații pozitive pentru a menține echilibrul clasei. Toate validările încrucișate afișate pe diferite modele se bazează pe o validare încrucișată triplă, cu divizări de testare și tren, care au ca rezultat aceeași împărțire între toți hiper-parametrii.

Prelucrarea datelor IEDB

Prelucrare primară

Am descărcat datele de pe site-ul IEDB (Vita et al, 2019 ) cu următoarele filtre: epitop liniar, restricție MHC la HLA-A*02:01 și organism ca uman și numai uman. Aceasta a dat o listă de TCR potrivite (în mare parte CDR3-uri cu lanț p) cu antigene legați. Am atribuit secvențe TCR unui singur clonotip dacă au fost perfect potrivite și am prelevat toate clonotipurile la o singură observație. Am extras numai lanțul β și secvențele CDR3 la o lungime de 40 de aminoacizi. Am umplut secvențele de antigen la o lungime de 25 de aminoacizi. Am eșantionat 10% din toate observațiile ca set de testare. Am generat eșantioane negative atât pentru antrenament, cât și pentru seturile de testare separat, generând perechi neobservate de TCR și antigene. Aici, am presupus că toate TCR-urile leagă un antigen unic din setul tuturor antigenilor prezenți în baza de date, astfel încât orice altă împerechere să nu aibă ca rezultat un eveniment de legare. Această procedură a dat 9.697 de observații atât pentru seturile pozitive, cât și pentru cele negative, înainte de separarea trenului-test de la 71 de antigene.

Ansamblul set de testare pentru modelele se potrivește pe datele IEDB

Această secțiune descrie modul în care a fost pregătit testul descris în apendicele Fig S5A. Pentru a explora capacitatea modelelor TcellMatch care includ antigen de a se generaliza la antigene nevăzute, am potrivi un astfel de model pe subsetul de antigene de înaltă frecvență ai IEDB cu cel puțin cinci secvențe TCR unice și am testat modelele pe antigenele rămase. Toate validările încrucișate afișate pe diferite modele se bazează pe o validare încrucișată triplă, cu divizări de testare și tren, care au ca rezultat aceeași împărțire între toți hiper-parametrii.

Procesarea datelor VDJdb

Prelucrare primară

Am oferit o analiză exploratorie a acestui set de date în Anexa Fig S3 „exploration_vdjdb_data.*”. Am descărcat datele de pe VDJdb (Shugay et al, 2018 ) site web cu următoarele filtre: Specie: umană, Genă (lanț): TRB, MHC Alelele din primul lanț: HLA-A*02:01. Aceasta a produs 3.964 de înregistrări de la 40 de antigene. Am atribuit secvențe TCR unui singur clonotip dacă au fost perfect potrivite și am prelevat toate clonotipurile la o singură observație. Am extras doar lanțul β și secvențele CDR3 la o lungime de 40 de aminoacizi. Am umplut secvențele de antigen la o lungime de 25 de aminoacizi.

Ansamblu set de testare de la VDJdb pentru modelele se potrivesc pe datele IEDB

Această secțiune descrie modul în care a fost pregătit testul descris în Fig 3D și Anexa Fig S5B. Am sub-selectat observații cu antigene care se potrivesc sau nepotriviți în raport cu setul de antrenament, în funcție de aplicație (descrisă în legenda figurii sau textul principal). Toate validările încrucișate afișate pe diferite modele se bazează pe o validare încrucișată triplă, cu divizări de testare și tren, care au ca rezultat aceeași împărțire între toți hiper-parametrii.


Mulțumiri

Autorii îi mulțumesc lui Martin Hess pentru discuțiile utile cu privire la instrumentul CoverageCalculator. R.T. de asemenea, recunoaște cu recunoștință câteva discuții stimulatoare cu colegii săi, domnul VA Ramesh, domnul S Suryanarayana și domnul Rohan Mishra, pe parcursul acestui studiu. Această lucrare a fost susținută de un grant acordat H.A.N (Comisia de granturi universitare - Universitatea cu potențial de excelență - grant II) și, de asemenea, de grantul de bază al Centrului pentru Amprenta și Diagnosticare ADN (CDFD). R.T. este un beneficiar al Comisiei de Granturi Universității (UGC) Junior și Senior Research Fellowships. Mulțumim, de asemenea, Departamentului de Biotehnologie, Guvernul Indiei, sponsorizat de Bioinformatics Infrastructure Facility (BIF) a Școlii de Științe Vieții, Universitatea din Hyderabad. Nu în ultimul rând, mulțumim cu recunoștință pentru proiectul INNO Indigo acordat H.A.N de la Departamentul de Știință și Tehnologie (DST), Guvernul Indiei, pentru ajutorul financiar acordat pentru taxele de procesare a articolelor (APC).


Matrice Blosum cu probabilități în locul scorurilor pozitive și negative - Biologie

Notația de sintaxă abstractă 1 (ASN.1)

ASN.1 este un limbaj standard de descriere a datelor care este utilizat pentru codificarea datelor structurate. ASN.1 permite ca atât conținutul, cât și structura datelor să fie citite și schimbate între o varietate de programe și platforme de calculator. ASN.1 este limbajul folosit pentru stocarea și manipularea datelor la NCBI. Tot software-ul NCBI citește și scrie ASN.1.

Numărul de acces este cel mai general identificator utilizat în bazele de date de secvențe NCBI. Acesta este identificatorul care ar trebui utilizat atunci când se citează o înregistrare a unei baze de date într-o publicație. Numărul de acces indică o înregistrare a secvenței și nu se modifică atunci când secvența este modificată. În sistemul Entrez, utilizarea numărului de acces ca interogare va prelua cea mai recentă versiune a înregistrării. Istoricul actualizării unei anumite înregistrări de secvență este urmărit de numărul accession.version. Modificările numerelor de versiune apar numai atunci când secvența reală a unei înregistrări a fost modificată și nu reflectă nicio modificare în adnotare. Versiunea specifică a unei înregistrări este, de asemenea, urmărită de un alt identificator care este în principal pentru uz intern NCBI, numit număr GI.

Un algoritm este o cale formală în trepte pentru rezolvarea unei probleme, de exemplu problema găsirii unor aliniamente locale cu scor mare între două secvențe. Algoritmii stau la baza programelor de calculator.

Scorul de aliniere este un număr atribuit unei alinieri perechi sau multiple de secvențe care oferă o valoare numerică care reflectă calitatea alinierii. Scorurile de aliniere sunt de obicei calculate prin referire la un fel de tabel de înlocuire sau matrice de punctaj de aliniere și însumând valorile pentru fiecare pereche sau coloană din aliniere. (Vezi și scorul brut și scorul de biți). Cu anumite matrice de scoring, scorurile mari ale aliniamentelor locale negapped între două secvențe aleatorii au proprietatea specială de a urmări distribuția valorilor extreme. Această proprietate permite atribuirea unui nivel de semnificație scorurilor de aliniere locală obținute din căutările în baze de date folosind instrumente precum BLAST și FASTA. (Consultați și Așteptați valoare.)

O matrice de scoring este un tabel de valori utilizat pentru a atribui un scor numeric unei perechi sau coloane de reziduuri aliniate într-o aliniere a secvenței. Cel mai simplu tip, o matrice de identitate, atribuie o valoare mare pentru o potrivire și o valoare scăzută, adesea negativă, pentru o nepotrivire. Matricea de identitate este utilizată în programul nucleotide-nucleotide BLAST al NCBI. Matricele de punctare a alinierii proteinelor sunt de obicei mai complicate și țin cont de abundența relativă a aminoacizilor din proteinele reale și de observația că unii aminoacizi se înlocuiesc mai ușor unul cu altul în proteinele înrudite (de exemplu, Phe și Tyr) și alții nu ( de exemplu, Phe și Asp). O modalitate de a genera o astfel de matrice este de a examina aliniamentele proteinelor reale despre care se știe că sunt omoloage (vezi Homolog) și de a tabulare frecvențele de substituție ale diferitelor perechi de aminoacizi în toate pozițiile. Tabelul de frecvență rezultat este apoi convertit într-o matrice aditivă log-cote, luând logul raportului dintre frecvența de substituție observată pentru o anumită pereche și frecvența de substituție de fond. Seria PAM și BLOSUM sunt exemple de matrice de notare a proteinelor utilizate pe scară largă care sunt derivate în acest fel. Matricele descrise mai sus nu iau în considerare diferențele de frecvențe de substituție la diferite poziții în aliniamente. De asemenea, pot fi generate matrici de scoruri mai sensibile, specifice poziției. Scorurile de aliniamente locale ale secvențelor aleatoare derivate din aceste matrice log-cote sunt descrise de distribuția valorilor extreme. Astfel, nivelurile de semnificație pot fi atribuite rezultatelor căutărilor în bazele de date cu aceste matrici folosind instrumente precum BLAST și FASTA. (Consultați și Așteptați valoare.)

Alus sunt cea mai comună clasă de elemente scurte, intercalate, repetitive (SINE) din genomul uman. Alus poate reprezenta mai mult de 10% din genomul uman. Ele par a fi derivate dintr-o pseudogenă de particule de recunoaștere a semnalului. Numele Alu derivă din faptul că aceste elemente conțin de obicei un AluI situs de recunoaștere a enzimei de restricție.

Un ansamblu de secvențe este o secvență mare sau un set ordonat de secvențe care pot fi derivate din secvențe mai mici suprapuse și uneori ancorate la o hartă la scară a genomului sau a cromozomilor folosind informații din conținutul STS și alte dovezi.

B

Cromozom artificial bacterian (BAC)

Un BAC este un vector mare de donare cu inserție capabil să manipuleze segmente mari de ADN donat, de obicei în jur de 150 kb. BAC-urile pot fi propagate în tulpini de laborator de Escherichia coli. Acești vectori sunt utilizați în construcția de biblioteci genomice pentru proiecte de secvențiere la scară a genomului, inclusiv oameni, șoareci, Arabidopsis, și orez.

BankIt este un formular Web pentru trimiterea secvențelor către GenBank.

Instrument de căutare de bază pentru alinierea locală (BLAST)

BLAST este instrumentul de căutare a asemănării secvenței al NCBI. Găsește aliniamente locale cu scoruri ridicate între o secvență de interogare și secvențe de bază de date de nucleotide și proteine. Deși BLAST este mai puțin sensibil decât algoritmul complet Smith-Waterman, oferă un compromis util între viteză și sensibilitate, în special pentru căutarea bazelor de date mari. Deoarece BLAST raportează scorurile de aliniere locală, oferă statistici care pot permite aliniamentele interesante din punct de vedere biologic să fie distinse de aliniamentele întâmplătoare.

Scorul de biți reprezintă conținutul de informații într-o aliniere a secvenței. Este exprimat în unități de bază 2 log. Scorul de biți este în esență un scor normalizat ajustat de parametrii de scalare a bazei de date și a matricei. Prin urmare, scorurile de biți pentru diferite căutări pot fi comparate și este necesară doar dimensiunea spațiului de căutare pentru a calcula semnificația (valoarea așteptată) a scorului. Relația dintre valoarea așteptată (E) și scorul de biți (S') este prezentată în ecuația 3 de mai jos.

Matricele de substituție BLock sunt un set de matrici de punctare a alinierei log-cote de proteine ​​calculate din frecvențele de substituție obținute din aliniamente multiple negapped ale proteinelor reale. Fiecare matrice BLOSUM este identificată cu un număr care indică procentajul limită de identitate pentru includerea în acea matrice. De exemplu, BLOSUM62, include informații de substituție pentru proteine ​​până la 62% identice în aliniere, BLOSUM90 până la 90% identice. Fiecare matrice BLOSUM funcționează cel mai bine la găsirea proteinelor la un anumit nivel de similitudine. Prin urmare, BLOSUM90 este mai bun la găsirea proteinelor mai strâns legate, în timp ce BLOSUM62 este cel mai bun la găsirea celor mai înrudite la distanță. Experimentele au arătat că BLOSUM62 funcționează bine și la găsirea de proteine ​​similare. Din acest motiv, BLOSUM62 este matricea implicită de evaluare a proteinelor pentru NCBI BLAST.

C

În sens molecular, o clonă este o copie fizică a unei bucăți de ADN. Termenul este cel mai adesea folosit pentru a se referi la ADN-ul vector de donare recombinant care conține această copie, cum ar fi o plasmidă, BAC sau ADN bacteriofag care poate fi propagat într-o gazdă bacteriană sau altă microbiană.

Un cluster este un grup de secvențe asociate între ele, de obicei printr-o procedură care se bazează pe asemănarea secvenței. Astfel de grupuri de secvențe sunt utilizate pentru a produce seturile de date UniGene și grupurile de date de grupuri ortologe (COGS).

Un COG este un grup de proteine ​​înrudite sau grupuri de proteine ​​(paralogi) din diferiți genomi despre care se crede că derivă dintr-o genă ancestrală comună. COG-urile sunt formate pe baza asemănării secvenței folosind o abordare bazată pe BLAST. Inițial, COG-urile au fost făcute pentru genomul microbian complet, dar setul de date se extinde pentru a include organisme mai complexe. Datele COG sunt foarte utile pentru adnotarea genelor pe genomi microbieni și pot fi utilizate pentru a oferi o potențială clasificare funcțională pentru proteinele necaracterizate. (Vezi și paralog și ortholog.)

Cn3D (pronunțat „see in three dee”) este vizualizatorul de structură al NCBI. Citește datele structurii Entrez și redă fie structuri unice, fie aliniamente structurale din baza de date de modelare moleculară a NCBI (MMDB). Cn3D funcționează ca o aplicație de ajutor pentru browser-ul web și se va lansa automat când browserul descarcă datele de structură NCBI. Cn3D poate funcționa și ca vizualizator autonom și poate acționa ca un client de rețea pentru a descărca structuri de la NCBI. De asemenea, are o capacitate BLAST și de filetare încorporată și poate crea alinieri de secvențe pentru a se potrivi secvențe similare structurilor cunoscute.

CDART oferă un browser grafic care permite găsirea de proteine ​​cu o arhitectură de domeniu similară (conținut și aranjament), începând cu rezultatele unei căutări CDD.

Căutare în baza de date a domeniilor conservate (CDD).

CDD Search folosește BLAST specific poziției inverse (RPS-BLAST) pentru a identifica domeniile conservate conținute într-o interogare de proteine. Bazele de date CDD sunt matrici de scoring specifice poziției (PSSM) create din mai multe alinieri de secvențe din trei baze de date de domenii: SMART, PFAM și LOAD.

Contig este prescurtare pentru secvență contiguă. Contig-urile sunt asamblate suprapuse secvențe primare. Termenul contig apare în două contexte diferite în bazele de date NCBI. Secvențele nefinalizate (diviziunea HTG) vor conține două sau mai multe contig-uri asamblate din citirile de secvențiere făcute din biblioteci de plasmide pentru acea clonă. NCBI produce, de asemenea, contig-uri realizate prin asamblarea înregistrărilor GenBank suprapuse din proiecte de genom la scară largă, cum ar fi proiectul genomului uman. Aceste contigs sunt incluse în bazele de date NCBI RefSeq și li se atribuie numere de acces începând cu prefixul NT_.

O bază de date organizată este o bază de date derivată care conține înregistrări moleculare care sunt compilate și editate din date moleculare primare de către experți care mențin și sunt responsabili pentru conținutul înregistrărilor. Baza de date Swiss-Prot este un exemplu important de baza de date cu secvențe de proteine. NCBI produce un set de date RefSeq curat neredundant de transcrieri și proteine ​​pentru organisme importante.

D

În biologia moleculară, o bază de date derivată conține informații derivate și compilate din date moleculare primare, dar include un anumit tip de informații suplimentare furnizate de curatori experți sau proceduri de calcul automatizate.

O bază de date de secvență de nucleotide primară care este menținută ca parte a Centrului pentru Biologie Informațională și a Băncii de Date ADN din Japonia (CIB/DDBJ) sub Institutul Național de Genetică (NIG) din Japonia. DDBJ a început să accepte trimiteri de secvențe ADN în 1986 și face parte din Colaborarea internațională a bazei de date a secvenței de nucleotide, care include, de asemenea, GenBank și baza de date de secvențe de nucleotide EMBL.

Un domeniu este o unitate structurală discretă a unei proteine. În principiu, domeniile proteice sunt capabile să se plieze independent de restul proteinei. Domeniile pot fi adesea identificate prin abordări nestructurale bazate pe secvențe de aminoacizi conservate. Căutarea CDD a NCBI utilizează informații din aliniamentele de secvențe multiple organizate pentru a identifica domeniile din secvențele de proteine.

Secvența nefinalizată este secvența genomică sau ADNc neterminată. Vezi HTG și HTC.

E

e-PCR este un instrument de analiză care testează o secvență ADN pentru prezența site-urilor marcate cu secvență (STS). e-PCR caută STS-uri în secvențele de ADN căutând subsecvențe care se potrivesc strâns cu primerii PCR și care au ordinea, orientarea și distanța corectă pe care le-ar putea genera în mod plauzibil amplificarea unui produs PCR de lungimea corectă.

Baza de date a Laboratorului European de Biologie Moleculară (EMBL).

O bază de date cu secvențe de nucleotide produsă și întreținută la Institutul European de Bioinformatică (EBI) din Hinxton, Marea Britanie, care colaborează cu GenBank și baza de date ADN din Japonia (DDBJ) pentru a forma Colaborarea internațională a bazei de date pentru secvențe de nucleotide.

Ensembl este un proiect comun între EBI-EMBL și Institutul Sanger pentru a furniza adnotarea automată a genomilor eucariote.

Entrez este un sistem integrat de căutare și regăsire care integrează informații din diferite baze de date la NCBI, inclusiv secvențe de nucleotide și proteine, structuri 3D și domenii structurale, genomi, date de variație (SNP), date despre expresia genelor, date de cartografiere genetică, studii de populație, OMIM, taxonomie, cărți online și literatura biomedicală.

O organizație academică non-profit care efectuează cercetări în bioinformatică și menține baza de date a secvenței de nucleotide EMBL.

O caracteristică din Vizualizatorul de hărți a genomului uman care oferă o afișare grafică a dovezilor moleculare care susțin existența unui model de genă. ev afișează secvențe de referință, ARNm GenBank, transcrieri adnotate cunoscute sau potențiale și EST care se aliniază la zona genomică de interes.

În statisticile BLAST, valoarea Expect este numărul de alinieri cu un anumit scor, sau un scor mai bun, care se așteaptă să apară întâmplător atunci când se compară două secvențe aleatorii. Relația dintre valoarea așteptată și scorul de aliniere este dată de ecuația 1

În ecuația 1, e este baza scalei logaritmului natural, n și m sunt lungimile celor două secvențe, în esență dimensiunea spațiului de căutare pentru căutarea în baza de date și K și lambda sunt factori de scalare pentru spațiul de căutare și respectiv sistemul de punctare. Scorul de biți încorporează lambda și K astfel încât scorurile să poată fi comparate în mod semnificativ atunci când sunt utilizate diferite baze de date și sisteme de punctare.

Etichetă de secvență exprimată (EST)

O secvență de ADN scurtă (300-1000 de nucleotide), cu o singură trecere, cu o singură citire, derivată dintr-o clonă de ADNc aleasă aleatoriu. Secvențele EST compun cea mai mare divizie GenBank. Există numeroase proiecte de secvențiere cu randament ridicat care continuă să producă un număr mare de secvențe EST pentru organisme importante. Multe EST sunt clasificate în clustere specifice genelor în setul de date UniGene.

F

Un instrument de căutare a asemănării secvenței dezvoltat de William Pearson și David Lipman. Termenul FASTA este folosit și pentru a identifica un format de text pentru secvențe care este utilizat pe scară largă. Un fișier de secvențe formatat FASTA poate conține mai multe secvențe. Fiecare secvență din fișier este identificată printr-un singur titlu de rând precedat de semnul mai mare decât (">"). Exemplu.

Tabelul de caracteristici este porțiunea din înregistrarea GenBank care furnizează informații despre caracteristicile biologice care au fost adnotate pe secvența de nucleotide, inclusiv regiunile codificatoare și necodante, genele, variațiile și site-urile marcate cu secvențe. International Sequence Database Collaboration produce un document care descrie și identifică caracteristicile permise pe înregistrările GenBank, DDBJ și EMBL.

Protocolul de transfer de fișiere (FTP)

FTP este un protocol de Internet standard utilizat pentru a transfera fișiere către și de la un site de rețea la distanță.

Harta cu fluorescență în hibridizare in situ (FISH).

O hartă FISH este o hartă citogenetică derivată din localizarea sondelor marcate fluorescent pe cromozomi. Genele sunt mapate în funcție de locația lor citogenetică (poziția benzii) pe cromozom.

G

GenBank este o bază de date de secvență de nucleotide primară produsă și menținută la Centrul Național pentru Informații Biotehnologice (NCBI) de la National Institutes of Health (NIH) din Bethesda, MD, SUA. GenBank colaborează cu EMBL și DDBJ pentru a forma International Nucleotide Sequence Database Collaboration.

Diviziunile GenBank sunt partiții ale datelor GenBank în categorii bazate pe originea secvenței. La început, diviziile GenBank au fost înființate astfel încât o divizie să fie un fișier în distribuția GenBank. Cu toate acestea, numărul diviziilor GenBank nu a ținut pasul cu creșterea datelor de secvență, divizia EST are acum peste 150 de fișiere. În prezent există 17 divizii GenBank.

Format GenBank Flatfile

Acesta este formatul înregistrărilor de secvență din versiunea GenBank flatfile. Acesta este un format doar text care conține mai multe intrări sau înregistrări. Fiecare înregistrare din fișierul text mare, numit și fișier plat, începe cu o linie LOCUS și se termină cu o singură linie constând dintr-o pereche de bare oblice ("//"). Termenul „format GenBank” este adesea folosit pentru a se referi la formatul înregistrărilor individuale din fișierul plat. Fiecare înregistrare conține un antet care conține identificatorii bazei de date, titlul înregistrării, referințe și informații despre expeditor. Antetul este urmat de tabelul de caracteristici și apoi de secvența în sine. Fișierul plat GenBank este descris în detaliu în notele de lansare GenBank. În sistemul Entrez, formatul GenBank este formatul de afișare implicit pentru intrările de secvențe non-bulk.

Gene Expression Omnibus (GEO)

GEO este o bază de date primară la NCBI, care este un depozit arhivat pentru date despre expresia genelor derivate din diferite platforme experimentale.

Un model de genă este o cartografiere a caracteristicilor genei, cum ar fi regiunile de codificare și limitele intronului exonului pe ADN-ul genomic al unui organism. Modelele de gene oferă de obicei o transcriere și o secvență de proteine ​​​​prevăzute. Un tip simplu de model de genă poate fi realizat prin alinierea unei secvențe exprimate (cADN) la secvența de ADN genomic. Limitele mai precise ale intronului exonului pot fi identificate prin constrângerea segmentelor aliniate folosind semnale de îmbinare consens. Acest tip de model de genă bazat pe aliniere este utilizat pentru a genera multe dintre transcrierile modelului NCBI RefSeq pentru genomi mai înalți. Caracteristicile genelor pot fi, de asemenea, prezise computațional în absența secvențelor exprimate aliniate. Cele mai simple predicții ale genelor candidate pot fi făcute pe ADN-ul genomic microbian prin căutarea unor cadre lungi de citire deschise. Căutările de similaritate a secvenței de baze de date cu traducerile prezise ale acestor ORF sunt utilizate pentru a susține aceste predicții ale genelor. Predicția genelor computaționale în genomul eucariotic superior este complicată de întreruperea regiunilor de codificare a genelor de către secvențe intrronice. Există o serie de metode care sunt utilizate în predicția genelor eucariote. NCBI folosește programul GenomeScan pentru a adnota gene presupuse pe genomul uman, șoarece și șobolan.

O hartă de legătură este o afișare ordonată a informațiilor genetice referite la grupuri de legătură (în cele din urmă cromozomi) dintr-un genom. Unitățile de cartografiere (centiMorgans) se bazează pe frecvența de recombinare între diferiți markeri polimorfi trasați printr-un pedigree. Un centiMorgan este egal cu un eveniment de recombinare la 100 de meioze.

Grupul de calculatoare genetice (GCG)

GCG este un grup de dezvoltare de software de bioinformatică, inițial la Departamentul de Genetică de la Universitatea din Wisconsin, apoi a existat ulterior ca o companie privată și a fuzionat cu Oxford Molecular, MSI și Synopsis pentru a forma colectiv Accelerys. GCG este cunoscut pe scară largă pentru pachetul său software de analiză a secvenței, cunoscut sub numele de Pachetul Wisconsin. Inițialele GCG au fost utilizate pe scară largă ca sinonim pentru acel pachet.

Secvența de cercetare a genomului (GSS)

Secvențele GSS cuprind o diviziune de secvență în vrac a GenBank. Secvențele GSS sunt în esență echivalentul genomic al EST-urilor. Divizia GSS conține prima trecere, citiri unice ale ADN-ului genomic. Înregistrările tipice GSS sunt anchetele inițiale de secvențiere și citirile finale ale clonelor de inserție mari din biblioteci genomice, secvențe genomice prinse în exon și secvențe Alu PCR.

GenomeScan este un program de predicție a genelor (algoritm) dezvoltat de Christopher Burge la Institutul de Tehnologie din Massachussetts. Acesta este algoritmul folosit la NCBI pentru a produce modele de gene pentru genomi superioare.

Numărul GI este un identificator atribuit tuturor secvențelor de la NCBI. Numărul GI indică o versiune specifică a unei înregistrări de secvență. Acest identificator este în mare măsură înlocuit de numărul accession.version pentru utilizatorii externi. GI înseamnă GenInfo, un sistem de baze de date la NCBI care a precedat sistemul Entrez.

O aliniere globală este o aliniere a secvenței care extinde lungimea completă a secvențelor care sunt comparate. Procedurile de aliniere globală vor produce de obicei o aliniere care include întreaga lungime a tuturor secvenţelor, inclusiv regiuni care nu sunt similare, şi pot fi făcute pentru a produce aliniamente fără sens între secvenţe neînrudite. Comparați cu alinierea locală.

Calea de Aur se referă la proiectele de adnotare și asamblare ale genomului uman și șoarece la Universitatea din California Santa Cruz (UCSC).

H

Secvență genomică de mare capacitate (HTG)

Secvențele HTG cuprind o diviziune Genbank care conține o secvență genomică neterminată. Înregistrările HTG sunt în mod obișnuit secvențe de ansamblu incomplete ale BAC sau alte clone de inserție mari. GenBank recunoaște patru etape de finalizare (faze) pentru aceste secvențe. Înregistrările de fază 0 conțin una sau câteva citiri cu o singură trecere ale unei clone genomice date. Înregistrările din faza 1 conțin două sau mai multe contig-uri asamblate ale datelor secvenței, totuși contig-urile sunt neordonate și neorientate și există încă lacune în secvență. Înregistrările din faza 2 conțin, de asemenea, două sau mai multe contig-uri cu goluri, dar ordinea și orientarea sunt cunoscute. Odată ce golurile de secvență sunt rezolvate și există suficientă acoperire a secvenței pentru a oferi o precizie de 99,99%, înregistrarea trece la faza 3 și părăsește divizia HTG pentru divizia GenBank taxonomică corespunzătoare, o secvență umană s-ar muta în divizia pirmate (PRI) , o secvență de șoarece la diviziunea rozătoarelor (ROD).

ADNc de mare capacitate (HTC)

HTC este o divizie GenBank care conține secvențe de ADNc. Înregistrările HTC sunt similare cu EST, dar conțin adesea mai multe informații. Spre deosebire de EST, dar la fel ca înregistrările genomic draft (HTG), secvențele HTC pot fi actualizate cu date suplimentare de secvență și pot fi mutate la divizia tradițională corespunzătoare a GenBank.

Două entități biologice (structuri sau molecule) se spune că sunt omologi (sau sunt omoloage) dacă se crede că descind dintr-o structură sau moleculă ancestrală comună. Părțile corpului și genele corespunzătoare din specii diferite sau din aceeași specie pot fi omoloage. Termenul a fost adesea extins pentru a include și secvențe. Cu toate acestea, este incorect să se raporteze o omologie relativă sau o omologie procentuală, așa cum se spune uneori despre secvențe, genele sau secvențele sunt fie omoloage, fie nu sunt. Vezi și ortholog și paralog

Comitetul de nomenclatură a genomului uman

HGNC este o organizație non-profit situată la University College din Londra, care atribuie nume și simboluri ale genelor autoritare și unice pentru toate genele umane cunoscute.

Hărți de omologie pentru șoarece uman

Hărțile de omologie ale șoarecelui uman arată regiunile cromozomilor sintetici dintre cele două organisme și permit ca secvențele corespunzătoare și alte informații înrudite să fie extrase de la un organism având în vedere o genă sau o locație a hărții în celălalt. Datele utilizate pentru a construi aceste hărți de omologie sunt derivate din ansamblurile genomului uman UCSC și NCBI și harta genomului MGD de șoarece și hărți hibride de radiație Whitehead/MRC.

I-L

ISDC implică cele trei depozite principale de secvențe de nucleotide GenBank, bazele de date DDBJ (Banca de date ADN a Japoniei) și EMBL (Laboratorul european de biologie moleculară). Fiecare bază de date are propriul set de instrumente de trimitere și recuperare, dar cele trei fac schimb de date zilnic și au standarde comune pentru trimiterea și adnotarea secvenței. Toate cele trei partajează date astfel încât toate să conțină același set de date de secvență.

Secvențele repetitive intercalate sunt în primul rând copii degenerate ale elementelor transposabile - numite și elemente mobile - care, la oameni, cuprind peste o treime din genom. Cele mai comune elemente mobile sunt LINE-urile și SINE-urile (elementele nucleare intercalate lungi și, respectiv, scurte). Familiile de repetiții Alu sunt SINE-urile primare la primate.

Elementele nucleare intercalate lungi sunt o clasă de elemente transpozabile, numite și repetare intercalate. Acestea constituie aproximativ 20% din genomul uman. O LINE obișnuită are o lungime de 6 KB și codifică o transcriptază inversă și o enzimă de buclă a ADN-ului, permițându-i să se miște în jurul genomului în mod autonom. LINE-urile sunt numite și retrotranspozoni non-LTR.

LinkOut este un serviciu de registru pentru a crea legături de la anumite articole, reviste sau date biologice din Entrez către resurse de pe site-uri web externe. Terții pot furniza o adresă URL, numele resursei, o scurtă descriere a site-ului lor web și specificarea datelor NCBI de la care ar dori să stabilească legături.

LOAD este biblioteca de domenii vechi, un număr mic de aliniamente de domenii conservate care se adaugă la matricele de punctare specifice poziției (PSSM-uri sau profiluri) în baza de date a domeniilor conservate (CDD) la NCBI. Majoritatea domeniilor din CDD provin din bazele de date SMART, Simple Modular Architecture Research Tool și Pfam.

O aliniere locală este o aliniere cu scor mare între sub-secvențe a două sau mai multe secvențe mai lungi. Spre deosebire de o aliniere globală, pot exista mai multe aliniamente locale cu scor mare între secvențe. Aliniamentele locale sunt utile pentru căutările în bazele de date, deoarece scorurile lor pot fi utilizate pentru a evalua semnificația biologică a aliniamentelor găsite. (Consultați și Scorul de aliniere și Valoarea așteptată.) Aliniamentele locale sunt produse de instrumentele populare de căutare a asemănării secvenței BLAST și FASTA.

LocusLink este o resursă NCBI care oferă o singură interfață de interogare pentru secvențe curate și informații descriptive despre loci genetici. Este un loc bun pentru a începe o căutare a informațiilor despre o anumită genă. LocusLink conține în prezent loci uman, șoarece, șobolan, pește-zebră, muscă de fructe și HIV-1.


Secvență de complexitate scăzută

Secvența de complexitate scăzută este o regiune a secvenței de aminoacizi sau nucletide cu o compoziție de reziduuri părtinitoare. Secvența de complexitate scăzută include curse homopolimerice, repetări pe perioadă scurtă și o suprareprezentare mai subtilă a unuia sau a câtorva reziduuri. Astfel de secvențe arată adesea foarte redundante, de exemplu secvența de proteine ​​PADPPPDPPPP sau secvența de nucleotide AAATTTAAAAAT. Regiunile cu complexitate scăzută pot avea ca rezultat scoruri înșelătoare la căutările de similaritate în secvențe. Aceste scoruri reflectă părtinirea compozițională mai degrabă decât o aliniere semnificativă poziție cu poziție. Programele de filtrare sunt de obicei folosite pentru a elimina aceste potriviri potențial confuze din rezultatele căutării de asemănări de secvențe. Programele NCBI BLAST au folosit filtre care înlocuiesc regiuni de complexitate scăzută din secvența de interogare cu un reziduu anonim (n pentru acid nucleic, X pentru aminoacid). Aceste regiuni sunt astfel eliminate efectiv din căutare, deoarece aceste reziduuri anonime sunt tratate ca nepotriviri de către BLAST. programe.

M

Map Viewer este o componentă software a NCBI Entrez Genomes care oferă capabilități speciale de navigare pentru genomurile organismelor superioare. Acesta permite să vizualizați și să căutați genomul complet al unui organism, să afișați hărți cromozomiale și să măriți niveluri progresiv mai mari de detaliu, până la datele secvenței. Dacă sunt disponibile mai multe hărți pentru un cromozom, acesta le afișează aliniate între ele pe baza markerului comun și a numelor genelor și, pentru hărțile secvenței, pe baza unui sistem comun de coordonate a secvenței. Numărul și tipurile de hărți disponibile variază în funcție de organism, dar includ hărți pentru: gene, contigs, calea de acoperire a BAC, STS, clone cartografiate FISH, EST, modele GenomeScan și SNP.

MEDLINE este cea mai importantă bază de date bibliografică a NLM care acoperă domeniile medicinei, asistenței medicale, stomatologiei, medicinei veterinare, sistemului de îngrijire a sănătății și științelor preclinice. MEDLINE conține citări bibliografice și rezumate ale autorilor din peste 4.600 de reviste biomedicale publicate în Statele Unite și în alte 70 de țări. Dosarul conține peste 11 milioane de citări datând de la mijlocul anului 1960. Acoperirea este la nivel mondial, dar majoritatea înregistrărilor provin din surse în limba engleză sau au rezumate în limba engleză. MEDLINE este inclus în PubMed, care conține citări suplimentare.

MegaBLAST este un instrument local de aliniere a nucleotidelor în perechi, care este optimizat pentru a găsi aliniamente lungi între secvențe aproape identice. MegaBLAST este cel mai util pentru compararea secvențelor din aceeași specie și este deosebit de potrivit pentru sarcini precum gruparea EST-urilor, alinierea clonelor genomice sau alinierea secvențelor de ADNc și ADN-ului genomic. MegaBLAST poate fi de până la 10 ori mai rapid decât multe programe standard de similaritate a secvenței, inclusiv BLAST standard nucleotidă-nucleotidă. De asemenea, gestionează eficient secvențe de ADN mult mai lungi. MegaBLAST este singurul program BLAST de pe site-ul web al NCBI care poate efectua căutări în loturi.

Model Maker este un instrument asociat cu Map Viewer, care permite vizualizarea dovezilor (mRNA-uri, EST-uri și predicții ale genelor) care au fost aliniate la secvența genomică asamblată pentru a construi un model genetic. Model Maker permite, de asemenea, editarea modelului selectând sau eliminând exoni presuputivi. Model Maker poate afișa apoi secvența ARNm și ORF-urile potențiale pentru modelul editat și poate salva datele secvenței ARNm pentru utilizare în alte programe. Model Maker este accesibil din hărțile secvențe afișate în Map Viewer. Pentru a vedea un exemplu, urmați link-ul „mm” de lângă orice genă adnotată pe harta umană „Gene_Sequence” din Map Viewer.

Baza de date cu structuri a NCBI, MMDB, conține structuri biomoleculare tridimensionale determinate experimental, obținute din Protein DataBank (PDB), modelele teoretice ale PDB nu sunt importate. MMDB a fost proiectat pentru flexibilitate și, ca atare, este capabil să arhiveze date structurale convenționale, precum și descrieri viitoare ale biomoleculelor, cum ar fi cele generate de microscopia electronică (modele de suprafață). Majoritatea datelor de structură 3D sunt obținute din cristalografie cu raze X și spectroscopie RMN.

Un motiv este o secvență scurtă de nucleotide sau aminoacizi, bine conservată, care reprezintă un domeniu funcțional minim. Este adesea un consens pentru mai multe secvențe aliniate. Baza de date PROSITE este o colecție populară de motive proteice, inclusiv motive pentru situsurile catalitice enzimatice, situsurile de atașare a grupului protetic (heme, biotină etc.) și regiuni implicate în legarea unei alte proteine. Exemple de motive ADN sunt situsurile de legare a factorului de transcripție.

N

NCBI este o divizie a Bibliotecii Naționale de Medicină de la National Institutes of Health din Bethesda, MD. NCBI a fost înființat în 1988 pentru a crea sisteme automate pentru stocarea și analizarea cunoștințelor despre biologie moleculară, biochimie și genetică pentru a sprijini utilizarea unor astfel de baze de date și software de către comunitatea științifică pentru a coordona eforturile de a colecta informații despre biotehnologie atât la nivel național, cât și internațional și pentru a efectua cercetare în biologie computațională. În prezent, NCBI menține baza de date GenBank împreună cu mai multe baze de date conexe.

Institutul Național de Genetică (NIG) a fost înființat în 1949 în Mishima, Japonia și reorganizat în 1988 ca institut de cercetare interuniversitară în genetică. Institutul oferă în prezent studii postuniversitare în genetică și menține, de asemenea, Banca de date ADN a Japoniei.

Neredundant este un termen folosit pentru a descrie bazele de date cu secvențe de nucleotide sau aminoacizi care conțin doar o copie a fiecărei secvențe unice. Bazele de date neredundante au avantajul unei dimensiuni mai mici și, prin urmare, a unor timpi de căutare mai scurti și a unor statistici mai semnificative. Baza de date implicită de pe majoritatea paginilor web cu proteine ​​BLAST este etichetată „nr”. Aceasta este o bază de date neredundantă în care mai multe copii ale aceleiași secvențe, cum ar fi secvențele corespunzătoare ale aceleiași proteine ​​de la SWISS-PROT, PIR și GenPept, sunt combinate pentru a face o intrare de secvență. Baza de date implicită de nucleotide de pe pagina web standard de nucleotide-nucleotide BLAST este de asemenea etichetată „nr”, dar nu mai este o bază de date neredundantă.

O

Moștenirea online mendeliană la om (OMIM)

OMIM este un catalog de gene umane și tulburări genetice, scris și editat de Dr. Victor A. McKusick și colegii săi de la Johns Hopkins și din alte părți, și dezvoltat pentru World Wide Web de NCBI. Baza de date conține informații textuale, referințe și legături abundente către MEDLINE și înregistrări de secvență în sistemul Entrez al NCBI, plus link-uri către resurse suplimentare conexe la NCBI și în alte părți.


Cadru de citire deschis (ORF)

Un ORF este o secvență de ADN (sau ARNm) care este potențial capabilă să codifice o polipeptidă. ORF-urile încep cu un codon de început (ATG) și sunt citite în tripleți până când se termină cu un codon STOP (TAA, TGA sau TAG în codul standard). Găsitorul NCBI ORF este util pentru identificarea ORF-urilor în ADNc sau în ADN-ul genomic fără intron.

Ortologii sunt gene derivate dintr-un strămoș comun prin descendență verticală. Aceasta este adesea menționată ca aceeași genă la specii diferite. În schimb, paralogii sunt gene din același genom care au evoluat prin duplicare.

Genele hemoglobinei sunt un bun exemplu. Două gene separate (proteine) alcătuiesc molecula hemoglobină (alfa și beta). Secvențele de ADN alfa și beta sunt foarte asemănătoare și se crede că au apărut din duplicarea unei singure gene, urmată de evoluție separată în fiecare dintre secvențe. Alfa și beta sunt considerate paralogi. Hemoglobinele alfa din diferite specii sunt considerate ortologi.

P

Matricea originală de punctare a procentului de mutație acceptată (vezi M.O. Dayhoff, ed., 1978, Atlas al secvenței și structurii proteinelor, Vol. 15) a fost derivat din observarea cât de des diferiți aminoacizi înlocuiesc alți aminoacizi în evoluție și s-a bazat pe un set de date relativ mic de 1.572 de modificări în 71 de grupuri de proteine ​​strâns legate. Mai mult, valorile matricei se bazează pe modelul conform căruia o secvență este derivată din cealaltă printr-o serie de mutații independente, fiecare schimbând un aminoacid în prima secvență cu un alt aminoacid în a doua. PAM250 a fost o matrice foarte populară, dar este adesea înlocuită acum de seria de matrici BLOSUM, în special atunci când se caută proteine ​​mai îndepărtate. Matricele PAM cu număr mai mic corespund aproximativ matricelor BLOSUM numerotate mai mari.

Paralogii sunt de obicei descriși ca gene din același genom care au evoluat prin duplicare. Vezi Ortholog.

Pfam este o bază de date de regiuni sau domenii de proteine ​​conservate. Este una dintre cele trei baze de date care alcătuiesc baza de date pentru domenii conservate (CDD) a NCBI. Celelalte două sunt SMART și LOAD.

Un PopSet este un set de secvențe ADN care au fost colectate pentru a analiza relația evolutivă a unei populații. Populația ar putea proveni din diferiți membri ai aceleiași specii sau din organisme din specii diferite. Acestea sunt trimise la GenBank prin programul Sequin, adesea ca o aliniere a secvenței.


Poziția lovită inițiată BLAST (PHI-BLAST)

PHI-BLAST este o variantă a BLAST care este concepută pentru a căuta proteine ​​care conțin ambele un model specificat de utilizator și sunt similare cu secvența de interogare din vecinătatea modelului. Această cerință dublă este menită să reducă numărul de accesări la baza de date care conțin modelul și este probabil să nu aibă o omologie adevărată cu interogarea.


BLAST iterat specific pentru poziție (PSI-BLAST)

PSI-BLAST este un derivat al proteinei-proteinei BLAST care este mai sensibil deoarece încorporează rate de substituție specifice poziției în sistemul de scor. Acest lucru face ca PSI-BLAST să fie util pentru găsirea de proteine ​​foarte îndepărtate. PSI-BLAST funcționează prin generarea mai întâi a unei matrice de scoruri specifice poziției (PSSM) din secvențele găsite dintr-o căutare BLAST standard. Baza de date este apoi căutată cu PSSM. PSI-BLAST poate fi rulat în mai multe iterații, un nou PSSM fiind realizat din noile informații colectate din căutarea anterioară.


Matricea de punctare specifică poziției (PSSM)

Un PSSM este o matrice de punctare de aliniere care oferă scoruri de substituție pentru fiecare poziție dintr-o secvență de proteine. PSSM-urile se bazează adesea pe frecvențele fiecărei substituții de aminoacizi la fiecare poziție de aliniere a secvenței proteinelor. Acest lucru dă naștere unei matrice de punctaj care are lungimea aliniamentului ca o dimensiune și posibilele substituții în cealaltă. Într-un PSSM o anumită substituție, de exemplu Ser care înlocuiește Thr, poate avea un scor diferit la diferite poziții din aliniament. Acest lucru este în contrast cu o matrice independentă de poziție precum BLOSUM62, în care substituția Ser Thr obține același scor, indiferent de locul în care apare în proteină. PSSM-urile sunt modele mai realiste pentru secvențele de proteine ​​înrudite, deoarece se așteaptă ca ratele de substituție să varieze pe lungimea unei proteine, unele poziții aliniate, cum ar fi reziduurile site-ului activ, sunt mai importante decât altele.

În contextul aliniamentelor afișate în ieșirea BLAST, pozitivele sunt acele substituții neidentice care primesc un scor pozitiv în matricea de punctare de bază, BLOSUM62 în mod implicit. Cel mai adesea, pozitivele indică o substituție conservatoare sau substituții care sunt adesea observate în proteinele înrudite.

O bază de date de secvențe primare conține secvențe trimise de cercetătorii care au produs inițial datele. În bazele de date cu secvențe primare, cei care trimit secvența controlează conținutul și dipunerea datelor. GenBank este un exemplu de bază de date primară. Conținutul, acuratețea și actualizarea secvențelor GenBank sunt în mare parte responsabilitatea celui care trimite. Acest lucru este în contrast cu o bază de date organizată, cum ar fi RefSeq sau SWISS-PROT, în care informații suplimentare sunt adăugate la fiecare înregistrare de către personalul care întreține baza de date.

ProbeSet este o vedere prin experiment a Gene Expression Omnibus (GEO) al NCBI, care este un depozit de matrice de expresie genetică și hibridizare. ProbeSet este destinat să faciliteze căutările în baza de date GEO și să lege rezultatele căutării la resurse interne și externe, acolo unde este posibil.

Potrivirile de proteine ​​pentru EST (ProtEST) sunt cele mai bune potriviri de proteine ​​cu traducerile secvențelor EST din UniGene. Secvențele de nucleotide (ARNm, precum și EST) sunt potrivite cu posibili produși de translație prin compararea secvenței folosind BLASTX cu o valoare așteptată de 1x10-6. Secvențele sunt comparate cu proteinele de la opt organisme și se înregistrează cea mai bună potrivire din fiecare organism. Secvențele de nucleotide UniGene pot avea astfel până la opt potriviri în ProtEST.
Pentru a exclude secvențele de proteine ​​care sunt traduceri sau modele strict conceptuale, proteinele utilizate în ProtEST sunt cele care provin din bazele de date structurale SwissProt, PIR, PDB sau PRF.

PDB este depozitul pentru procesarea și distribuția datelor de structură macromoleculară biologică 3-D. În aprilie 2002, PDB conținea aproape 18.000 de structuri, inclusiv peste 1.000 de acizi nucleici și 400 de modele teoretice. Cu excepția modelelor teoretice, datele PDB sunt utilizate pentru a produce baza de date cu structură a NCBI, MMDB și sunt incluse în bazele de date implicite BLAST ("nr").

PIR este o bază de date cu secvențe de proteine, produsă și întreținută de Fundația Națională de Cercetare Biomedicală de la Universitatea Georgetown din Washington, D.C. Secvențele de proteine ​​PIR sunt incluse în baza de date BLAST „nr” și în sistemul de proteine ​​Entrez. PIR conține peste 200.000 de intrări.

PRF este o bază de date cu secvențe de proteine ​​menținută în Osaka, Japonia și este una dintre bazele de date de proteine ​​incluse în căutările în baza de date BLAST „nr” și în sistemul de proteine ​​Entrez. Ediția 84, martie 2002, inclusă
195.660 de intrări.

PubMed, un serviciu al Bibliotecii Naționale de Medicină, oferă acces la peste 11 milioane de citate MEDLINE, din peste 4.300 de reviste biomedicale publicate în Statele Unite și în alte 70 de țări. Citările acoperă domeniile medicinei, asistenței medicale, stomatologiei, medicinei veterinare, sistemului de sănătate și științelor preclinice și datează de la mijlocul anilor 1960. PubMed include reviste de științe ale vieții suplimentare care nu se găsesc în MEDLINE, precum și link-uri către multe site-uri care oferă articole cu text integral și alte resurse conexe.

Q-R

Harta hibridului de radiații (RH).

O hartă hibridă de radiații este o hartă a genomului fizic bazată pe STS, produsă prin spargerea mai întâi a cromozomilor unei linii celulare donatoare cu o doză letală de radiații și apoi salvarea celulelor prin fuziune cu o linie celulară primitoare. Distanțele dintre markeri sunt măsurate în centirays (cR), cu 1 cR reprezentând o probabilitate de 1% ca o întrerupere a avut loc între doi markeri.

RasMol este un pachet software de redare a structurii produs la Universitatea din Massachusetts. RasMol interpretează formatul nativ al fișierelor de structură din PDB.

Un scor brut în ieșirea BLAST este scorul nenormalizat al unei alinieri a unei interogări și a secvenței țintă. Scorul brut este derivat direct din matricea de scor prin însumarea scorurilor de substituție individuale ale reziduurilor aliniate în aliniere. Pentru BLAST cu decalaj, scorul brut include și penalizări pentru distanță.

Polimorfismele de nucleotidă unică de referință (refSNP) sunt înregistrări dbSNP curate care definesc un set neredundant de markeri utilizați pentru adnotarea secvenței genomului de referință și integrarea cu alte resurse NCBI. Fiecare înregistrare refSNP oferă o listă rezumată a înregistrărilor emitenților în dbSNP și o listă de legături de resurse externe și baze de date.

Secvențele de referință sunt înregistrări de nucleotide sau proteine ​​dezvoltate de personalul NCBI. Ei încearcă să rezume informațiile disponibile despre o anumită secvență și să ofere cea mai fiabilă și actualizată secvență și adnotare. RefSeq-urile includ transcrieri și proteine ​​curate, ARN-uri de transcriere necodificatoare, ansambluri contig și supercontig, modele de gene și înregistrări cromozomiale.

BLAST specific pentru poziție inversă (RPS-BLAST)

RPS-BLAST este o variație a BLAST în care o secvență de interogare a proteinei este căutată într-o bază de date de matrici de scoruri specifice poziției precalculate, așa cum este utilizat în PSI-BLAST. Acest tip de căutare formează baza Căutării pe CD.

SF

O aliniere a secvenței este o comparație reziduu cu reziduu a două sau mai multe secvențe. În aliniere, pozițiile relative ale secvențelor sunt ajustate pentru a optimiza (de obicei maximiza) scorul de aliniere derivat prin referire la o matrice de scor. În unele cazuri, goluri cu penalizări asociate pot fi inserate într-una sau mai multe secvențe pentru a optimiza scorul de aliniere.

Secvență Tagged Site STS

STS sunt înregistrări de secvențe care conțin o secvență scurtă de ADN genomic care poate fi amplificată în mod unic prin reacția în lanț a polimerazei (PCR) folosind o pereche de primeri. Secvențele primerului și condițiile PCR sunt de obicei incluse în înregistrare. Site-urile marcate cu secvențe cuprind divizia STS GenBank. Acești markeri sunt utilizați în tehnicile de cartografiere hibridă de legături și radiații. Ele sunt utile pentru integrarea acestor tipuri de date de cartografiere între ele și, de asemenea, cu secvența genomică asamblată. Instrumentul ePCR este util pentru identificarea markerilor STS cunoscuți într-o secvență de ADN.

Sequin este un pachet de aplicații de sine stătător produs de NCBI, care este o platformă pentru pregătirea și adnotarea secvențelor pentru transmiterea către GenBank.

Analiza în serie a expresiei genelor (SAGE)

SAGE este o metodă experimentală de generare a unei biblioteci de ADNc care conține fragmente scurte concatenate (de obicei zece baze) numite etichete ale tuturor speciilor de ADNc prezente în bibliotecă. Aceste etichete pot fi numărate pentru a da o măsură cantitativă a expresiei genelor în bibliotecă. Resursele NCBI SAGE Map potrivesc secvențele de etichete SAGE cu clusterul UniGene pentru a identifica genele exprimate în bibliotecile SAGE și pentru a oferi mai multe mecanisme pentru explorarea modelelor de expresie relative în bibliotecile SAGE.

Secvențierea Shotgun este o metodă de secvențiere în care o clonă genomică mare este divizată în segmente mici care sunt apoi subclonate și secvențiate aleatoriu. Odată ce au fost secvențiate suficiente clone aleatorii, aceste sub-secvențe aleatoare sunt apoi asamblate pentru a stabili secvența de inserție mare. În unele cazuri, un întreg genom poate fi fragmentat și donat în vectori de inserție mici fără a fi mai întâi donat și aranjat în vectori de inserție mari. Această ultimă tehnică se numește secvențierea genomului întreg și a fost utilizată cu succes cu mulți genomi mai mici și a furnizat ansambluri preliminare importante pentru genomul uman, șoarece și orez.

SINEs (Short Interpersed Repeats) sunt elemente repetate transpozabile în genomul uman care sunt de obicei 100-400 bp, adăpostesc un promotor intern al polimerazei III și nu codifică proteine.

Polimorfismul cu un singur nucleotid (SNP)

Strict vorbind, un SNP este o variație sau polimorfism în secvența genomului care implică o singură poziție de nucleotidă. NCBI menține dbSNP ca depozit primar de date SNP. Datele SNP la NCBI includ, de asemenea, unele variații care implică mai multe poziții, cum ar fi polimorfisme repetate.

Baza de date pentru cariotiparea spectrală și hibridizarea genomică comparativă (baza de date SKY/CHG)

SKY/CHG este un depozit de date transmise public de la SKY și CGH, care sunt tehnici citogenetice moleculare fluorescente complementare. SKY facilitează identificarea aberațiilor cromozomiale CGH poate fi utilizată pentru a genera o hartă a modificărilor numărului de copii ale ADN-ului în genomul tumorii.

SMART (Simple Modular Architecture Retrieval Tool) este o bază de date de domenii conservate care permite identificarea și adnotarea automată a domeniilor în secvențele de proteine ​​furnizate de utilizator. Datele SMART sunt utilizate pentru a crea unul dintre seturile de PSSM utilizate în CD-Search.

Algoritmul Smith Waterman

Algoritmul Smith-Waterman este un protocol de calcul de aliniere locală care utilizează programarea dinamică pentru a găsi toate aliniamentele locale posibile cu scoruri ridicate între o pereche de secvențe. Acesta este cel mai sensibil algoritm de aliniere locală, dar este prea costisitor din punct de vedere computațional pentru a fi util în general pentru căutări cu randament mare ale bazelor de date cu secvențe mari. Programele BLAST și FASTA sunt utilizate în general în aceste tipuri de aplicații.

SWISS-PROT este o bază de date foarte bine îngrijită de secvențe de proteine, înființată în 1986 și întreținută în prezent de Institutul Elvețian de Bioinformatică și Institutul European de Bioinformatică (EBI).

TaxBrowser este un aspect al sistemului Entrez care permite să răsfoiți înregistrările de secvență, genom și structură pe baza clasificării taxonomice a organismului sursă. Browserul de taxe permite accesul la toate nivelurile ierarhiei taxomice și poate fi folosit pentru a achiziționa înregistrări la orice nod taxomic.

TrEMBL (Translated EMBL) este un set de date derivate de proteine ​​care este un supliment adnotat automat pentru SWISS-PROT. trEMBL conține toate traducerile regiunilor codificatoare ale intrărilor de secvență de nucleotide EMBL. Setul de date trEMBL servește ca o sursă de proteine ​​care pot fi în cele din urmă încorporate în SWISS-PROT.

U-Z

O bază de date creată și menținută la NCBI ca sistem experimental pentru partiționarea automată a secvențelor de nucleotide exprimate într-un set neredundant de clustere orientate pe gene. Fiecare cluster UniGene conține secvențe care reprezintă o genă unică, precum și informații aferente, cum ar fi locația hărții și tipurile de țesuturi în care a fost exprimată gena. UniGene este deosebit de important pentru reducerea redundanței și complexității datelor EST și este o resursă importantă. pentru descoperirea genelor.

O resursă creată și întreținută la NCBI care raportează informații despre site-urile etichetate în secvență (STS). Pentru fiecare STS, UniSTS afișează secvențele primerului, dimensiunea produsului și informațiile de mapare, precum și referințe încrucișate la alte baze de date NCBI.

Instrument de căutare pentru aliniere vectorială (VAST)

Un algoritm creat la NCBI care caută structuri tridimensionale care sunt similare geometric cu o structură de interogare, reprezentând mai întâi elementele structurii secundare ale fiecărei structuri ca vectori și apoi încercând să alinieze aceste seturi de vectori. VAST este utilizat la NCBI pentru a stabili relații între structuri și pentru a crea aliniamente structurale în sistemul Entrez.

Un parametru al algoritmului BLAST care determină lungimea segmentelor de reziduu (fie nucleotide, fie aminoacizi) în care BLAST împarte secvența de interogare. Dicționarul rezultat de „cuvinte” este apoi folosit pentru a căuta în baza de date a secvenței selectate.

Cromozom artificial de drojdie (YAC)

Un YAC este un cromozom artificial funcțional (auto-replicator) utilizat pe scară largă ca vector pentru clonele genomice în proiecte de secvențiere care implică genomi mari. După cum sugerează și numele, YAC-urile sunt propagate în drojdie (Saccharomyces). O clonă tipică YAC poate conține fragmente de până la

2 Mb. O problemă majoră cu clonele YAC este tendința de a se rearanja în gazdă. Tehnologia YAC a fost în mare măsură înlocuită de vectori de clonare BAC.


Rezultate

Mai întâi descriem principalele caracteristici ale matricei LG astfel estimate și apoi comparăm performanța acesteia în inferența arborescentă cu alte câteva matrice de înlocuire cu opțiuni și seturi de date diferite.

Matrice de înlocuire LG

După cum sa menționat mai sus, matricea LG (așa cum este estimată folosind procedura de mai sus) este definită de 3 componente: rata globală (ρ), distribuția de echilibru a aminoacizilor (Π) și matricea de schimbabilitate (R). Descriem pe rând fiecare dintre aceste componente.

Rata globală (ρ) este egală cu 1,11 și 1,07 pentru prima (LG1) și, respectiv, a doua (LG2). Acest lucru indică faptul că LG este la nivel global mai rapid decât WAG, dar este dificil de extrapolat proprietățile LG din aceste constatări. Pentru a studia rata LG în inferența arborelui, măsurăm astfel lungimea arborelui obținută cu versiunea normalizată a LG și cu WAG, ambele utilizate cu 4 categorii gamma și site-uri invariante. Rezultatele sunt afișate în tabelul 1 pentru alinierea testelor Pfam și TreeBase. Acest tabel oferă, de asemenea, o comparație între LG și WAG în ceea ce privește estimarea parametrului de formă gamma (α). Aceste rezultate evidențiază o diferență clară între LG și WAG: arborii LG sunt în medie cu 10-15% mai lungi decât arborii WAG, iar această constatare este observată cu aproape toate aliniamentele de testare. De asemenea, observăm că variabilitatea ratelor între site-uri este mai mare (α este mai mică) cu LG decât cu WAG și, din nou, acest lucru se observă la majoritatea aliniamentelor. Ambele constatări sunt consecvente pe măsură ce distanțele evolutive și lungimile ramurilor cresc atunci când valoarea α scade. Vom vedea că arborii LG tind să fie, de asemenea, mai probabil decât arborii WAG. Toate acestea înseamnă că LG caracterizează mai bine tiparele evolutive decât WAG și astfel surprinde mai multe substituții ascunse, ceea ce are ca rezultat arbori mai lungi (pentru o discuție despre lungimea arborelui și valoarea probabilității, vezi Pagel și Meade 2005).

Comparație între WAG și LG în ceea ce privește lungimea arborelui și parametrul de formă gamma

NOTĂ.—LG și WAG sunt rulate cu PHYML utilizând opțiunea Γ4 + I pe aliniamentele de testare TreeBase și Pfam. Lungimea arborelui este suma tuturor lungimilor ramurilor α denotă parametrul de formă gamma LG/WAG este media raporturilor dintre valorile LG și WAG, pe toate aliniamentele. #LG > WAG numără numărul de aliniamente în care valoarea LG este mai mare decât valoarea WAG, între 59 și 500 de aliniamente pentru TreeBase și, respectiv, Pfam. Testul semnelor indică faptul că toate aceste numărări relevă diferențe foarte semnificative între LG și WAG (p-valoare ≈ 0,0).

Comparație între WAG și LG în ceea ce privește lungimea arborelui și parametrul de formă gamma


Priveste filmarea: Problemă de probabilitate cu extragerea bilelor dintr-un coș. (Ianuarie 2022).