Fehérjecsalád
A fehérjecsalád evolúciósan rokon fehérjék csoportja. Sokszor a fehérjecsaládnak megfelelő géncsaládja van, ahol minden gén a megfelelő fehérjét kódolja egyértelmű kapcsolattal.
Az azonos családba tartozó fehérjék közös őstől származnak, és 3 dimenziós szerkezetük, funkcióik hasonlóak, szekvenciahomológiájuk jelentős.[1][2] Az (általában aminosav-) szekvenciák homológiája az egyik leggyakoribb homológia- vagy közösevolúciósős-mutató.[3][4] A szekvenciarendezéssel történő hasonlóságelemzés gyakran használatos. A közös ős nélküli fehérjék ritkán mutatnak statisztikailag jelentős szekvenciahasonlóságot, így a szekvenciarendezéssel azonosíthatók a fehérjecsaládok tagjai.[3][4] A családokat néha szerkezeti hasonlóság alapján nagyobb kládokba, szupercsaládokba rendezik szerkezeti hasonlóság alapján akkor is, ha nincs jelentős szekvenciahomológia.
Több mint 60 000 fehérjecsalád ismert,[5] de a fogalom többértelműsége eltérő számokat okoz a kutatásokban.
Terminológia és használat
szerkesztésSok biológiai fogalomhoz hasonlóan a fehérjecsalád használata kontextusfüggő – jelenthet alacsony szekvenciahomológiájú nagy, közel azonos szekvenciájú, szerkezetű és működésű kis vagy a kettő közti csoportokat. Ezek megkülönböztetésére használatos a szupercsalád fogalma, mely távoli rokon fehérjéket tartalmaz, melyek rokonsága szekvenciahasonlósággal nem, csak közös szerkezeti jellemzőkkel mutatható ki.[6][7][8] Ezek hierarchikusan használhatók: legfelül vannak a távoli rokon fehérjéket gyakran szerkezeti hasonlóság alapján csoportosító szupercsaládok,[9] ezt követik a családok, melyek közös evolúciós eredet és jelentős szekvenciahomológia alapján tartalmazzák a fehérjéket,[2][10] néha pedig tovább csoportosítják alcsaládokba, melyek közeli hasonló vagy azonos funkciójú rokon fehérjék kis csoportjai.[11] Így egy szupercsalád, például a PA klán kisebb szekvenciahomológiát mutat, mint egy családja, a C04 család.
Fehérjedomének és -motívumok
szerkesztésA fehérjecsalád-fogalom megjelenésekor még kevés fehérjeszerkezet vagy -szekvencia volt ismert. Ekkor a legtöbb ismert szerkezetű fehérje kis egydoménes fehérje volt, amilyen például a mioglobin, a hemoglobin és a citokróm c. Később sok több független szerkezeti és funkciós részt, domént tartalmazó fehérjét találtak. Az evolúciós keveredés miatt a fehérjék különböző doménjei függetlenül fejlődtek, ez a fehérjedomén-családokra való összpontosításhoz vezetett. Számos internetes forrás célja ilyen domének azonosítása és rendszerezése.[12][13]
A fehérjék különböző részei különböző funkciós korlátokkal rendelkeznek. Például egy enzim aktív helye bizonyos aminosavak megfelelő háromdimenziós elrendezését igényli. Egy fehérje-fehérje kötőfelület azonban az aminosav-polaritásra vonatkozó korlátokkal rendelkező nagy felület is lehet. A funkciós korlátokkal rendelkező fehérjerészek lassabban fejlődnek a nem korlátozottaknál, például a felszíni gyűrűknél, eltérő állandósult szekvenciájú szakaszokat lehetővé téve a fehérjecsalád szekvenciáinak vizsgálatakor. Ezek a motívumok, de más fogalmak (blokk, aláírás, ujjlenyomat stb.) is használatosak. Ezek azonosítása és rendszerezése is sok forrás célja.[14]
Fehérjecsaládok evolúciója
szerkesztésA 2024-ig ismert kutatások szerint fehérjecsaládok kétféleképp jelenhetnek meg. Az egyik, ha egy szülőfaj két genetikailag izolált utódfajjá válása lehetővé teszi egy gén/fehérje független változásainak (mutáció) felgyülemlését e két fajban. Ez ortológ fehérjéket eredményez állandósult szekvenciamotívumokkal. A másik, ha a génduplikáció új génmásolatot (paralóg) hoz létre. Mivel az eredeti gén továbbra is működik, paralógja divergálhat, és új funkciókat szerezhet véletlen mutációval.
Egyes gén/fehérjecsaládok, különösen az eukariótákéi jelentősen bővülnek és szűkülnek az evolúció során, gyakran teljes genomduplikációkkal együtt. A bővülések ritkábbak, a szűkülések gyakoribbak a rendezetlen fehérjékben és a szekvenciában az optimális diszperziónál távolabbi hidrofób aminosavakkal rendelkező fehérjedoménekben.[15] Ez a genomfejlődés fontos jellemzője, de fontossága és megjelenése ismeretlen.
Használata és fontossága
szerkesztésA szekvenált fehérjék számának és a proteomelemzésben való érdeklődés növekedésével a fehérjék családokba rendezése és doménjeik és motívumaik leírása folyamatban van. A fehérjecsaládok megbízható azonosítása fontos a filogenetikai elemzéshez, a funkciójelöléshez, valamint a fehérjefunkciók diverzitásának felfedezéséhez fontos. Az Enzimfunkciós Kezdeményezés fehérjecsaládokat és -szupercsaládokat használ a szekvencia/szerkezetalapú stratégia fejlesztéséhez az ismeretlen funkciójú enzimek funkciójának megismeréséhez.[16] Az algoritmikus módszer a hasonlóságon alapul.
Fehérjecsalád-források
szerkesztésSok biológiai adatbázis fehérjecsaládok példáit tárolja, és lehetővé teszi az új fehérjék családba sorolását. Ilyenek például:
- Pfam – Elrendezéssel és HMM-ekkel működő adatbázis
- PROSITE – Fehérjedomének, -családok és funkciós helyek adatbázisa
- PIRSF – Szupercsalád-osztályzó rendszer
- PASS2 - Protein Alignment as Structural Superfamilies v2 - PASS2@NCBS[17]
- SUPERFAMILY – HMM-könyvtár szupercsaládok bemutatásával, szupercsalád- és családjelölések adatbázisa teljesen szekvenált genomokhoz
- SCOP és CATH – Fehérjeszerkezetek besorolása szupercsaládokba, családokba és doménekhez
Ugyanígy sok adatbázis-kereső algoritmus van, például:
- BLAST – DNS-szekvenciahasonlóság-keresés
- BLASTp – Fehérjeszekvenciahasonlóság-keresés
- OrthoFinder – fehérjéket családokba soroló módszer[18][19]
Jegyzetek
szerkesztés- ↑ What are protein families? Protein classification (angol nyelven). EMBL-EBI . (Hozzáférés: 2023. november 14.)
- ↑ a b Orengo, Christine. Introduction, Protein Families: Relating Protein Sequence, Structure, and Function (angol nyelven). Hoboken, New Jersey: John Wiley & Sons, Inc., vii-xi. o.. DOI: 10.1002/9781118743089.fmatter (2013). ISBN 9781118743089
- ↑ a b Pearson, William R. (2013). „An Introduction to Sequence Similarity (“Homology”) Searching”. Current Protocols in Bioinformatics 3. DOI:10.1002/0471250953.bi0301s42. ISSN 1934-3396. PMID 23749753. PMC 3820096.
- ↑ a b Chen, Junjie (2018. március 1.). „A comprehensive review and comparison of different computational methods for protein remote homology detection”. Briefings in Bioinformatics 19 (2), 231–244. o. DOI:10.1093/bib/bbw108. ISSN 1477-4054. PMID 27881430.
- ↑ Kunin, Victor (2003). „Myriads of protein families, and still counting”. Genome Biology 4 (2), 401. o. DOI:10.1186/gb-2003-4-2-401. ISSN 1474-760X. PMID 12620116. PMC 151299.
- ↑ Dayhoff, MO (1974. december 1.). „Computer analysis of protein sequences”. Federation Proceedings 33 (12), 2314–6. o. PMID 4435228.
- ↑ Dayhoff, MO (1975). „Evolution of sequences within protein superfamilies”. Die Naturwissenschaften 62 (4), 154–161. o. DOI:10.1007/BF00608697.
- ↑ Dayhoff, MO (1976. augusztus 1.). „The origin and evolution of protein superfamilies”. Federation Proceedings 35 (10), 2132–8. o. PMID 181273.
- ↑ Orengo, Christine A. (2005. június 1.). „Protein Families and Their Evolution—A Structural Perspective” (angol nyelven). Annual Review of Biochemistry 74 (1), 867–900. o. DOI:10.1146/annurev.biochem.74.082803.133029. ISSN 0066-4154. PMID 15954844.
- ↑ Veeramachaneni, Vamsi (2004). „Visualizing Sequence Similarity of Protein Families”. Genome Research 14 (6), 1160–1169. o. DOI:10.1101/gr.2079204. ISSN 1088-9051. PMID 15140831. PMC 419794.
- ↑ Holm, Liisa. Automated Sequence-Based Approaches for Identifying Domain Families, Protein Families: Relating Protein Sequence, Structure, and Function. Hoboken, New Jersey: John Wiley & Sons, Inc., 1-24. o.. DOI: 10.1002/9781118743089.ch1 (2013). ISBN 9781118743089
- ↑ Wang, Yan (2021. január 1.). „Protein domain identification methods and online resources”. Computational and Structural Biotechnology Journal 19, 1145–1153. o. DOI:10.1016/j.csbj.2021.01.041. ISSN 2001-0370. PMID 33680357. PMC 7895673.
- ↑ Bateman, Alex. Sequence Classification of Protein Families: Pfam and other Resources, Protein Families: Relating Protein Sequence, Structure, and Function (angol nyelven). Hoboken, New Jersey: John Wiley & Sons, Inc., 25-36. o.. DOI: 10.1002/9781118743089.ch2 (2013). ISBN 9781118743089
- ↑ Mulder, Nicola J. (2001. december 19.). „Tools and resources for identifying protein families, domains and motifs”. Genome Biology 3 (1), reviews2001.1. o. DOI:10.1186/gb-2001-3-1-reviews2001. ISSN 1474-760X. PMID 11806833. PMC 150457.
- ↑ James, Jennifer E (2023. április 4.). „Differential Retention of Pfam Domains Contributes to Long-term Evolutionary Trends”. Molecular Biology and Evolution 40 (4). DOI:10.1093/molbev/msad073. PMC 10089649.
- ↑ Gerlt, John A. (2011. november 22.). „The Enzyme Function Initiative” (angol nyelven). Biochemistry 50 (46), 9950–9962. o. DOI:10.1021/bi201312u. ISSN 0006-2960. PMID 21999478. PMC 3238057.
- ↑ Gandhimathi, A. (2012). „PASS2 version 4: An update to the database of structure-based sequence alignments of structural domain superfamilies”. Nucleic Acids Research 40 (D1), D531–D534. o. DOI:10.1093/nar/gkr1096. ISSN 1362-4962. PMID 22123743. PMC 3245109.
- ↑ Emms, David M. (2015. augusztus 6.). „OrthoFinder: Solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy”. Genome Biology 16 (1), 157. o. DOI:10.1186/s13059-015-0721-2. ISSN 1474-760X. PMID 26243257. PMC 4531804.
- ↑ Emms, David M. (2019. november 14.). „OrthoFinder: Phylogenetic orthology inference for comparative genomics”. Genome Biology 20 (1), 238. o. DOI:10.1186/s13059-019-1832-y. ISSN 1474-760X. PMID 31727128. PMC 6857279.