Sekwencjonowanie niewiedzy
Medialne „łamanie kodu” i inne banialuki.
Przy okazji epidemii świńskiej grypy typu A wywołanej wirusem H1N1 mamy całą lawinę informacji medialnych o łamaniu kodu genetycznego. To zaś dowód na medialną epidemię amnezji. Kod genetyczny bowiem złamał w latach 60. XX wieku Marshal Nirenberg, za co dostał Nagrodę Nobla w roku 1968.
„Dziennik” donosi, że brytyjscy naukowcy „rozpracowali kod genetyczny wirusa„. „Gazeta Wyborcza” ma jeszcze lepszą wiadomość, mianowicie według niej „naukowcy poznali genetyczny kod grypy A.H1N1„. „Rzeczpospolita” daje zaś tryumfalny tytuł: „Kod genetyczny złamany. Niedługo szczepionka„.
Z tych doniesień prasowych można wysnuć wniosek, że cała robota Nirenberga poszła na marne. Jedno z największych odkryć współczesnej biologii wydaje się zupełnie zapomniane lub ignorowane. A przecież od ponad 40 lat wiadomo, że kod genetyczny jest identyczny (z małymi wyjątkami np. u pierwotniaków) u wszystkich żyjących na Ziemi organizmów, od wirusów do człowieka.
Medialne „łamanie kodu” to po prostu odczytanie sekwencji nukleotydów RNA wirusa. Tak naprawdę nie ma mowy o łamaniu czegokolwiek. Jest tylko zsekwencjonowanie lub odczytanie informacji genetycznej. Przeczytałem ostatnio książkę Milana Kundery „Spotkanie”. Gdybym chciał użyć prasowego języka, to musiałbym powiedzieć, że złamałem kod jego nowej książki.
A przecież to bzdura. Każde dziecko wie, że te same litery tworzą słowa w każdej książce ze strefy europejskiej. Jednym słowem kod jakim pisze się po francusku, polsku czy niemiecku jest dobrze znany. Nie znamy natomiast znaczenia tekstu zanim go nie przeczytamy. Dopiero, gdyby udało mi się odczytać coś, co zapisano np. chińskim pismem węzełkowym, to mógłbym mówić o złamaniu kodu.
Tak samo jak ja odczytałem to, co napisał Kundera, tak brytyjscy naukowcy odczytali to, co w RNA wirusa świńskiej grypy zapisała natura. Czytanie sekwencji genomów wirusów wielkości wirusa grypy nie jest dziś wielką naukową nowością. W przypadku wirusa H1N1 chodziło oczywiście o jak najszybsze odczytanie sekwencji jego RNA po to, by znając jej zapis równie szybko przystąpić do szykowania szczepionki.
Istnienie wspólnego i jedynego kodu genetycznego u wszystkich żyjących na Ziemi organizmów jest jednym z koronnych dowodów na ich pochodzenie od wspólnego przodka. Inaczej trudno wyobrazić sobie jak kod genetyczny wirusa i człowieka mógłby być oparty na dokładnie tych samych zasadach. Jednak obecnie występujący na Ziemi kod genetyczny nie jest niezmienny i tak samo jak wszystkie przejawy życia ewoluuje.
Wspomniane wyżej pierwotniaki, u których znajduje się (drobne zresztą) odstępstwa od powszechnie występującego kodu są właśnie dowodem na taką ewolucję. Występuje u nich inne przyporządkowanie pewnych trójek nukleotydów aminokwasom lub znakom przestankowym zapisu niż u większości organizmów. Ale nawet to nie oznacza, że pierwotniaki używają innego kodu genetycznego. Kod jest ten sam, a one wykazują tylko od powszechnej zasady drobne odstępstwa.
Prawdopodobnie obecny trójkowy kod genetyczny (trzy nukleotydy w DNA lub RNA oznaczają przyłączanie do białka odpowiedniego aminokwasu lub koniec translacji) wyłonił się z kodu prostszego. Można tu wyłącznie fantazjować, bo oczywiście nie ma żadnych śladów kopalnego kwasu nukleinowego sięgających tak daleko w czasie. Możliwe, że na początku jeden nukleotyd oznaczał jeden aminokwas. A, że nukleotydów było tylko cztery, to i pierwotne białka budowały zapewne wyłącznie cztery aminokwasy.
Następnym etapem mogło być pojawienie się kodu dwójkowego: dwa nukleotydy oznaczały w nim jeden aminokwas. Tu już zróżnicowanie było o wiele większe. Metodą „każdy z każdym” można było uzyskać kod zapisujący 16 różnych aminokwasów. A, że w przyrodzie jest 21 podstawowych aminokwasów, to i dwójkowy zapis nie wystarczał. Zabrakło możliwości zapisu dla 5 aminokwasów i trzeba było przejść na zapis trójkowy. Ten zaś w pełni satysfakcjonuje żyjące na Ziemi organizmy (nie ma żadnej presji ewolucyjnej, by go zmieniać), gdyż teoretycznie pozwala na zapisanie informacji o 64 aminokwasach.
Ponieważ taka liczba kombinacji wystarcza z nawiązką do wypełnienia przypisanej kodowi genetycznemu funkcji, to można sądzić, że do powstania system czwórkowego nigdy nie dojdzie. Gdyby jednak ten nowy kod by złamano i okazało się, że jakiś organizm używa takiego właśnie systemu, to wówczas, owszem, można by było napisać o tym na czołówkach gazet. A tak, to mamy wyłącznie połamane informacje i nieźle złamane dziennikarskie pióra.
Jacek Kubiak
Fot. thomasina, Flickr (CC SA)
Komentarze
Mnie uczyli, że fakt, że trzeci nukleotyd stosunkowo często nie ma znaczenia (CU+cokolwiek koduje leucynę, GG+cokolwiek glicynę, GC+cokolwiek alaninę, GA+cokolwiek aminokwas kwasowy itd.) wskazuje, że kiedyś kod miał dwa nukleotydy na aminokwas. A czy istnieje jakiś podobny ślad kodu 1:1? Czy fakt, że wszystkie 6 kodonów leucynowych ma na drugiej pozycji U, a wszystkie sześć argininowych ma tam G, wystarcza do wysnucia takiej spekulacji?
PS. Drobne uwagi
1. Nie bardzo podoba mi się nazywanie kodu genetycznego „dwójkowym” czy „trójkowym” – jest on faktycznie czwórkowy ponieważ operuje czterema symbolami: G, A, T/U, C. Tak jak dwójkowy system liczbowy operuje dwoma: 0 i 1.
2. Chyba trafniej powiedzieć, że obecny kod pozwala na zapisanie informacji o 63 aminokwasach, a nie 64 – chyba, że przewidujemy ewolucyjną eliminację stopów.
3. Nie jestem pewien trafności sformułowania A, że w przyrodzie jest 21 podstawowych aminokwasów, to i dwójkowy zapis nie wystarczał. Zabrakło możliwości zapisu dla 5 aminokwasów i trzeba było przejść na zapis trójkowy
Prawdopodobniejszy wydaje mi się scenariusz: zapis 2:1 zmutował do 3:1, a późniejsza ewolucja doprowadziła do wykorzystania zaistniałej nadmiarowości do zwiększenia liczby kodowanych aminokwasów powyżej 16 (wliczając stop).
4. I jeszcze: w przyrodzie jest 21 podstawowych aminokwasów. Można się spierać o definicję słowa „podstawowy”, ale na ile pamiętam co mi wtłaczano do głowy na biochemii i genetyce, aminokwasów kodowanych genetycznie jest 20.
Z punktu widzenia teorii informacji (na ile może sie ona tu stosować), to stwierdzenie, że wszystkie książki europejskie sa napisane tym samym kodem raczej nie jest poprawne. Autor myli chyba kod z alfabetem. Dla przykładu może być wiele kodów nad alfabetem binarnym. W pewnym sensie pojęcie kod oznacz tam po prostu język…
Pomijam już kwestie polityzne, dla mnie tam Ukraina, Rosja i Bułgaria są jak najbardziej w strefie europejskiej.
O aspekcie biologicznym się nie wypowiadam, bo się nie znam, a wierzę, że Autor tak 😉
@ miskidomleka :
Mnie tez sie nie bardzo podoba to co nazwalem kodem dwojkowym, ale opisuje to co tak nazwalem, wiec chyba jest jasne. 64 aa sa oczywiscie teoretyczne, tak samo jak te brakujace 5. Oczywiscie poza 21 ‚ksiazkowymi’ aminokwasami jest sporo innych, wiec kod moglby jednak ewoluowac aby wlaczyc je do palety. Ciekawe, ze mnie najbardziej niepewne wydawalo sie zdanie: ‚nie ma żadnych śladów kopalnego kwasu nukleinowego sięgających tak daleko w czasie’, bo dla wyciagniecia wnioskow na temat kodu, trzeba by i tak porownac z bialkiem. To tylko takie blogowe hipotezowanie. 🙂
@ zzz :
Oczywiscie zastanawilem sie nad cyrylica i przepraszam Bulgarow, Rosjan i Ukraincow za wykluczenie z Europy. Na szczescie nie jestem lingwista, a w jednej czwartej Bialorusinem, wiec nie chodzilo mi o wykluczenie kogokolwiek tylko o prostote. 🙂 Powiedzmy, ze pisze o kodzie Europy Zachodniej.
W sumie, to może niezły pomysł z tym ogłoszeniem, że się złamało kod Kundery (kod Leonarda da Vinci już się sprzedał, więc odpada). Chyba idąc tym tropem niedawno kilkoro paleontologów ogłosiło (w BBC, a nie w piśmie naukowym), że odkryło brakujące ogniwo ewolucji ostatecznie potwierdzające teorię Darwina (nawet nadali nowo opisanemu (choć nie wiem, czy opisane zostało zgodnie z formalnościami taksonomicznymi) rodzajowi nazwę Darwinius), że to zrewolucjonizuje wiedzę o pochodzeniu człowieka, że jest to największe odkrycie naukowe ostatnich lat i w ogóle. Mniej interesujące zwykłego człowieka informacje precyzowały, że chodzi o dobrze zachowane lemuropodobne skamieniałości sprzed 47 mln lat, które autorzy zinterpretowali jako ogniwo pośrednie między linią naczelnych obejmującą lemury i wyraki, a linią obejmującą tarsjusze i małpy (z ludźmi), tzn. jako potwierdzenie lansowanej przez jednego z autorów tezy, raczej niepodzielanej przez większość, że linia małpia nie jest siostrzana wobec linii lemurzej, tylko z niej wyewoluowała (co już spotkało się ze sceptycyzmem, bo na podstawie szczątkowych informacji wydaje się, że może to być po prostu konwergencja). Dziennikarze to kupili, bo w telewizji usłyszałem wystrzeliwane sensacyjnym tonem (tzn. tym samym, którym są wystrzeliwane informacje o najnowszym rozwodzie jakiejś aktorki albo wypowiedzi Komisji Europejskiej o polskim budżecie) następujące informacje:
– odkryto brakujące ogniwo
– znaleziono nowego przodka człowieka
– jest to forma przejściowa między małpami a ludźmi
– jest to lemur sprzed 40 mln lat
– miał paznokcie i kość skokową o budowie przypominającej ludzką
– to potwierdzenie teorii Karola Darwina.
Znalezisko w istocie jest spektakularne (zachowała się treść pokarmowa, zarysy tkanek miękkich, zęby mleczne i stałe, nowy rodzaj), ale rewolucyjność jest wątpliwa. Można stwierdzić, że dowolne znalezisko paleontologiczne jest pośrednim ogniwem i potwierdza teorię Darwina, a to nie leży w jakiejś wielkiej luce.
@miskidomleka
Z tą czwórkowością to chyba dzielenie włosa na czworo. T i U są jednak w istocie, tj, znaczeniu, tym samym symbolem (chyba jeszcze dochodzi PSI, co dawałoby system piątkowy). To tak, jakby za odmienne symbole uznawać $ i USD – formalnie są inne, ale ich desygnat jest ten sam.
Panek, policz jeszcze raz. G 1. A 2. C 3. T albo U 4. Nie liczę T i U oddzielnie.
@miskidomleka:
Kod genetyczny nazywa się trójkowym, bo każde trzy nukleotydy tworzą kodon odpowiadający aminokwasowi. Nazwa nie ma nic wspólnego z ilością rodzajów nukleotydów (zaraz by się zresztą znalazł jakis pietysta twierdzący, że jest ich pięć, „bo przecież jeszcze uracyl…”).
@jk:
Ja też przypominam sobie tylko 20 aminokwasów kodowanych genetycznie (tzw. standardowych). Ale też już gdzieś widziałem powtarzaną tę informację o 21. Jeśli jest jakiś dwudziesty pierwszy, to ja chcę wiedzieć jaki!
Poza tym całkowicie zgadzam się z panekiem – wiem, że porównanie kodu genetycznego do alfabetu jest kuszące, ale rzeczywistość nie wytrzymuje starcia z tą metaforą: jeśli litery odpowiadałaby nukleotydom, a słowa kodonom, to każdy aminokwas byłby kodowany inaczej przez Francuzów, a inaczej przez Litwinów. Ale to taki mały szkopuł.
Na marginesie – na temat kodu genetycznego znakomitą anegdotę przytoczył Matt Ridley w swojej książce „Genom”. Opisał on, jak po odkryciu i zrozumieniu struktury DNA, zaczęto się starać „złamać” kod genetyczny. I wówczas Francis Crick zaprezentował ten niesamowicie elegancki model, w którym 64 kodony kodują dokładnie 20 aminokwasów. Niestety był to jeden z tych pomysłów, które upadają zaraz po pierwszym eksperymencie…
Moze 21 to selenocysteina? Koduje ja TGA/UGA ale wymaga dodatkowego mechanizmu i bez selenu w komorce TGA/UGA funkcjonuje jako zwykly STOP.
Przepraszam, że ja znów o tym samym.
Rafał, ja wiem dlaczego ludzie nazywają kod genetyczny trójkowym. Uważam jednak, że jest to nazwa niepoprawna.
Słów dwójkowy/trójkowy/dziesiątkowy/szesnastkowy używa się do opisu systemów liczbowych na podstawie liczby symboli, jakimi operują, a nie na podstawie długości typowego ciągu symboli używanego w przetwarzaniu.
Twój komputer, jak większość współczesnych komputerów cyfrowych, operuje kodem dwójkowym bo w większości swoich wewnętrzych struktur używa dwóch symboli 0 (niskie napięcie) i 1 (wysokie napięcie). Nie mówimy, że operuje kodem ósemkowym (bo bajt, typowo używana jednostka dostępu do danych, ma długość 8 symboli), czy sześćdziesięcioczwórkowym, bo masz 64-bitowy procesor.
Jeśli już chcielibyśmy potraktować bajt czy liczbę 64-bitową jako niepodzielną całość, wtedy kod byłby dwustupięćdziesięcioszóstkowy (bo istnieje różnych wartości bajtu), nie ósemkowy; lub osiemnastotrylionowo*cośtam (bo jest 18446744073709551616 wartości liczby 64-bitowej), nie sześćdziesięcioczwórkowy.
Dlatego ostatecznie możnaby zaakceptować nazwanie kodu genetycznego sześćdziesięcioczwórkowym (64 możliwe kodony), ale moim zdaniem najpoprawniej jest określać go jako czwórkowy z trzycyfrowym (trzyliterowym) słowem.
Uracyl oczywiście nie ma znaczenia, bo jest równoważny tyminie. Określanie go jako odrębnego symbolu miałoby taki sam sens, jak określanie jako odrębnych symboli litery ‚a’ w jej kształcie typowym dla druku i w kształcie typowym dla pisma odręcznego ‚?’ (o z laseczką po prawej stronie, na wypadek, gdyby wordpress nie łyknął symbolu).
*lub inna nazwa w zależności od systemu nazewnictwa dużych liczb, chodzi o 1.8*10^19.
JacekP:
Ale w takim razie mamy co najmniej 22:
http://en.wikipedia.org/wiki/Pyrrolysine
miskidomleka — tak jest, dzieki za info.
@miskodomleka:
Wiem, że wiesz 😛 Chodzi mi tylko o to, że – abstrahując od nomenklatury informatycznej – nazwa ma sens. Po prostu etymologia słowa jest trochę inna niż w teorii informacji – i zresztą podejrzewam, że niewiele osób próbowało tę teorię do kodu genetycznego stosować w chwili, gdy pierwszy raz nazywano go trójkowym…
Dlatego napisalem 21 ‚podstawowych’ aminokwasów a nie ’21 aminokwasów’. No wiec moze jest ich 22, a moze 23. Tylko, ze to nic nie zmienia.
pismo wezelkowe bardziej kojarzy sie z Inkami/Peru:
http://en.wikipedia.org/wiki/Quipu
mimo to ku mojemu zdziwieniu miales jednak racje, istnial wezelkowy system „pismienniczy „w Chinach:
http://en.wikipedia.org/wiki/Quipu#The_use_of_knotted_cords_in_China