Pffff

Spółgłoski [f] i [v] (w polskiej pisowni odpowiadają im litery „f” i „w”, choć ze względu na to, że polski należy do języków, gdzie pisownia i wymowa są trochę rozbieżne, nie jest to jednoznaczne, np. w słowie „Afganistan” mamy [v], a w słowie „ławka” mamy [f]) są trochę dziwne.

Co w nich dziwnego? Zacznę od tego, że w powyższych przykładach mamy normalne w języku polskim zjawisko – w diadzie spółgłosek zachodzi asymilacja dźwięczności tak, że obie mają dźwięczność taką jak druga spółgłoska diady. W zbitce „fg” dźwięczne [g] udźwięcznia „f” do [v], a w zbitce „wk” bezdźwięczne [k] ubezdźwięcznia „w” do [f]. Ten kierunek nazywa się u(bez)dźwięcznianiem wstecznym.

Tymczasem w słowie „kwadrat” nie ma zbitki [gv], a [kf]. „W” nie udźwięcznia „k”, tylko samo się od tego „k” ubezdźwięcznia. To jest ubezdźwięcznienie postępowe. W polskim nie ma udźwięcznienia postępowego, bo nie ma słów, w których „f” występowałoby po spółgłosce dźwięcznej. Czyli „w” zachowuje się inaczej niż inne spółgłoski domyślnie dźwięczne.

Czytelnicy posługujący się niektórymi dialektami i gwarami, zwłaszcza wielkopolskimi (przy czym dialekt wielkopolski obejmuje też niekaszubskie gwary pomorskie, a w niektórych ujęciach również warmińskie, co ma związek z historią polskiej kolonizacji tych regionów), mogą się nie zgodzić. Im może się zdarzyć wymowa [kvadrat] (a także [tvuj], [xvawa]). To ostatnie to słowo zapisywane „chwała”. Nie wiem, czy pamiętacie z Legendy o świętym Aleksym, że nieluba mu fała była. To właśnie jeden z wyznaczników zabytków języka polskiego, jeżeli znajdujemy średniowieczny tekst z zapisami typu „chwała” (w ówczesne pisowni raczej „chuala”), oznacza to, że pisał go Wielkopolanin, a typu „fała” – Małopolanin.

Zatem już w średniowieczu to zjawisko zaszło w mowie Małych (Nowych) Polan, a ominęło mowę Wielkich (Starych) Polan. U tych pierwszych zaszło uproszczenie (wypadło „ch”). Ostatecznie zaś w oficjalnej mowie ogólnopolskiej jest kompromis – z wielkopolskiego jest pozostawienie pierwszej spółgłoski, z małopolskiego ubezdźwięcznienie drugiej.

Dziwne zachowanie dzisiejszej spółgłoski [v] wzięło się z tego, że jej przodek w prasłowiańszczyźnie nie był spółgłoską, tylko samogłoską [u]. Ewentualnie półsamogłoską, taką jak [w], czyli dźwięk zapisywany w polskiej ortografii jako „ł” (czytelników posługujących się dialektami kresowymi prosimy o niewnoszenie sprzeciwu). [w] jest, nieco upraszczając, samogłoską w sensie fonetycznym, a spółgłoską w sensie fonologicznym. Obiektywnie, akustycznie jest praktycznie nieodróżnialne od [u] (więc jest jak samogłoska), tyle że nie tworzy ośrodka sylaby (więc zachowuje się jak spółgłoska). Przejście między samogłoskami i spółgłoskami jest w pewnym sensie płynne. Drugą półsamogłoską w polszczyźnie jest [j].

W różnych językach sylabę mogą tworzyć niektóre spółgłoski, jak [n], [l] czy [r]. Spółgłoski te nazywane są sonorantami, w odróżnieniu od pozostałych, czyli obstruentów, i mają pewne właściwości je wyróżniające (np. nie za bardzo udźwięczniają inne spółgłoski wstecznie, stąd „Francja” pozostaje [frantsją], a nie jest [vrandzją]). Tu można wspomnieć, że ubezdźwięcznianie postępowe występuje także w słowach typu „przód” [pšut], a więc ulega mu to [ž], które historycznie było wariantem sonorantu „r”.

W związku z tą historią litera „w” jest całkiem w polszczyźnie popularna, a głoska [v] też, choć w wielu miejscach ulega ubezdźwięcznieniu do [f]. Jest ona w miejscu prasłowiańskiego „*u”. Natomiast litera „f” jest dość rzadka, a głoska [f] jest częsta głównie dlatego, że może być ubezdźwięcznionym „w”. Nie chcę rzucać stwierdzeniami bez oparcia, ale „f” albo w ogóle nie występuje w słowach o pochodzeniu prasłowiańskim, albo występuje rzadko. W rodzimych polskich słowach na myśl przychodzą mi głównie onomatopeje.

W słowach nierodzimych głoska [f] też ma stosunkowo świeżą historię. Choćby pierwsza głoska na początku wspomnianej Francji pierwotnie była jakimś wariantem „p”. Grecka litera „φ” do dziś jest nazywana „phi”, co sugeruje jej związek z „p z przydechem” – i tak się rekonstruuje w starogreckiej wymowie. W rosyjskim „ф” jest nie tylko potomkiem greckiego „phi”, ale też greckiej „thety” (i do początku XX w. miało odrębną literę, choć wymowa się ujednoliciła wcześniej). W angielskim niektóre [f] pochodzą od „h” (np. w „cough”). Taka ewolucja zachodziła nie tylko w językach indoeuropejskich, ale i tych ugrofińskich, które mają swoje niezapożyczone głoski tego typu. Tak więc drogi do powstania „f” były różne, ale w odróżnieniu od wielu innych dróg ewolucji głosek zahaczają o czasy historyczne.

Związki głosek [v], [f] z [b], [p] są znane z różnych języków i choćby grecka „beta” jest we współczesnym greckim wymawiana jako [v], a nie [b]. Nie dziwi w tym kontekście, że w cyrylicy litera „B” odpowiada właśnie [v]. Podobne zawirowania są w językach Półwyspu Iberyjskiego czy Arabskim. Tyle że tam dochodzą jeszcze inne spółgłoski, których brak w polszczyźnie, więc ciężko je wytłumaczyć, a spory, czy w nazwie stolicy Kuby jest [b] czy [v], są bezprzedmiotowe, bo tam jest jeszcze coś innego ([β]).

*

Ten specjalny status [f] zainspirował językoznawców do dociekań. Jednym z pierwszych spostrzeżeń było to, że o ile w dobrze znanych językach Europy, Azji i Afryki głoski [f] i [v] są umiarkowanie często spotykane, o tyle w wielu regionach, zwłaszcza w Australii i Ameryce, a miejscami Afryce i Azji, są w ogóle niespotykane albo znajdują się tylko w słowach zapożyczonych.

W latach 80. Charles Hockett zauważył, że języki, w których nie ma [f] i [v], to często języki kultur zbieracko-myśliwskich, a głoski te są częstsze w kulturach rolniczych. Korelacja jednak nie oznacza związku przyczynowo-skutkowego. Jak sposób zdobywania pożywienia miałby wpłynąć na ewolucję głosek?

Sposób zdobywania – nie. Jednak sposób zdobywania wpływa na to, co się zdobyło. To, co się zdobyło, wpływa na to, jak się to obrabia. To, jak się to obrobiło, wpływa na to, jak się to zjada. I tu jest pies pogrzebany.

Jak czytelnicy mogą sprawdzić na sobie – typowy zgryz człowieka ma ciekawą właściwość. Dolny i górny łuk zębów nie są symetryczne. Są względem siebie nieco przesunięte zarówno w osi przód-tył, jak i osi lewo-prawo. Siekacze nie stykają się swoimi krawędziami na czubkach, tylko tworzą coś na kształt nożyc. Rzecz w tym, że w prehistorii tak nie było. W okresie dojrzewania zgryz się przesuwał tak, aby rekompensować ścieranie się siekaczy i ostatecznie typowym zgryzem dorosłych ludzi był taki, w którym siekacze się stykają czubkami, a nie zachodzą na siebie. Zęby nie są osadzone bardzo sztywno, co wykorzystuje choćby ortodoncja, i mogą się przesuwać w obrębie dziąseł.

Wraz z rozwojem rolnictwa coraz popularniejsze stawało się jedzenie gotowane i pieczone – zasadniczo: miękkie. To zmniejsza wysiłek mięśni używanych do żucia i zmniejsza ścieranie się zębów. Ponadto miękkie jedzenie pozwala na ewolucję żuchwy w kierunku jej skrócenia (mięśnie do żucia i gryzienia mogą być słabsze, więc krótsze), co również zwiększa tendencję do zachowywania zgryzu z zachodzącymi zębami.

Z analiz archeologicznych wynika, że im bardziej miękkie jedzenie stawało się popularne, tym bardziej typowy stawał się zachodzący zgryz. To oczywiście nie następowało nagle i równomiernie. Poza tym w wielu populacjach, np. u Eskimosów, Indian czy australijskich Aborygenów (jestem na tyle stary, że dla mnie te nazwy nie niosą nic niepoprawnego politycznie), wśród dorosłych normą jest stykanie się siekaczy czubkami. A może raczej było, bo już w XX w. zauważono, że aborygeńskie dzieci wychowywane przez potomków Europejczyków nie zmieniają zgryzu z wiekiem. Z kolei wśród osób o europejskim pochodzeniu nałogowo żujących tytoń pojawiało się właśnie to przesunięcie zgryzu.

Hockett zauważył więc zbieżność występowania głosek [f] i [v] nie tylko z trybem zdobywania pożywienia, ale też z dominującym typem zgryzu, i postawił hipotezę, że (pre)historyczna zmiana tego ostatniego czynnika wpłynęła na zmianę głosek typu [p] i [b] w interesującą nas parę. Nie za bardzo umiał wtedy jednak ją wesprzeć. Zauważył, że ludzie, chcąc wymówić [b] i jednocześnie się śmiejąc, wymawiają [v], ale ciężko to przełożyć na ewolucję fonetyki. Sam przyznawał, że jego hipoteza pozostaje spekulacją nie do udowodnienia, a inni niezbyt ją podchwycili. Słabym punktem jest to, że wydaje się, że zgryz typu „paleolitycznego” utrzymywał się dość długo w populacjach rolniczych. Na tyle długo, że głoski [f] i [v] zdążyły się upowszechnić przed jego wyparciem.

Po kilkudziesięciu latach hipotezę odgrzebano. Naukowcy wyposażeni w oprogramowanie do symulowania pracy mięśni szczęk obliczyli wysiłek potrzebny do artykułowania różnych głosek. Wymawianie spółgłosek szczelinowych wargowo-zębowych, czyli [f] i [v], wymaga 29 proc. mniejszego wysiłku przy zgryzie z zachodzącymi zębami niż przy zębach stykających się czubkami. Wymowa innych spółgłosek wargowych – zwartych, czyli [p] i [b], i półotwartych, czyli [w] (a więc „ł”), wymaga podobnego układu wielu mięśni, a różni się tym, że ostatecznie aparat mowy nie tworzy typowej szczeliny, a jest zwarty lub przeciwnie, szczelina jest bardzo szeroka, prawie jak przy samogłoskach (stąd nazwa tych kategorii głosek – zwarte, szczelinowe i półotwarte). Okazuje się, że w przypadku tych grup samogłosek mniej wysiłku wymaga artykulacja z zębami stykającymi się czubkami.

Zatem zmiana anatomiczna zgryzu jak najbardziej mogła wymóc zmianę sposobu artykulacji. Oczywiście, kwestie łatwości wymawiania nie są jedynym czynnikiem kształtującym zestaw głosek. Gdyby tak było, ludzie mówiliby tylko „aaa”, ewentualnie „mamamama”. Jednak trzeba trochę zróżnicować wymowę, żeby niosła wystarczająco dużo zróżnicowanych znaczeń. Dlatego też pojawienie się [v] i [f] nie sprawiło, że [p] i [b] oraz [w] (bezdźwięczny odpowiednik [w], czyli [ʍ], jest rzadki, ale zdarza się np. w niektórych dialektach angielskiego, tam, gdzie w pisowni jest „wh”, czasem aż wymawiany w postaci [hʍ]) znikły. Zwłaszcza że o ile różnica 29 proc. wysiłku występująca między wymową [f] przy różnych zgryzach jest stosunkowo duża, o tyle różnica w wysiłku wymowy [b] i [w] jest mniejsza. Poza tym niuanse w ustawieniu warg przy wymowie [b] i [w] sprawiają, że nadal są one mniej wymagające od wymowy [f] i [v].

Z tego wynika, że spółgłoskę wargową nosową [m] ma 95 proc. języków, spółgłoskę wargową zwartą bezdźwięczną [p] ma 87 proc., a spółgłoskę wargową zwartą dźwięczną [b] – 71 proc. Głoski wargowo-zębowe są rzadsze: szczelinowa bezdźwięczna ([f]) występuje tylko w 49 proc. języków, jej dźwięczny odpowiednik zaś ([v]) w 37 proc. Inne spółgłoski wargowo-zębowe występują marginalnie, wśród nich najczęstsza jest zwarto-szczelinowa [pf] (znana z niemieckiego), ale to tylko 2 proc. Pozostałe: [bv] (np. w luksemburskim, gdzie jest udźwięcznioną wersją [pf]), [ɱ] (tu jest kwestia niejasna, bo to może być uznane za rzeczywistą głoskę albo za wariant [m], np. w słowie „tramwaj”), [ⱱ] (głoska uderzeniowa, pokrewna angielskiemu „t” wymawianemu jak „r” w słowach typu „water”) i [ʋ] (aproksymant pośredni między [v] a [w], występujący w holenderskim czy duńskim) są jeszcze rzadsze.

Dane archeologiczne są też lepsze niż stosunkowo niedawno – w czasach Hocketta. Wynika z nich, że w przypadku populacji mówiących językami indoeuropejskimi zmiana typu zgryzu zaczęła się co najmniej 4300 lat temu w dolinie Indusu, w Europie zaś 3600 lat temu, a w środkowych Indiach – 2400 lat temu. Wiąże się to z rozwojem rolnictwa, a w późniejszych czasach ewolucja fonetyczna w jakimś stopniu podąża drogami rozwoju chociażby młynarstwa. Zatem nawet zmiana zgryzu nie objęła wszystkich w danej społeczności w jednym tempie; najwyraźniej ci, którym zrobiło się łatwiej wymawiać więcej spółgłosek, stali się awangardą zmian w inwentarzu fonemicznym swoich języków.

Ilustracja: T. W. Widdowson. Domena publiczna (prawa autorskie wygasły)

  • Charles F. Hockett (1985) Distinguished Lecture: F.  American Anthropologist, 87(2),  263-281, doi:10.1525/aa.1985.87.2.02a00020
  • D. E. Blasi, S. Moran, S. R. Moisik, P. Widmer, D. Dediu, B. Bickel (2019) Human sound systems are shaped by post-Neolithic changes in bite configuration. Science. 363(6432), 3218, DOI: 10.1126/science.aav3218