Ile słów jest w słowniku?

liczydło (abacus)

liczydło

W cytowanym tu już artykule z „London Evening Standard” podano informację, że słownik Collinsa on-line wzbogacił się o 50 tysięcy wyrazów. Dużo to czy mało?

W słownikach opisuje się słowa, czyli podaje się, jakie jest ich znaczenie (nie wnikajmy, jak owo znaczenie zdefiniować). Językoznawcy dość są przywiązani do idei, że badają obiekty bilateralne – takie, w których pewien fizycznie wyodrębnialny ciąg (np. dźwięk lub napis; forma) związany jest nierozerwalnie z pewnym znaczeniem (sensem). Kiedy korzystamy ze słownika, szukając nieznanego wyrazu, staramy się dowiedzieć, jakie znaczenie jest powiązane z rozpoznaną formą. Obliczenie, ile słów jest w słowniku, wydaje się więc proste: trzeba znaleźć wszystkie takie pary. Tak zapewne postąpiono, licząc słowa dodane do słownika Collinsa, jak i licząc słowa w samym słowniku.

Czy gdybyśmy dokonali podobnego obliczenia dla polskiego, wynik byłby podobny? Wprowadźmy doraźną jednostkę to liczone coś (TLC) na określenie tego, co możemy w tym wypadku policzyć. Największy polski słownik, dziesięciotomowy „Słownik jezyka polskiego” pod red. Witolda Doroszewskiego (SJPDor), zawiera ok. 130 tysięcy TLC,  wydany piętnaście lat temu „Inny słownik języka polskiego” (ISJP) podaje, że ma 40, 45 lub 100 tysięcy TLC. Dla porównania „Słownik gramatyczny języka polskiego” (2007-2014), którego podstawą był wspomniany SJPDor, w swojej obecnej wersji liczy ok. 250 tysięcy TLC (w słowniku tym jednak nie objaśnia się znaczenia wyrazów, a tylko podaje się bardzo szczegółowo, jak się one odmieniają i prezentuje wzorce odmian).

II wydanie „Oxford English Dictionary” (OED) zawiera niespełna 300 tysięcy TLC (wydanie I z lat 1884-1928 – 250 tysięcy, do tego po 50 latach suplement z niespełna 70 tysiącami TLC, w sumie ok. 320 tysięcy TLC),  niemiecki słownik Grimmów („Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm”, DWB; 32 tomy, z których pierwszy i ostatni dzieli 100 lat) to 330 tysięcy TLC, „Das große Wörterbuch der Deutschen Sprache” Dudena – 670 tysięcy TLC, a „Le Grand Robert” to około 100 tysięcy TLC.  Sam drukowany słownik Collinsa, którego 1 wydanie ukazało się w 1979 roku, zawierał 130 tysięcy TLC. Obecny, internetowy, chwali się 670 tysiącami TLC.

Czy zatem słownik Collinsa jest nie tylko kilkakrotnie większy od największego polskiego słownika, ale też od OED, który opisuje ten sam język? Nietrudno zgadnąć, że ceteris paribus nie zasób słów jest źródłem tej różnicy, ale sposób liczenia. Proste obliczenie, podawane przez większość programów do edycji tekstów, podaje liczbę ciągów poprzedzielanych spacjami. Daje ono wynik typu „poprzednie zdanie ma 14 wyrazów”. Gdybyśmy tę metodę zastosowali do słownika, TLC byłby artykułem hasłowym – krótkim tekstem, który zaczyna jakoś (np. pogrubieniem) wyróżniony ciąg (główka), a kończy ostatni znak przed kolejną główką. W  słowniku powinno być tyle objaśnień, ile główek. Takie obliczanie byłoby skuteczne tylko wtedy, gdy za każdym razem jako parę (forma, sens) wyodrębniamy w ten sam sposób, np.  PIERNIK to‘ciasto z miodem i przyprawami lub stary człowiek’, a KOSZ to ‘pojemnik z wikliny lub innego materiału, pojemnik na śmieci, fotel plażowy, obręcz przymocowana do tarczy, używana w grze, ta gra lub zdobycie punktu w tej grze’. Jeśli jednak (chyba nieco bliżej intuicji użytkowników) powiemy, że są dwa pierniki: PIERNIK1 – ciasto i PIERNIK2 – człowiek, TLC będzie więcej.  W ten sposób liczba TLC może rosnąć dość szybko – jeden KOSZ z przykładu rozpadnie się na sześć. Drugim czynnikiem zwiększającym liczbę TLC są całostki  dłuższe niż jedno słowo; żeby trzymać się piernikowego przykładu: STARY PIERNIK ‘=PIERNIK2’ lub CO MA PIERNIK DO WIATRAKA? ‘wiązanie ze sobą niepowiązanych rzeczy’.  W wielu słownikach zostaną one „ukryte” wewnątrz większego hasła, jako kolejne, ponumerowane, znaczenia, stałe połączenia czy frazeologizmy. Jeśli się je wyodrębni jako osobne, zamiast jednego artykułu PIERNIK z objaśnieniem ujmującym kolejne znaczenia, otrzymamy cztery (PIERNIK1, PIERNIK2, STARY PIERNIK i CO MA PIERNIK DO WIATRAKA). Taki sam skutek będzie miało też liczenie nie tylko główek, ale wszystkich podhaseł i kolejno podanych znaczeń. Liczby te mogą się różnić znacząco – jak pokazują dane z ISJP.

Przyczyną wyróżnienia osobnego wyrazu może też być jego odmiana, tak różnią się wspomniane już PIERNIK1 i PIERNIK2, takich par jest znacznie więcej (np. jest to wystarczające kryterium, by wyróżnić 3 jednostki o formie pływak, 2 o formie hasłowej sędzia, 2 o hasłowej doktor itd.).

Inną przyczyną zwiększenia liczby haseł jest tworzenie osobnych haseł dla tego, co jest regularne i jako takie może być uznane za zrozumiałe na podstawie znajomości gramatyki, a nie słownictwa danego języka. W niemieckim na przykład dość regularnie tworzy się nazwy żeńskie,  już elementarna znajomość języka wystarcza, żeby wiedzieć, że  Schlittschuhläuferin to ‘łyżwiarka’, Verkehrsteilnehmerin to ‘uczestniczka ruchu drogowego’, a Kanzlerin – ‘kobieta, która jest kanclerzem’ (czemu po polsku odpowiada żeński rzeczownik KANCLERZ, który ma wszystkie formy odmiany jednakowe). W niektórych językach rzeczownik i czasownik różnią się tylko odmianą, wiele takich par jest w angielskim, np. to vape (zeszłoroczne słowo roku Oxford Dictionaries) ‘palić papierosy elektroniczne’ i a vape ‘papieros elektroniczny’. Podobnie w polskim rzeczowniki na ~anie, ~enie mają to samo znaczenie, co czasowniki, od których pochodzą, a różnią się tylko własnościami gramatycznymi.

Zdjęcie Piotrus, Wikimedia Commons,  licencje: copyleft: Multi-license with GFDL and Creative Commons CC-BY-SA-2.5 and older versions (2.0 and 1.0).