Polityka_blog_top_bill_desktop
Polityka_blog_top_bill_mobile_Adslot1
Polityka_blog_top_bill_mobile_Adslot2

16.03.2015
poniedziałek

Ile słów jest w słowniku?

16 marca 2015, poniedziałek,
liczydło (abacus)

liczydło

W cytowanym tu już artykule z „London Evening Standard” podano informację, że słownik Collinsa on-line wzbogacił się o 50 tysięcy wyrazów. Dużo to czy mało?

W słownikach opisuje się słowa, czyli podaje się, jakie jest ich znaczenie (nie wnikajmy, jak owo znaczenie zdefiniować). Językoznawcy dość są przywiązani do idei, że badają obiekty bilateralne – takie, w których pewien fizycznie wyodrębnialny ciąg (np. dźwięk lub napis; forma) związany jest nierozerwalnie z pewnym znaczeniem (sensem). Kiedy korzystamy ze słownika, szukając nieznanego wyrazu, staramy się dowiedzieć, jakie znaczenie jest powiązane z rozpoznaną formą. Obliczenie, ile słów jest w słowniku, wydaje się więc proste: trzeba znaleźć wszystkie takie pary. Tak zapewne postąpiono, licząc słowa dodane do słownika Collinsa, jak i licząc słowa w samym słowniku.

Czy gdybyśmy dokonali podobnego obliczenia dla polskiego, wynik byłby podobny? Wprowadźmy doraźną jednostkę to liczone coś (TLC) na określenie tego, co możemy w tym wypadku policzyć. Największy polski słownik, dziesięciotomowy „Słownik jezyka polskiego” pod red. Witolda Doroszewskiego (SJPDor), zawiera ok. 130 tysięcy TLC,  wydany piętnaście lat temu „Inny słownik języka polskiego” (ISJP) podaje, że ma 40, 45 lub 100 tysięcy TLC. Dla porównania „Słownik gramatyczny języka polskiego” (2007-2014), którego podstawą był wspomniany SJPDor, w swojej obecnej wersji liczy ok. 250 tysięcy TLC (w słowniku tym jednak nie objaśnia się znaczenia wyrazów, a tylko podaje się bardzo szczegółowo, jak się one odmieniają i prezentuje wzorce odmian).

II wydanie „Oxford English Dictionary” (OED) zawiera niespełna 300 tysięcy TLC (wydanie I z lat 1884-1928 – 250 tysięcy, do tego po 50 latach suplement z niespełna 70 tysiącami TLC, w sumie ok. 320 tysięcy TLC),  niemiecki słownik Grimmów („Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm”, DWB; 32 tomy, z których pierwszy i ostatni dzieli 100 lat) to 330 tysięcy TLC, „Das große Wörterbuch der Deutschen Sprache” Dudena – 670 tysięcy TLC, a „Le Grand Robert” to około 100 tysięcy TLC.  Sam drukowany słownik Collinsa, którego 1 wydanie ukazało się w 1979 roku, zawierał 130 tysięcy TLC. Obecny, internetowy, chwali się 670 tysiącami TLC.

Czy zatem słownik Collinsa jest nie tylko kilkakrotnie większy od największego polskiego słownika, ale też od OED, który opisuje ten sam język? Nietrudno zgadnąć, że ceteris paribus nie zasób słów jest źródłem tej różnicy, ale sposób liczenia. Proste obliczenie, podawane przez większość programów do edycji tekstów, podaje liczbę ciągów poprzedzielanych spacjami. Daje ono wynik typu „poprzednie zdanie ma 14 wyrazów”. Gdybyśmy tę metodę zastosowali do słownika, TLC byłby artykułem hasłowym – krótkim tekstem, który zaczyna jakoś (np. pogrubieniem) wyróżniony ciąg (główka), a kończy ostatni znak przed kolejną główką. W  słowniku powinno być tyle objaśnień, ile główek. Takie obliczanie byłoby skuteczne tylko wtedy, gdy za każdym razem jako parę (forma, sens) wyodrębniamy w ten sam sposób, np.  PIERNIK to‘ciasto z miodem i przyprawami lub stary człowiek’, a KOSZ to ‘pojemnik z wikliny lub innego materiału, pojemnik na śmieci, fotel plażowy, obręcz przymocowana do tarczy, używana w grze, ta gra lub zdobycie punktu w tej grze’. Jeśli jednak (chyba nieco bliżej intuicji użytkowników) powiemy, że są dwa pierniki: PIERNIK1 – ciasto i PIERNIK2 – człowiek, TLC będzie więcej.  W ten sposób liczba TLC może rosnąć dość szybko – jeden KOSZ z przykładu rozpadnie się na sześć. Drugim czynnikiem zwiększającym liczbę TLC są całostki  dłuższe niż jedno słowo; żeby trzymać się piernikowego przykładu: STARY PIERNIK ‘=PIERNIK2’ lub CO MA PIERNIK DO WIATRAKA? ‘wiązanie ze sobą niepowiązanych rzeczy’.  W wielu słownikach zostaną one „ukryte” wewnątrz większego hasła, jako kolejne, ponumerowane, znaczenia, stałe połączenia czy frazeologizmy. Jeśli się je wyodrębni jako osobne, zamiast jednego artykułu PIERNIK z objaśnieniem ujmującym kolejne znaczenia, otrzymamy cztery (PIERNIK1, PIERNIK2, STARY PIERNIK i CO MA PIERNIK DO WIATRAKA). Taki sam skutek będzie miało też liczenie nie tylko główek, ale wszystkich podhaseł i kolejno podanych znaczeń. Liczby te mogą się różnić znacząco – jak pokazują dane z ISJP.

Przyczyną wyróżnienia osobnego wyrazu może też być jego odmiana, tak różnią się wspomniane już PIERNIK1 i PIERNIK2, takich par jest znacznie więcej (np. jest to wystarczające kryterium, by wyróżnić 3 jednostki o formie pływak, 2 o formie hasłowej sędzia, 2 o hasłowej doktor itd.).

Inną przyczyną zwiększenia liczby haseł jest tworzenie osobnych haseł dla tego, co jest regularne i jako takie może być uznane za zrozumiałe na podstawie znajomości gramatyki, a nie słownictwa danego języka. W niemieckim na przykład dość regularnie tworzy się nazwy żeńskie,  już elementarna znajomość języka wystarcza, żeby wiedzieć, że  Schlittschuhläuferin to ‘łyżwiarka’, Verkehrsteilnehmerin to ‘uczestniczka ruchu drogowego’, a Kanzlerin – ‘kobieta, która jest kanclerzem’ (czemu po polsku odpowiada żeński rzeczownik KANCLERZ, który ma wszystkie formy odmiany jednakowe). W niektórych językach rzeczownik i czasownik różnią się tylko odmianą, wiele takich par jest w angielskim, np. to vape (zeszłoroczne słowo roku Oxford Dictionaries) ‘palić papierosy elektroniczne’ i a vape ‘papieros elektroniczny’. Podobnie w polskim rzeczowniki na ~anie, ~enie mają to samo znaczenie, co czasowniki, od których pochodzą, a różnią się tylko własnościami gramatycznymi.

Zdjęcie Piotrus, Wikimedia Commons,  licencje: copyleft: Multi-license with GFDL and Creative Commons CC-BY-SA-2.5 and older versions (2.0 and 1.0).

Reklama
Polityka_blog_bottom_rec_mobile
Reklama
Polityka_blog_bottom_rec_desktop

Komentarze: 42

Dodaj komentarz »
  1. Mnóstwo za bardzo!

  2. Znów pokazano bezsens liczenia wszystkiego. Po prostu dodawanie czasowników do rzeczowników ma taki sam (bez)sens jak dodawanie jabłek do gruszek. Ale wytłumacz to matematykom… 🙁

  3. Slownik polski z cala pewnoscia sie skrocil. Wiele wyrazow zastapiono uniwersalnym wyrazem „ku….a”

  4. Reklama
    Polityka_blog_komentarze_rec_mobile
    Polityka_blog_komentarze_rec_desktop
  5. Jeżeli wyraz jest uniwersalny, to przy założeniu, że nie znikły jego desygnaty, to nie jest zmniejszenie liczby słów. Akurat wspomniane przez ciebie słowo ma mało znaczeń i jest używane głównie jako wykrzyknienie, ale od chociażby pewnych dwóch czasowników można utworzyć bardzo dużo słów pochodnych, które będą na dodatek miały rozległą polisemię. To, czy lemma będzie jedna dla wszystkich polisemicznych znaczeń, czy każde dostanie odrębną, to sprawa poboczna.

  6. A ja jestem ciekaw,czy to analiza naukowa, czy próba leczenia kompleksów, że Polacy nie gęsi i słów dużo mają.
    Mam 2 mało już używane słowniki:
    Wielki słownik Angielsko-Polski, tłumaczenia słów angielskich
    Wielko słownik Polsko-Angielski, gdzie tłumaczone są słowa polskie. Chyba tych samych autorów.
    I dlaczego ten pierwszy jest 2 razy grubszy niż ten drugi? Czy słów angielskich nie jest więcej? Wniosek byłb prosty: Więcej słów = Bogatsza kultura. Cio prawda Inuici (dawniej Eskimosi) mają 120 określeń śniegu. Ale chyba nic poza tym. Mało na słownik.

  7. Ja bym tak precyzyjnego języka nie lekceważył
    tlayinq snow mixed with mud
    quinaya snow mixed with Husky shit
    quinyaya snow mixed with the shit of a lead dog

    😆
    W rzeczywistości tak jak nie ma jednego języka inuickiego (jest seria dialektów) tak nie ma szczególnie więcej określeń śniegu, których by nie było w innych językach. O ile w ogóle wiadomo, co jest eskimoskim wyrazem.
    Na pociechę Polakom zmartwionym chudością słownika Polsko – Angielskiego należy podać choćby przykład grzybów, dla których w angielskim nawet nie ma nazw 🙄 😉

  8. A.L. (16 marca o godz. 13:15)
    Oglądając najnowsze amerykańskie filmy z nagrodzonym Oskarami „Birdmanem” na czele, doszedłem do wniosku, ze co najmniej połowa słów we współczesnym języku angielskim została zastąpiona jednym uniwersalnym wyrazem „fuck”.

  9. ZWO
    Większość słów w języku angielskim jest zdublowana: obok oryginalnego wyrazu germańskiego, n.p. „kingly” funkcjonuje w nim na ogół wyraz pochodzenia francuskiego, n.p. „royal”. Stąd też to pozorne bogactwo języka angielskiego, który w rzeczywistości jest językiem bardzo prymitywnym, sztywnym, mało giętkim, a więc stosunkowo łatwym do opanowania dla cudzoziemca. Niemniej przyjęcie tego języka zubaża każdą kulturę, szczególnie zaś, że język ten opiera się na sztywnym szyku wyrazów, braku zdrobnień, nadmiarze czasów gramatycznych przy braku przypadków oraz ma bardzo nienaturalną, przykrą dla ucha wymowę.

  10. Szeleszcząca i skrzypiąca polska wymowa wzbudza zaś zachwyt w zagranicznych uszach 😉
    Najbardziej polskie słowo – żółć.

  11. @Leonid: „doszedłem do wniosku, ze co najmniej połowa słów we współczesnym języku angielskim została zastąpiona jednym uniwersalnym wyrazem „fuck”.”

    Tyle tylko ze studenci tutaj na codzien sie tym wyrazem nie posluguja. Natomiast po przejsciu 100 metrow kruzgankami Gmachu Glownego Politechniki Warszawskiej odpadaja uszy.

    Nie slychac tego wyrazu w sklapach, kmunikacji I na ulicy. Inaczej niz w Polsce

  12. A.L.
    Czy ty aby na pewno przyleciałeś do USA?

  13. markot
    Polacy nikomu swojego języka nie narzucają, a więc o czym tu mowa?

  14. @Leonid: Tyle samomPen wie o zyciu codziennym w Ameryce, co o nowoczesnum zarzadzaniu czy o matematyce

  15. Można też argumentować, że niektóre języki południowoafrykańskie są bogatsze niż niektóre języki polinezyjskie, bo mają ponad sto głosek, a nie kilkanaście. Ale ostatecznie Szekspira i Konfucjusza da się przełożyć i na jedne, i na drugie.

  16. „Hamlet” w mlasku bocznym dziąsłowym (Xhosa) był już chyba nawet wystawiany.

  17. A.L.
    O życiu zawodowym w USA wiem znacznie więcej niż ty, jako że pracowałem tam w sektorze prywatnym, a nie jak ty, w budżetówce.

  18. Najbogatszym językiem europejskim jest (nowo)grecki.

  19. @ZWO

    Nie wiem, o jakich „kompleksach” mogłaby być mowa. *Każdy* język naturalny może wyrazić wszystko. To, o czym tu mowa, dotyczy sposobu opisu w słowniku. Grubość słownika ma z tym związek o tyle, że zależnie od tego, co będziemy uważali za hasło słownikowe, uzyskamy różne liczby dla *tego samego* języka.

  20. magdalenasd
    Nie, nie każdy język naturalny może wyrazić wszystko. Polecam wstęp Lukrecjusza do jego traktatu filozoficznego p.t. De rerum natura (tytuł ten jest różnie tłumaczony: O naturze wszechrzeczy, O rzeczywistości itp.), w którym tłumaczył się on swym czytelnikom, dlaczego pisze on ten swój traktat po łacinie, a nie w znacznie bogatszej od niej grece (w skrócie: po to, aby dotarł ów traktat do większej ilości osób).

  21. @Leonid: W jakiej budzetowce?…

  22. A.L.
    Na uczelni – każda prawdziwa wyższa uczelnia nie jest nastawiona na generowanie zysku!

  23. @leonid: Po pierwsze, to 20 lat spedzilem w prywatnym biznesie. Po drugie, wiekszosc czasu w akademii spedzilem w prywatnych uniwersytetach ktore musza na siebie zarobic. Nie wszystko wyglada tak jak American University w Nikozji na Cyprze

  24. Znaczy się, pracowałeś w fabrykach dyplomów…

  25. @Leonid
    Mój ulubiony fragment jest nieco dalej, dotyczy pochodzenia języka. Cudowne bajania!
    Przekonanie, jakoby jeden język był jakoś lepszy od drugiego (bardziej precyzyjny, doskonalszy, lepiej ukształcony etc.) trzymało się długo, rozwinęła się nawet teoria rodzenia się, rozwoju, dojrzałości, a potem degeneracji języków. Ogólnie rzecz biorąc, języki martwe są doskonalsze od żywych, a języki fleksyjne – od niefleksyjnych.
    Otóż każdy język może wyrazić wszystko, choć niekoniecznie w ten sam sposób, co bardzo zgrabnie objaśnia Bronisław Malinowski, cierpliwie tłumacząc, jak to jest z nazwami ogrodów egzotycznych.

  26. @Leonid: „Znaczy się, pracowałeś w fabrykach dyplomów…”

    MIT, Stanford, Columbia, Yale to tez fabryki dyplomow? Prywatne jak najbardziej

    Koniec dyskusji

  27. magdalenasd
    Nie masz raczej racji. W czasach Lukrecjusza łacina się wciąż rozwijała, ale wyraźnie odstawała ona wtedy od greki, tak samo jak litewski odstaje dziś od polskiego, ukraiński od rosyjskiego czy norweski od angielskiego. Po prostu jedne języki (polski, rosyjski czy angielski) osiągnęły dawno temu status języków literackich, a rosyjski i angielski także status ogólnoświatowych języków nauki, a inne (litewski, ukraiński czy norweski) nigdy takiego statusu nie osiągnęły i zapewne nigdy nie osiągną, a to z różnych przyczyn: na ogól zbyt mała ilość osób je używających oraz bliskość znacznie bardziej rozwiniętego języka – najlepiej widać jest to na przykładzie litewskiego czy ukraińskiego.
    Zgoda, języki Papuasów są bardzo bogate, ale nie są to jednak języki literackie. Papuasi żyli w rajskim ogrodzie (dziś zaś, „dzięki” kolonizacji brytyjsko-australijskiej, głównie w niebezpiecznych slumsach Port Moresby), a więc ich język opisywał doskonale te ogrody, ale już niewiele więcej; podobnie jak języki Eskimosów opisują doskonale śnieg, lód oraz polowania na foki, ale już niewiele więcej.

  28. A.L.
    MIT, Stanford, Columbia czy Yale NIE są nastawione na zysk. One mają, podobnie jak Oxford czy Cambridge, status instytucji nie nastawionych na zysk (non profit) a nawet instytucji dobroczynnych (charities). Jak widać, w USA bywasz tylko „in your dreams”.
    Koniec dyskusji, to możesz zaś narzucać swoim dzieciom, jeśli je potrafiłeś „wyprodukować”. 😉

  29. *Każdy* język *może* opisać wszystko. Przekonanie, że do konia trzeba mówić po hiszpańsku, a o filozofii po francusku, żywe jeszcze w XVIII wieku, zostało skutecznie sfalsyfikowane. W szczególności koniowi jest wszystko jedno, w jakim narzeczu się do niego mówi.
    Nie jestem mocna w filologii klasycznej, ale Lukrecjusz to późna republika, prawda? Czas Cycerona, Plauta, Terencjusza i Katullusa.
    Język literacki to po prostu poświadczenia użycia języka w tekstach (literackich). Stabilizuje on i standaryzuje, ale nie jest wyznacznikiem „wyższości” czy większych możliwości wyrazu.
    Co zresztą miałoby być miarą takiego rozwoju? Liczba książek publikowanych rocznie?

  30. @Leonid: MIT ma przychody wieksze o 100 milionow niz wydatki. Jezeli to nie jest zysk, to CO? „profit free” to kategoria semantyczna, a nie biznesowa

  31. A.L.
    MIT otrzymuje ogromne dotacje z Pentagonu, jako że MIT prowadzi na zamówienie władz USA badania mające na celu wyprodukowanie nowych bądź też ulepszenie starych rodzajów urządzeń służących do zabijania i kaleczenia ludzi na masową skalę.
    Poza tym, to nadwyżka przychodów nad wydatkami nie jest zyskiem, a najwyżej tzw. zyskiem brutto na sprzedaży, któremu daleko jest do zysku netto (patrz n.p. http://pl.wikipedia.org/wiki/Rachunek_zysk%C3%B3w_i_strat), a poza tym, to MIT, jako instytucja typu „non profit” nie może swego zysku netto dzielić pomiędzy swych właścicieli, a może go tylko z powrotem inwestować w MIT. Znów wypowiadasz się o sprawach biznesu, o którym, jako matematyk, nie masz nawet najmniejszego pojęcia. 🙁

  32. magdalenasd
    Nie, nie każdy język może opisać wszystko. W języku polskim (i w większości języków) brakuje n.p. słów pozwalających opisać najnowszą technologię informatyczną (zarówno na poziomie hardware’u czyli sprzętu jak też i software’u czyli oprogramowania), stąd też fachowe publikacje z dziedziny informatyki ukazują się dziś właściwie już tylko po angielsku.
    Poza tym, to koń nie rozumie tego, co się do niego mówi – konia można tylko wytresować w wykonywaniu określonych ustnych poleceń, ale mogą one być wydawane w języku, który poza kontrolą konia nie jest używany, n.p. wydając mu polecenia typu „wio” czy „prr”. Jak widać, jesteś z pokolenia, które nie widziało już w akcji konia na ulicy dużego miasta. 😉
    Miarą stopnia rozwoju danego języka jest zaś posiadanie przez niego literatury na poziomie światowym: zarówno pięknej jak i naukowej. Miernikiem (kwantyfikatorem) tego stopnia rozwoju (przyznaję, ze mało doskonałym, ale z braku lepszego wciąż jednak najlepszym) jest ilość cytatów z danego języka w innych językach. Oczywiste jest bowiem, że praktycznie nikt nie cytuje dziś z litewskiego, jako że najwybitniejsi litewscy poeci, tacy jak n.p. Mickiewicz czy Miłosz, pisali bowiem po polsku, a nauka litewska praktycznie nie istnieje, szczególnie zaś po oderwaniu się Litwy od ZSRR czyli od Rosji, zaś cytaty z angielskiego są dziś bardzo rozpowszechnione na całym świecie (zarówno w literaturze pięknej jak też, a nawet przede wszystkim, naukowej).

  33. A.L. (18 marca o godz. 3:42 )
    Napisałeś, że “profit free” to kategoria semantyczna, a nie biznesowa.
    A czytałeś to:
    http://en.wikipedia.org/wiki/Nonprofit_organization
    W skrócie: A nonprofit organization (NPO, also known as a non-business entity) is an organization that uses its surplus revenues to further achieve its purpose or mission, rather than distributing its surplus income to the organization’s directors (or equivalents) as profit or dividends. This is known as the distribution constraint. The decision to adopt a nonprofit legal structure is one that will often have taxation implications, particularly where the nonprofit seeks income tax exemption, charitable status and so on.

  34. A.L.
    Mam nadzieję, że przestaniesz się wreszcie kompromitować na tym blogu swą niewiedzą i niską inteligencją.

  35. @Leonid
    W zasadzie powinnam być gotowa na każdą dyskusję, ale z uprzedzeniami, przesądami i wyobrażeniami o potędze dyskutować się po prostu nie da.
    Wśród najczęściej cytowanych dzieł świata jest Biblia.
    Gdy byłam dzieckiem, węglarze dowozili węgiel do centrum dość sporego (przed wojną już milionowego) miasta, w którym mieszkam. Zrzucali go do takich specjalnych wlotów w piwnicach. Nie wykluczam, że były to doskonale zrobione konie mechaniczne von Kempelena, a każdym kierował grający w szachy Turek.

  36. magdalenasd
    Zgoda, Biblia jest najczęściej czytanym zbiorem bajek. I co z tego?
    Kierowałaś kiedyś pojazdem konnym? Ja zaś tak.
    No cóż, dyskusja z „wykształciuchami” nie ma sensu… 🙁

  37. @Leonid: Mam nadzieje ze Pan tez

  38. A.L. (18 marca o godz. 15:44)
    ?

  39. Z własnego doświadczenia wiem, że komendy wiś i het (czy ich wersje mnogie) działają wtedy, gdy pociągnie się odpowiednio lewą lub prawą lejcę. Co jednak te szczegóły mają do tematu, nie mam pojęcia.

  40. panek
    Nie koniecznie. Dobrze wyszkolony koń wykonuje je bez konieczności użycia lejc, a brzmią one „heśta” i „wiśta”.

  41. Nieśmiało poddaję pod rozwagę, iż jeżeli tomy słownika były drukowane za czasów peerelu to różna grubość poszczególnych tomów słownika mogła wynikać z przydzielenia wydawnictwu papieru o różnej gramaturze.
    Jeden tom był drukowany na toaletowym a drugi na kredowym. Bo takie zjednoczenie rzuciło.

    @A.L. nie korzysta z publicznej komunikacji a więc zmyśla co też mu się wydaje a nie opisuje tego, co można tam usłyszeć. Na początku swoich wizyt na Belferblogu kłócił się, że on nigdy nie widział półnagiej i zapitej młodzieży w podmiejskich pociągach. Jak ktoś pociągami nie jeżdzi to jak ma zobaczyć?

    Młodzież męska używa uniwersalnego wyrazu „fuck” a młodzież żeńska uniwersalnego wyrazu „like”.
    Kiedyś się zastanawiałem, czy powodem tego stanu rzeczy jest nie jest przypadkiem dość oczywista synergia płynąca z tego stanu rzeczy?
    No i jak dopasować do tego następny uniersalny wyraz, czyli „shit”?

  42. czy powodem tego stanu rzeczy nie jest przypadkiem

  43. @zza kaluzy: Jezdze pociagami LIRR i Metro North. I tam takowych nie widzialem. Moze Pan za dlugo siedzi w Czikagowku?

css.php