Aaaaaby brrrrrr
Pismo alfabetyczne zakłada, że zbieżność mowy i jej zapisu zachodzi na poziomie fonemu – jakkolwiek rozumieć to pojęcie. Nie wdając się w mniej lub bardziej zagmatwane perypetie, do pewnego stopnia odpowiada ono głosce, czyli czemuś, co można usłyszeć i opisać akustycznie.
Nie wiem, czy Fenicjanie, tworząc alfabet, oddali w miarę wiernie reprezentację używanych przez siebie głosek, ale użytkownicy kolejnych języków zapożyczających ten wynalazek musieli się borykać z problemem różnic w inwentarzu głoskowym/fonemicznym języka swojego i języka, od którego przejmowali alfabet. Głosek może być mniej lub więcej, a zwykle większość jest podobna, ale są też występujące w pierwszym, a nie w drugim – i jednocześnie są występujące w drugim, a nie pierwszym.
Latynowie przejęli alfabet od Etrusków, ale stykali się też z Grekami, z ich alfabetu wywodził się zaś etruski. Etruski prawdopodobnie nie miał rozróżnienia na głoski dźwięczne i bezdźwięczne, które występowało w latyńskim (później łacinie), więc już tu trzeba było kombinować – albo dodając litery greckie, albo zachowując niejednoznaczność. W ten sposób litera C (wariant Γ, które często było zapisywane w postaci przekręconej – <) mogła oznaczać i dźwięczne g, i bezdźwięczne k. Z czasem rozbito ja na litery C i G, ale Rzymianom została po Etruskach pewna nonszalancja co do zapisu dźwięczności i np. imię Cezara można było zapisać jako GAIVS lub CAIVS. Dla zamieszania były jeszcze litery K (przejęta od Etrusków) i Q (przejęta od Greków). Już wtedy pismo i mowa nie były wzajemnie jednoznaczne.
Na dodatek na oznaczenie dziwnych głosek, które w łacinie mogły być co najwyżej alofonami, a nie fonemami, ale występowały w grece, z której kultura rzymska czerpała pełnymi garściami, przyjęto nowatorskie podejście – dwuznaki. W zasadzie było ono intuicyjne. Te dziwne głoski to były formy bardziej typowych spółgłosek, tylko z przydechem (aspirowane). T z przydechem, p z przydechem, k z przydechem przypominają w gruncie rzeczy dwie zlepione spółgłoski: t+h, p+h, k+h (już pewnie pisałem, że h w większości języków europejskich odpowiada słabej spółgłosce, ledwo słyszalnej i bezdźwięcznej, a jej zaadaptowanie w czeskim, litewskim czy łacińskiej transkrypcji ukraińskiego do zapisu głoski dźwięcznej jest wyjątkowe). Podobnie jak nasze „c” i „cz” przypominają zlepione t+s i t+sz. Zresztą odpowiadającą „c” dźwięczną spółgłoskę zapisujemy dwuznakiem dz, a nie pojedynczą literą.
Z czasem głoski aspirowane tu i ówdzie asymilowały się do głosek zwykłych – ph do f, th do głoski międzyzębowej czy wręcz f, kh do k lub ch. Związek pozostał tylko historyczny.
Z greki przyszły też dyftongi, które obecnie zapisujemy jako aj i oj, a które Rzymianie zapisywali jako AE i OE. Czasem zlepiając je nie tylko w mowie, ale i w piśmie – jako Æ i Œ. Ich wymowa przekształciła się, przynajmniej w niektórych odmianach łaciny, do zwykłego e, więc w słowach, w których w wymowie nadal były dwie samogłoski (np. aloe), trzeba było to jakoś zaznaczyć. Takim literom, które nie miały być częścią dwuznaku, dodano więc kropeczki: (aloë). Do dziś (choć raczej archaicznie) w angielskim zdarza się zapis naïve, będący śladem francuskiej zasady, że ai oznacza mniej więcej [e], a dla zbitki [ai] trzeba wymyślić zapis specjalny.
Od Rzymian z jednej, a Greków z drugiej strony kolejne narody europejskie zaczęły przejmować alfabet i problemy zaczęły się pogłębiać (ewolucję semicką pominę). Germanie przekształcili alfabet łaciński w runy, które z czasem uległy zapomnieniu i wróciły jako znaki magiczne. Słowianom misjonarze zafundowali alfabety w mniejszym lub większym stopniu wywiedzione z greckiego, które miały w miarę odpowiadać ich inwentarzowi fonemicznemu – głagolicę i cyrylicę.
Pierwszy miał skomplikowane kształty liter (konkretne pochodzenie jest kontrowersyjne), drugi prostsze, ale niektóre od początku wyglądały jak dwuznaki (choćby Ю). Miał też litery, których istnienia nie rozumiem (pewnie specjaliści mają wytłumaczenie), jak Ѿ (oznaczająca „ot” i w sumie będąca dwuznakiem z omegi i t) czy Ψ oznaczająca to samo co greckie psi.
Nawet po wyrzuceniu niektórych liter cyrylica ma ich więcej niż podstawowy alfabet łaciński. Z tego względu jest lepiej dostosowana do języków słowiańskich, ale nadal nie jest to ideał. W języku rosyjskim dla obcokrajowców zwykło się np. zapisywać akcentowane samogłoski z kreską, co ma znaczenie nie tylko dla akcentowania, ale i podstawowej wymowy, jako że nieakcentowane o i e (je) brzmią inaczej. W uproszczeniu określa się to jako akanie i ikanie, ale to nie do końca tak. Podobnie z literą oznaczającą jo, która bywa zapisywana z diakrytykiem, choć często bywa on opuszczany. No i Й też jest w istocie literą z diakrytykiem.
W rosyjskim są różne procesy fonetyczne/fonologiczne, które sprawiają, że pisownia rozjeżdża się z wymową – choćby zbitki głoskowe, w których litera Ч zbliża się (nieraz całkowicie) do „sz” czy „ś”, a nie formalnie odpowiadającej jej miękkiej „cz”. Jest też podobne do polskiego ubezdźwięcznianie. W języku serbskim ortografowie starają zachować zbieżność wymowy z pisownią, przez co z kolei traci się spójność etymologiczną. W ten sposób od rzeczownika „Srbija” z „b” jest przymiotnik „srpski” z „p”.
Im więcej w alfabecie liter, tym większa może być zbieżność z wymową i mniejsza potrzeba diakrytyków lub dwuznaków. Pozostaje kwestia tego, co w danym języku użytkownicy czują jako odrębny fonem, a co nie. W wielu językach słowiańskich mamy afrykatę „c” [ts]. Stąd zapożyczenia z języków słowiańskich w tych językach, które jej nie mają, mogą zawierać dwuznak ts lub tz (że nadal po angielsku nie ma tam w wymowie afrykaty, tylko „tzar” jest wymawiany [za(r)], to inna sprawa). W przypadku afrykat, podobnie jak w przypadku spółgłosek aspirowanych, pisownia dwuznakowa jest intuicyjna. Głoskę [dz] można zapisać jako „dz”. Owszem, będą sytuacje, gdy ten sam zapis nie oznacza jednej głoski, tylko dwie, osobną [d] i osobną [z] (np. „odzywać”), ale to dość jednoznaczne przypadki. Podobnie zresztą z „odżywiać”, choć tu już może być różnie między dialektami, bo na Podlasiu nierzadka jest wymowa [d-żem], a w Małopolsce standardowa jest wymowa [dżewo], a nie [d-żewo]. Na marginesie: często po polsku litera „c” jest np. w miejscach, gdzie po rosyjsku są dwie litery „тс” (choćby w słowie „sowiecki”).
Podobnie może być ze spółgłoskami zmiękczonymi, które w wielu alfabetach cyrylicznych są dwuznakami z miękkim jerem albo mają doklejony jego znaczek, np. Љ. W polskim też są często zaznaczane przez dodanie i, np. [ɲɛ] mogłoby być zapisane „ńe”, ale jest zapisywane „nie”, mimo że w ogóle nie ma tam głoski [i].
Analogicznie jest z zapisem iloczasu, czyli istotnej dla znaczenia różnicy w długości samogłosek. Nie jest dziwne, że w niektórych językach samogłoski krótkie są zapisywane pojedynczą literą, a długie podwójną. (W sumie to aż dziwne: w jak wielu językach z iloczasem to rozwiązanie nie jest stosowane – albo przez ignorowanie problemu, jak w łacinie, albo przez wybór diakrytyków, jak w czeskim). Tu wkraczają kwestie interpretacji, czy takie długie samogłoski są dwiema samogłoskami występującymi obok siebie, czy długimi formami jednej samogłoski. Zresztą podobnie jest ze spółgłoskami. Dla jednych badaczy w środku słowa „wanna” są obok dwa [n], a według innych – długie [n], czyli [n:]. (W estońskim, gdy taka podwójna głoska trafi na sylabę akcentowaną, niektórzy interpretują to jako potrojoną głoskę).
Działa to jednak tylko wtedy, kiedy same głoski składowe nie są problematyczne w zapisie. [ts] można zapisać „ts”, a [dz] zapisać „dz”. (Można roztrząsać, czy dany dyftong, który dla polskiego ucha brzmi „aj”, to raczej [ai] czy [ae], ale to poboczna kwestia). Ale już z [dʒ] i [tʃ] tak się nie da, bo samo [ʒ] i [ʃ] wykraczają poza zwykły alfabet. Trzeba uciec się do mniej lub bardziej nieintuicyjnej konwencji.
W języku angielskim afrykatę [dʒ] najczęściej można znaleźć w miejscu liter „g” lub „j”. To pierwsze ku konfuzji z głoską [g]. Afrykatę [tʃ] z kolei pod „ch”. Jedno i drugie ma podłoże historyczne i wiąże się z historią palatalizacji głosek [g] i [k], stąd powiązanie ich z tymi literami nie jest całkiem przypadkowe.
Dwuznak „ch” jest jednym ze starszych dwuznaków, sięga łaciny. Był to jeden z serii dwuznaków na oznaczenie greckiego k z przydechem. Z czasem jego wymowa zaczęła się ujednolicać ze zwykłym k i w starych tekstach pisownia c/ch/k bywała dość zmienna i zastępowalna. Z czasem w angielskim utrwaliło się, że w kontekście palatalizującym odpowiada [tʃ] (np. „church”), a niepalatalizującym – [k] (np. „Christ”). (Podobnie wyszło w niemieckim i francuskim, choć tam spirantyzacja sprawiła, że nie ma już afrykaty, i genetyczny związek z k jest jeszcze mniej czytelny).
Z drugiej strony pojawił się dwuznak „sh” na oznaczenie [ʃ], które często powstawało w miejsce dawnego [sk]. No i jest „th”, które nie oznacza „t z przydechem”, tylko głoskę pokrewną t lub d, ale bardziej zębową. I tak się utrwaliło, że w języku angielskim h po spółgłosce może oznaczać jej daleko idącą modyfikację. Stąd współcześnie pojawiają się zapisy w stylu „Zhivago” czy „Volhynia”.
W językach czeskim i polskim dwuznak ch został wykorzystany do oddania głoski pokrewnej [h], wymawianej również bezdźwięcznie, tylko wyraźniej i z czubkiem języka bliżej środka jamy ustnej (a więc podobnie do k). W czeskim to miało uzasadnienie, bo oprócz tej głoski istnieje głoska będąca podobnym przydechem jak w oryginalnym „h”, tylko lekko dźwięcznym (przy takim ułożeniu artykulatorów trudno o porządne zadrżenie fałdów głosowych), w polskim – przynajmniej w czasie tworzenia polskiego alfabetu – nie za bardzo. Jednak się przyjęło, i kiedy w języku polskim pojawiły się wpływy ruskie, utrwalił się podział na zapis „h” dla głoski dźwięcznej i „ch” bezdźwięcznej.
W polskim nie ma głosek aspirowanych, więc dodanie h do litery nie budziłoby takich skojarzeń jak w łacinie i mogłoby stać się uniwersalnym wyróżnikiem modyfikacji. Ch jest już jednak zajęte – nie może oznaczać „ć” ani „cz”. Podobnie nie wiadomo, czy zh miałoby oznaczać „ż” czy „ź” (tu oczywiście pozostaje kwestia, co uznać za głoskę „podstawową”, a co „zmiękczoną”, „twardą” itd.). „Ś” uznajemy za miękkie „s”, a „sz” za twarde, ale to są pewne konwencje. W niemieckim praktycznie taka sama spółgłoska jest spalatalizowanym „ch”. Miękkość i twardość nie są cechami fonetycznymi – miękkości trochę odpowiada palatalizowana – jak np. „s” w słowie „sinus” i to przesuwanie miejsca artykulacji jest stopniowalne – sz jest mniej przesunięte do wymowy podniebiennej, ś – całkiem, ale patrząc z perspektywy miejsca artykulacji, to właściwie „sz” jest pomiędzy „s” a „ś”. To w sumie odpowiadałoby konwencji węgierskiej, gdzie „sz” oznacza [s] a „s” oznacza [ʃ ], czyli odwrotnie niż w polskim, tylko że tam nie ma odpowiednika „ś”. Ale nawet gdy polscy językoznawcy przyjęli wewnętrzny podział na spółgłoski „miękkie” i „twarde”, to [s] jest w nim tak samo twarde jak [ʃ], a właściwie [ʃ] w niektórych sytuacjach jest określane jako funkcjonalnie miękkie. Podział na zwykłe „s”, miękkie „ś” i twarde „sz” funkcjonuje chyba tylko w nauczaniu i to wczesnoszkolnym. Niemniej poczucie związku głosek s-sz, z-ż, c-cz i dz-dż jest w polszczyźnie na tyle silne, że są one zastępowane w procesach mazurzenia i szadzenia.
Zatem z jednej strony związek s z sz jest odzwierciedlony w kilku systemach pisma (polski, węgierski, angielski, włoski), ale może mieć różne podłoże – w tych dwóch ostatnich językach „sz” (przynajmniej niektóre) powstało z uproszczenia zbitki „sk” (stąd włoski zapis „sc”), a w językach, w których powstało w inny sposób, może być to niekoniecznie aż tak intuicyjne. Podobnie z innymi takimi głoskami odbiegającymi od łacińskiego minimum. O tym, że w też jest dwuznakiem, a j właściwie „i z ogonkiem” i oba były nieznane klasycznej łacinie, już nawet nie będę się rozpisywał.
Jeżeli więc przyjąć, że niektóre głoski uznamy za bardziej podstawowe i zasługujące na własne litery z łacińskiego minimum, a innym trzeba poszukać dwuznakowego wyróżnika, dobrze sprawdzić, co będzie najmniej wieloznaczne. Sz wygląda dobrze – chyba nie ma w polszczyźnie słów zawierających taką zbitkę. Cz jest prawie dobre, bo wyjątkiem jest bodaj tylko „tysiączłotowy”. Żarty z wymową „tażan” nie unieważniają tego, że rz też rzadko występuje – takich przypadków tylko sobie wymarzać. Ch (z całym zastrzeżeniem co do potrzeby takiego dwuznaku) też nie jest bardzo problematyczne. Gdyby zrezygnować jak Chorwaci ze sztucznego podziału na „h” i „ch” i konsekwentnie wszystko zapisywać przez h, zniknąłby problem ze „zharmonizowaniem”, ale pojawiłby się ze „shnięciem”, więc h jako uniwersalny jest nie najlepszy.
Język polski jest pod względem szukania opcji dla dwuznaków podwójnie skomplikowany – nie tylko ma dużo samogłosek wykraczających poza alfabet, ale i dużo dopuszczalnych zbitek. Przykładowo: tabele dopuszczalnych zbitek w języku polskim i współczesnym angielskim mają zdecydowanie inną wielkość. W języku średnioangielskim zaszła np. degeminacja, czyli zanik podwójnych spółgłosek. Przykładowo w słowie „innocent” jest od tego czasu tylko jedno „n”. Nie znaczy to, że w ogóle się nie usłyszy takiej zbitki, bo np. słowo „unnamed”, mimo że jest pisane jako pojedynczy wyraz, jest wymawiane jak dwa: „un” + „named”.
Na przestrzeni kilkuset lat ewolucji angielskiego podobne uproszczenia objęły bardzo dużo kolejnych zbitek, które zachowały się w piśmie jako tzw. nieme litery i wskazują na łaciński czy germański rodowód mimo bardzo innego brzmienia. „Knight” wygląda podobnie jak „knecht”, a „psalm” identycznie jak to słowo w wielu innych europejskich językach, ale wymawiane są zdecydowanie inaczej. Stąd gdyby chcieć reformować pisownię angielską, można by stosować wiele zbitek literowych, które są dziś niewymawialne, więc ich obecność sugerowałaby rozbieżność pisowni z wymową. Z polskim jest dużo trudniej.
Komentator R.S. zasugerował zapis podwójnych liter. Jak wspomniałem wyżej, to całkiem nieźle sprawdziłoby się w angielskim, ale w polskim prowadziłoby do kompletnej utraty jednoznaczności. Polska fonotaktyka (czyli właśnie sposób łączenia głosek) pozwala na prawie każdą geminatę.
W Polsce nad fonotaktyką pracował m.in. Bronisław Rocławski. Już w realiach PRL udało mu się zaprząc technikę do analizy tekstów drukowanych i przeanalizował je ilościowo – nie tylko, które głoski występują z jaką częstością, ale też z jaką częstotliwością się łączą. Oczywiście program analizował litery, a nie głoski, ale o ile w polszczyźnie z wymowy nie da się jednoznacznie przewidzieć zapisu (wiadomo, że dzisiejsze analizatory mowy nie zapiszą ze słuchu „fzhut”, ale z homofonami w stylu „może/morze” czy „lont/ląd” bez kontekstu sobie nie poradzą), o tyle z zapisu wymowę miarę da się przewidzieć, i to nie tylko słownikową (bo to i w angielskim się da), ale i słów potencjalnych, jak choćby powyższy „fzhut”, który każdy znający reguły języka polskiego przeczyta podobnie: [fsxut]. Przy okazji próbował analizy różnic między różnymi stylami, ale przy stosunkowo ograniczonej liczbie przebadanych tekstów ciężko o daleko idące wnioski.
Z jego analiz wynikło, że występują w nich podwojenia prawie wszystkich głosek z niewieloma wyjątkami. Wyjątki to np. ii, ɨɨ („yy”), uu, jj, mm, ŋŋ (to głoska w polskim występująca w słowach „mąka” czy „bank” i odpowiada za różnicę w wymowie „Irenka” oraz „i ręka”, choć w tradycyjnej wymowie krakowskiej może tej różnicy nie być), ww („łł”), vv, ɕɕ („śś”), ʑʑ („źź”), pp, cc (symbolem [c] zapisuje się głoskę na początku słów „kiedy” lub „kisiel”), g’g’, bb, gg).
Tu aż się prosi o uwagę: „Yyyy? Najwyraźniej nie analizował tekstów nieformalnych czy z zapożyczeniami wcale nie tak egzotycznymi, jak „kappa”, „Emma” czy „Abba” buuuu… Iiiii, do kitu z taką analizą w kontekście języka rzeczywistego”. To prawda, na pewno to i owo jego analiza przegapiła (geminata [jj] jest choćby w słowie „najjaśniejszy”). Zapisy dźwiękonaśladowcze kontynuantów, czyli głosek, które można wymawiać dowolnie długo (aż do wyczerpania wydechu), tu musi mieszać.
Niemniej może to pokazywać pewne zarysy. Najczęstszą taką geminatą wydaje się [nn]. Zatem użycie dwuznaku nn (np. na rzecz głoski ɲ („ń”) to nie najlepszy pomysł). Ll występuje rzadko, ale występuje. Oo, ee czy ss też, nawet jeśli nie za często. Tak czy inaczej, uniwersalne stosowanie podwójnych liter w polskim nie jest dobrym pomysłem, choć to chyba ono stało za upowszechnieniem sz, które miewało też wariant ss (zachowany w niektórych pisowniach niemieckich jako ß). Z jednej strony zapis ten mógł wiązać się z płynnością dźwięczności/bezdźwięczności w tekstach łacińskich, z drugiej – z tym, że zbitki [sz], [zs] są trudno wymawialne, choćby ze względu na asymilację dźwięczności zamieniają się w [ss] lub [zz]) w językach, które przyjęły taką pisownię, tj. czeskim, a potem polskim.
Oczywiście, głoski to jedno, a litery to drugie. Z jednej strony głoskę ɲ można zapisać jako ń („koń”), ni („nie”) albo w ogóle zwykłe n („nic”), z drugiej – litera ń w słowach „koń” i „kończyć” odpowiada innym głoskom (w tym drugim transkrypcja wymowy jest w ogóle dla laika dziwaczna – [kɔ̃j̃n͇ʧ̑ɨʨ̑] bo głoska [n] prawie wcale nie jest miękka, a kreska nad literą n w zasadzie sygnalizuje, że przed nim jest niezauważalne w pisowni nosowe j.
Dlatego też najrzadziej pojawiająca się jako drugi element diady (wyłącznie po samogłoskach) głoska [ŋ] nie jest dobrym kandydatem, bo nie ma swojej litery. Niewiele częstsze w takiej pozycji „dz” i „dż” też. Z samogłosek najrzadziej z kolei jako drugie występuje „y”, ale i tak występuje po większości spółgłosek.
W tej sytuacji można by pomyśleć o użyciu którejś z egzotycznych liter. W jednej z wersji zapisu języka chińskiego literami łacińskimi X jest użyte do zapisu czegoś na kształt „ś”, a Q – „ć” (kilka innych liter i dwuznaków też niespecjalnie ma się do intuicji zapisu angielskiego). Zatem jeżeli już trzeba by kombinować z dwuznakami, to ze względu na polską fonotaktykę dopuszczającą wiele zbitek głoskowych trzeba by właśnie użyć tych nietypowych liter.
Oczywiście, nie mam najmniejszego zamiaru promować tego pomysłu i niespecjalnie chce mi się go dopracowywać. Nie mam ambicji reformy ortografii, a osób o takich ambicjach nie brakuje. A jak pisałem, kiedyś już kwestie te budziły niemałe emocje. Po prostu zareagowałem na propozycję rzuconą w komentarzach.
Piotr Panek
Komentarze
@ppanek
Od kwietnia troche czasu minelo, i w tej chwili wszystkie (!) blogi w nowym formacie (chyba ponad 10) maja w prawej kolumnie rubryki Ostatnie wpisy i Ostatnie komentarze, z wyjatkiem – tego jednego. Czy mozna prosic o ponowne zwrocenie sie do odpowiedzialnych za to?
@ppanek
„Nie wiem, czy Fenicjanie, tworząc alfabet, stworzyli w miarę wierną reprezentację używanych przez siebie głosek” – ten alfabet zapisuje tylko spolgloski.
A owszem, semickie alfabety, w tym pierwszy dobrze nam znany, czyli fenicki, nie zapisują samogłosek. Oczywiście, przynajmniej późniejsze alfabety hebrajskie i arabskie mają wersje z dodawaniem znaczków wskazujących brakujące samogłoski. Z kolei były/są „alfabety” zapisujące nie głoski, a całe sylaby. Ale i tak tekst jest zbyt obszerny, żebym się o tym rozpisywał.
Zapis sylabiczny to wlasciwie przedalfabet, istnial m.i. w etapie przejsciowym od hieroglifow do pisma, niektore zapisy hieroglificzne byly mieszanka hieroglifow i sylab, troche jak rebusy.
W hebrajskim i arabskim znaczki oznaczajace samogloski sa opcjonalne, mozna pisac z nimi lub bez.
Tekst jest bardzo ciekawy, zupelnie nie przeszkadza ze obszerny, rozpisywanie sie bedzie mile widziane 🙂
W przykladzie „GAIVS lub CAIVS” jest jeszcze jedna ciekawostka – brak rozroznienia miedzy dzisiejszym U a dzisiejszym V lub W (zwanym po angielsku wlasnie „podwojnym U”)
@ppanek
To bylo szybkie 😆 😆 😆 (sa ostatnie komentarze 🙂 )
Dziekuje 🙂
Jeszcze tylko dodam, że „lekceważący” stosunek do samogłosek w zapisie jezyków semickich wynika z tego że samogłoski nie są stałym elementem wyrazu, zmieniają się z formą gramatyczną, więc nie są własciwie nosicielami znaczenia.
W świetle ostatnich zmian, usunąłem ostatni akapit, bo jest bez znaczenia dla tekstu.
A kalendarz mnie nie przeszkadza.
@ppanek
No proszę, dało się! Dzięki.
Kalendarz może być, gdzie chce, byle nie tam, gdzie był dotąd.
Panie Piotrze,
Śliczne dzięki za podkład fonetyczno-historyczny.
Odnośnie tematu, moim pierwszym instynktem wprowadzania polskich liter ze znakami diakrytycznymi za pomocą standardowej klawiatury QWERTY, było podwójne wprowadzenie tej samej litery.
Skryptowi JAVA, ukrytemu w każdej stronie internetowej powierzyłbym stosowna zamianę, w wyniku której dostawalibyśmy właściwy diakrytyk.
Przy dodatkowej analizie niejednoznaczności, porównaniu ze słownikiem ortograficznym, słowa w obiekcie edycyjnym (edit box), skrypt mógłby dokonać inteligentnej korekty słowa.
Tego typu rozwiązania są dość powszechne np. w postaci auto korektorów. Niestety kara za takie rozwiązanie będzie bardzo korpulentna wewnętrznie strona internetowa.
Niemniej szybka reakcja kolegi Markota zwróciła uwagę na istnienie dość uciążliwych wyjątków ortograficznych i możliwych niejednoznaczności.
Po analizie problemu od strony programowej, doszedłem do wniosku, ze dużo bardziej eleganckim rozwiązaniem byłaby filtracja znaków, charakterów ze zbioru ASCII, na poziomie systemowym i dodania odpowiedniego filtru systemowego klawiatury.
Enkodowanie diakrytyków polskich za pomocą podwójnego szybkiego uderzenia w klawisz tej samej litery w czasie np., krótszym niż 50-100 milisekund w zamierzeniu doprowadzałaby i do podstawienia litery.
Takie rozwiązanie wydaje mi się bardziej eleganckie i uniwersalne.
Niemniej problem istnieje wciąż z litera ‘zi’ , i poza ‘triple click’ nic rozsądnego do głowy mi nie przychodzi.
Napisanie oraz dystrybucja driverów systemowych ‘kernel’, to bardzo skomplikowane i odpowiedzialne przedsięwzięcie, wymagające testowania oraz otrzymania certyfikatu przez Microsoft.
Dlaczego?
Błąd w driverze może kompletnie zablokować komunikację z klawiaturą i co wtedy?
Krzyk i rozpacz użytkowników!
Piszac ten komentarz uzylem modul jezyka polskiego w Word, który ma wbudowana autokorekte. Mimo tego jak widać ten skomplikowany program wciąż ma luki i kłopoty z podstawieniami.
Podobnie jest w iPhonach i iPadach, ‘autocompletion’, tez się tam rzadko sprawdza.
Oczywiście, być może język polski wyewoluuje i odrzuci diakrytyki, ale to już pozostawiam przyszłym pokoleniom i językoznawcom.
W iPhonach i iPadach bardzo dobrze sprawdza się stosowana tam metoda wyświetlenia (po minimalnie dłuższym nakliknięciu) wszystkich wersji danej litery stosowanych w wybranym języku.
@markot
Rzeczywiscie. Ale komentowanie na iPhonie to i tak akrobatyka…
Racja, Markot. Nie mam problemu pisania polskimi literami na iPadzie. Chińczycy używają setek znaków.
@observer
O ile pamietam, do przeczytania gazety po chinsku potrzebna jest znajomosc okolo 3000 znakow, w jezyku literackim jest okolo 10,000. Chinskie znaki reprezentuja slowa
Wynalazek maszyny do pisania a później komputerowego oprogramowania z edycją tekstów, pozwolił na zapis około pięciokrotnie szybszy niż pisanie odręczne. W projektowaniu urządzeń HID (human interface devices), bierze się pod uwagę ergonomię i bezpieczeństwo pracy.
Oczywiście osoby piszące dwoma palcami i w dodatku sporadycznie w blogach, fatygi rąk nie odczują. Niezależnie czy będzie to iPad czy keyboard QUERTY. Ale w przypadku zawodów wymagających wielogodzinnej pracy z klawiaturą, wręcz bllache, (Word nie zna słowa błache, więc uparcie zastosuję technikę double-l), usprawnienia stanowią o tym czy osoba nabawi się chronicznych zmian podrażniających nerw(y) lub nie.
Swoja droga jest to prawdopodobnie dobry temat dla kogos znającego problemy chronicznych schorzen.
Jak zauważył autor artykułu, kolega Piotr Panek, w angielskim poszło łatwiej, choćby z ‘vv’, która to zbitka przekształciła się w double-u czyli ‘w’.
Z polskim oraz tradycja pisowni tak łatwo nie jest. Enkodowanie żaby, jako ‘zhaba’, zbyt haczy o rosyjską transliterację i żaden patriota czy tez ortodoks językowy na taki układ nie pójdzie.
Na zakonczenie przypomnę dla jasności ze ja nie forsuję zmian ortograficznych a piszę o wprowadzeniu interfejsu (filtru systemowego klawiatury), który pozwoli na ergonomiczne i szybkie pisanie diakrytykow z całą polską tradycją ortograficzno, koniugacyjno, deklinacyjną etc.
Z mojego punktu widzenia problem jest softwer-owy.
A jeśli ktoś jest sceptykiem i ma wątpliwości co do dynamiki pisania, to niech przeprowadzi test ze stoperem, pisząc stylem double keystroke, tradycyjnie z Alt-X, czy przytrzymywaniem liter tak jak w iPhonie i niech poda nam ilościowe wyniki, tak jak na naukowca przystało.
Ostatnia dygresja.
Koncepcyjnie i programowo double-keystroke wcale aż tak się nie rożni od metody przytrzymywania litery. Tyle że klasyczna QWERTY z klawiszami nie rozumie przytrzymania. Kodu z jednego systemu operacyjnego do drugiego łatwo nie da się przenieść.
Word nie zna słowa błache
Mój Word zna błahe
Czy znane są badania porównawcze np. wśród polskich i np. angielskojęzycznych dziennikarzy i pracowników serwisów internetowych wskazujące na więcej chronicznych schorzeń rąk u tych pierwszych?
@markot
Nawet jesli by sie znalazly, beda wskazywac np na zle dopasowana wysokosc krzesla, gorsza jakosc klawiatury i jeszcze nascie innych zmiennych… Aby takie badanie mialo sens, musialbys np posadzic na identycznych i indywidualnie dopasowanych stanowiskach x maszynistek przepisujacych teksty o identycznej liczbie znakow w jednym i drugim systemie, i po paru tygodniach porownac skargi na bol w dloniach.
(Maszynistka vs maszynista, a propos naszej poprzedniej rozmowy 😀 )
Maszynistka vs maszynista nie będzie miarodajne (wielkość dłoni, długość palców itp.)
W drugiej grupie maszynista vs maszynista, a w trzeciej maszynistka vs maszynistka 🙂
A w czwartej komputer rozpoznający mowę, piszący pod dyktando 😉
@markot
W opisie eksperymentu pisalam tylko o maszynistkach. Nie przez seksizm, tylko dlatego ze opozycja maszynistka vs maszynista jeszcze jeden przyklad nazw zawodow, w ktorych forma meska i zenska opisuja calkiem inne zawody, tz do tematu o ktorym rozmawialismy niedawno. Maszynista a meska maszynistka to nie to samo 🙂
Kobieta prowadząca pojazd trakcyjny nazywana jest również maszynistką 😉
To prawda 🙂
Ale np kierowca a nawet nowszy komputerowiec w ogole nie maja formy zenskiej
Zamiast dodawać końcówki, dodajmy pani-kierowca, pani komputerowiec.
Do kierowcy czy komputerowca nie moglibysmy dodac koncowki nawet gdybysmy chcieli 🙂
Kierowca brzmi już prawie żeńsko, jak owca 😉
Policja używa „kierująca/kierujący pojazdem” 😎
Wlasciwie moglaby byc kierowczyni, ale to brzmi okropnie… Propozycja @observera jednak najlepsza.
Brzmi okropnie, bo ucho nieprzyzwyczajone…
mówca – mówczyni
sprzedawca – sprzedawczyni
odbiorca – odbiorczyni
sprawca – sprawczyni
zabójca, rozmówca, wydawca, obrońca…
Moje dziecko mówiło: sprzedawczynka 😉
Widzę kłopot ze złoczyńcą 🙄
Sędzia w wydaniu żeńskim się zadomowiła bez problemu i nie trzeba dodawać „pani” ani robić z niej „sędziny”, co dawniej oznaczało żonę sędzi, a wraz z rosnącą liczbą kobiet w tym zawodzie zaczęło oznaczać kobietę sędzię.
Może i kierowca się przyjmie bez dodatków.
Kobieta jest człowiekiem, więc może też być świetnym kierowcą, znakomitym radcą prawnym, komputerowcem, dyrygentem, lekarzem etc. bez ujmy na honorze z powodu męskiej końcówki w nazwie zawodu.
@markot
„Widzę kłopot ze złoczyńcą”
To akurat z górki – złoczyniąca 🙂
Bardzo ciekawy artykuł. Prawie tak bardzo ciekawy jak długi. Jedna tylko uwaga: ‚sowiecki’ nie jest wyrazem polskim, podobnie jak junajdzki, bundeski, kigdomski, itp. To jest raczej nowa kategoria językowa, którą chyba można by nazwać inwektywem idiotów (ii).
Sowiecki, Sowieci – używane było długo w przedwojennej Polsce, z czasem na przemian z radziecki który to termin zaczął być lansowany w latach 30.
Z czasów dzieciństwa pamiętam notorycznie przez dorosłych stosowany zwrot „za Sowietów”, co miało oznaczać lata 1939-41 na Kresach. Bardzo poręczny termin.
Z czasem „Sowieci i sowiecki” zaczęły charakteryzować język Radia Wolna Europa i zaciętych antykomunistów i dzisiaj używane są dla podkreślenia abominacji i głównie w znaczeniu pejoratywnym.
W innych językach (angielski, niemiecki) funkcjonują bez takich obciążeń i klarownie odnoszą się do okresu 1922-1991 w dziejach Rosji.
@jcp
Język polski pełen jest wyrazów obcych i zwrotów obcojęzycznych.
Nie wszystkie wywodzą się z łaciny, greki, sanskrytu, niemieckiego, francuskiego i angielskiego 😉
@karat
„złoczyniąca” wobec złoczyńcy (nie „złoczyniącego”) to jak „kierująca” wobec kierowcy.
Barbarzyńca też jest tylko męski.
@markot
„za Sowietów… Bardzo poręczny termin.”
Trochę jednak nieporęczny, bo bez liczby pojedynczej.
Polacy wiedzą, że wszystkie niegodziwości tego świata to robota Sowietów, ale gdyby kogo chcieli za to zakuć w dyby, albo co mu urwać, to maja problem, żeby sobie jakieś pojedyncze sowiety nałapać. Na szczęście używanie sowietów służy głownie rozładowania kompleksowej mieszanki niższości/wyższości, więc nie potrzebne są
rzeczywiste byty sowieckie. Poza tym, jak znam sowietów, to nie wiem kto komu by cos urwał albo potłukł.
@Klawisz a sprawa polska
Aby przedstawić proces przetworzenia uderzenia w klawisz na literę, warto cofnąć się do podstaw działania klawiatury. Klawiatura to zbiór przełączników, których zadaniem jest dostarczanie krótkiego impulsu elektrycznego. Dla uproszczenia przyjmijmy ze gdy podzas uderzenia w klawisz powstaje impuls elektryczny o napięciu 1 volt, nazywany bitem.
We wczesnych początkach przekazu telegraficznego, litery, znaki oraz specjalne instrukcje komunikacyjne zostały zorganizowane w szachownice a bardziej poprawnie, macierz o wymiarach 16 rzędów na osiem kolumn. Pozwoliło to na zakodowanie tablicy za pomocą jednego ośmiobitowego bytu.
Rzędy zakodowano bitami od jednego do czterech czyli lower bits a kolumny bitami wyzszymi. I tak naprzyklad litera ‘G’ binarnie zakodowana jest jako ‚1000111’. Nacisniety klawisz ‘G’ wyprodukuje ciag impulsow jeden volt, zero voltow, zero voltow , zero voltow , itd.
Taka macierz pokazana jest w poniższym linku.
https://en.wikipedia.org/wiki/ASCII
Ponieważ standard był wymyślony przez inżynierów amerykańskich nosi on nazwę ASCII, czyli American Standard Code for Information Interchange.
Wraz z upowszechnianiem komputerów, nastąpiła potrzeba wyjścia z ograniczeń ASCII i wprowadzenia dodatkowej typografii. Powstało wtedy pojęcie lokalizacja systemów operacyjnych zawierających międzynarodowe litery. Dodatkowe macierze znaków nazwano UNICODE.
https://en.wikipedia.org/wiki/Unicode
Polskie klawiatury majace diakrytyki pracują w tym standardzie. UNICODE jednakże skomplikował budowę klawiatury, gdyż aby adresować znaki potrzeba więcej bitów.
Osoby posiadające klawiaturę QWERTY, musza wprowadzać dodatkowe brakujące bity za pomocą dodatkowych klawiszy.
Jest spora szanse, ze problem zostanie softwer-owo rozwiązany przez adaptacyjne, samouczące auto-korektory slow. Technologia wciąż się rozwija i intensywnie wprowadzana jest w IPadach i IPhonach.
W większości przypadkow nowoczesne programy typu WORD, potrafią rozpoznać polskie slowo i automatycznie zamienic je ortograficznie poprawnym.
W poprzednim komentarzu zwrocilem na to uwagę, ze auto-rozpoznawacz-korektor może wyprodukować slowo niepoprawne, niewlasciwe lub wręcz nie istniejące w słowniku. Komentator Markot, zwrocil na to uwagę.
W tym wpisie celowo, mimo ze pisanym w WORD 2019 z modulem polskim, zostawiam słowa tak jak auto-korektor je przepuscil.
W osobnym eksperymencie zauwazylem ciekawostke, ze autokorektor trafiając na koncowki -ee -aa , zaczyna je odpowiednio podstawiać diakrytykami.
Nie mam pewności, ale być może WORD ma wbudowany autouczacy się neuronowy modul adaptacyjny.
Rzecz warta zbadania.
@
jcp
16 czerwca 2020
13:13
Jakoś tak było, że mówili „za Sowietów” albo „za Stalina”, ale to nie były dokładnie te same okresy, bo ten drugi dotyczył powojennego okresu do 1953 roku. I już na innym obszarze geograficznym. Potem nastało „za Gomułki, za Gierka”…
W odniesieniu do okupacji niemieckiej mówiło się jednak „za Niemca”.
Niemiec pojedynczy stał się symbolem.
– Za Niemca było lepiej – słyszy się w niektórych kręgach do dziś 🙄
@markot 11:01
Co do zloczyniacej – masz racje, ale wydaje mi sie ze z braku dokladnej symetrii to dobre wyjscie.
Zenski barbarzynca – natknelam sie na sugestie barbarzynka 🙂
Za Niemca było lepiej – uzycie formy pojedynczej dla okreslenia grupy jest dzis przewaznie uznawane za obrazliwe lub rasistowskie.
(Choc nie potrafie wyczuc czy akurat w tym przypadku)
@RS
Dzięki za link. Używałem ASCII do programowania wczesnych PLC, bardzo mozolna praca.
Karmiłem butelką pradziadka G82.
@observer
Dzieki za uwage. Cala przyjemnosc po mojej stronie.
O przechwyceniu systemowego IRP-u
https://docs.microsoft.com/en-us/windows-hardware/drivers/gettingstarted/i-o-request-packets
i malo przyjemnej przygodzie z UNICODE napisze troche pozniej jak zejde z rusztowania.