Istota istotności


Każdy, kto prowadzi badania obiektów policzalnych lub mierzalnych pewnie prędzej czy później zetknie się z sytuacją, gdy chmurka wyników jednej grupy wyraźnie różni się od chmurki drugiej grupy, a p wcale nie ma zamiaru spaść poniżej magicznego 0,05. Albo przeciwnie – dwie chmurki prawie się nie różnią, ale program statystyczny wybarwi wynik na czerwono ogłaszając triumfalnie – różnica istotna statystycznie.

U zarania statystyki takie sytuacje zostawiano rozsądkowi badacza. W końcu to on jest specjalistą i on wie, co jest istotną różnicą, a co nie. Niestety, jak wiadomo, rozsądku nikomu nie brakuje, ale u każdego działa on inaczej. Stąd już dość wcześnie pojawiły się pomysły obiektywizacji tych rozsądków. Już niejaki Student (William Gosset) próbował wyznaczyć liczbową wartość istotności statystycznej, a zostało to przypieczętowane przez Ronalda Fishera, który zaproponował wartość p<0,05 jako odpowiadającą odejściu od normy o ponad dwa odchylenia standardowe. Co jednak ciekawe, sam Fisher trzydzieści lat później twierdził, że nie można ustalić raz na zawsze poziomu istotności statystycznej, a wartość p jest jedynie jedną z przesłanek, które badacz wykorzystuje na równi z własnym doświadczeniem, intuicją i pomysłami.

Teoretycznie rzeczywiście tak jest. Podręczniki statystyki mówią, że graniczne p<0,05 jest najczęstsze, ale nie jest jedyne możliwe. Programy statystyczne zaczerwieniają (lub wyróżniają w inny sposób) wartości p poniżej 5%, ale zwykle podają dokładne wartości p lub przynajmniej podają kilka zakresów (p<0,001, p<0,01, p<0,05, p<0,1, p>0,1 itp.) i to badacz ma zadecydować. W praktyce jednak odważają się na to chyba nieliczni. Ja na przykład nie czuję się tak wytrawnym statystykiem, by samemu zmieniać tę wartość graniczną. Nawet zaś gdybym się czuł, to pozostaje kwestia recenzentów, którzy patrząc na tabele i wykresy często zwracają uwagę jedynie na gwiazdki sygnalizujące istotność statystyczną, a wnioski wyciągnięte przy p>0,05 traktują jak śmieci.

Z taką postawą walczy Megan D. Higgs z Uniwersytetu Stanowego Montany. Twierdzi ona, że pojęcie istotności statystycznej jest nadużywane i nadinterpretowane. Swoich studentów zmusza do nieużywania tego pojęcia, zachęcając do podawania wartości p i obrony własnego stanowiska, co do wartości wyników. Pisze o tym w zimowym numerze American Scientist.

W swoim artykule w szczególności zaś przestrzega przed używaniem tego ścisłego terminu w popularyzacji wyników, gdyż jest niemal pewne, że niespecjaliści zrozumieją go opacznie. Opisuje ewolucję słowa „significant”, które jeszcze na początku XX w., gdy tworzono zręby statystyki, w języku potocznym znaczyło coś w stylu „zauważalne”, a obecnie znaczy coś w stylu „ważne”. To drobne przesunięcie semantyczne ma dość duże znaczenie psychologiczne przy interpretacji wyników. Wyniki balansujące przy granicy magicznego 0,05 mogą być albo „ważne”, albo „pomijalne”, a przecież sytuacja jest dużo bardziej złożona i nie jest zero-jedynkowa.

Czytając pomyślałem, że w języku polskim jest lepiej. Że słowo „istotne” ma dużo słabszą wagę niż „ważne”. Ale… czy na pewno? Czy to, że ja słowo „istotne” rozumiem jako „zauważalne, ale niekoniecznie bardzo ważne” nie jest moim skrzywieniem zawodowym? Być może stykając się z pojęciem istotności statystycznej wyrobiłem swoje poczucie językowe już pod tym kątem, a przeciętny użytkownik polszczyzny rozumie je inaczej…

Piotr Panek

ilustracja autorstwa IP 84.5, źródło Wikimedia Commons, licencja Creative Commons 3.0