Kopalnia dla przyszłości

W jednym z niedawnych wydań „American Scientist” przeczytałem refleksje Fredericka Cohana wywołane obejrzeniem filmu „Moneyball”. Film jest o baseballu i zastosowaniu rewolucyjnej w swoim czasie zmiany analizy statystycznej osiągnięć sportowców, która sprawiła, że podupadający klub trafił na szczyt ligi. Dalej autor na tej bazie snuje rozważania o data miningu i to jest właściwy temat jego artykułu.

Dużą część artykułu zajmują bezpośrednie nawiązania do filmu i baseballu. Filmu nie widziałem, wyłączywszy jakieś zajawki, a na baseballu znam się niespecjalnie. Swego czasu sportowe analogie do którejś z amerykańskich gier z piłką (nie pamiętam już której) snuł też Stephen Jay Gould, ale jakoś to przebrnąłem. Tu Cohan rozpisuje się o zaletach data miningu, ale także o jego ograniczeniach. Zalety są dość oczywiste – jest mnóstwo danych, które same w sobie mają wartość niewiele ponadanegedotyczną, ale zebrane łącznie pozwalają na wyłowienie istotnych statystycznie wniosków. Jest też całe mnóstwo danych, których pierwotni wytwórcy nie byli w stanie opracować z różnych względów. Chociażby dlatego, że skupiali się na innych aspektach. Cohan pisze o poszukiwaniu związków między skokami ewolucyjnymi bakterii a zmianami zasolenia wód, w których one żyły. Problem w tym, że ewolucjoniści badając zmiany w genotypach i fenotypach bakterii nie mierzą zasolenia albo mierzą je niezbyt dokładnie, a ekolodzy badając wymagania środowiskowe bakterii nie badają ich zmian ewolucyjnych.

Cohan postuluje więc, aby naukowcy badając jakieś zjawiska nie byli krótkowzroczni, lecz tak projektowali badania, by nadawały się dla przyszłych naukowców do ponownego wykorzystania pod innym kątem, metodami data miningu. Postulat piękny, ale kompletnie pozbawiony szans na realizację. Przecież naukowcy są „krótkowzroczni” nie bez powodów, a powody te trudno przeskoczyć ot tak. Po pierwsze, skąd naukowiec ma wiedzieć, że badając czynniki ze zbioru {a, b, c}, powinien do zbioru dorzucić jeszcze „d”, bo kiedyś przyda się to komus, kto odkryje istotność czynnika „d”? Gdyby podejrzewał, że czynnik „d” jest ważny, toby sam badał jego wpływ, a nie pozostawiał innym okazję do przełomowego odkrycia. Badanie zaś na wszelki wypadek wszystkiego, co jest pod ręką jest nierealistyczne, zwłaszcza w tak materialnej nauce, jak ekologia. Zdarza się, że aparatura pozwalająca zmierzyć stężenie – powiedzmy – potasu, pozwala też od razu zmierzyć poziom sodu. Tak w istocie jest w badaniach wykorzystujących fotometrię płomieniową. Wtedy ktoś badający rolę potasu może przy okazji zanotować też wyniki sodu (powiedzmy, że samo notowanie kolejnych wyników zajmuje znikomą ilość czasu i energii, co jest jednak uproszczeniem). Jednak już dla zbadania wapnia trzeba nieco inaczej przygotować próbkę, więc robienie tego tylko dlatego, że kiedyś ktoś może to do czegoś wykorzystać, nie jest oczywiste. Pamiętajmy też, że każdy odczynnik kosztuje, a naukowiec musi się mniej lub bardziej dokładnie rozliczyć przed grantodawcą.

Kwestię tego, że naukowiec może po prostu zazdrościć wytworzonej przez siebie informacji, której nie jest w tym momencie stanie wykorzystać, na razie pominę. Załóżmy roboczo, że muzyk, który uważa, że ktoś kopiując jego muzykę go okrada, zasługuje na zrozumienie i ochronę praw intelektualnych, a naukowiec powinien w imię Postępu godzić się na kopiowanie wypracowanej przez niego wiedzy.

PS. Wiem, że data mining jest pojęciem mocno zadomowionym już w polskiej nauce, zwłaszcza w informatyce stosowanej, ale nie kojarzę prób spolszczenia. Kopalnictwo danych?

Piotr Panek

Fot. wikipedysta Mattes. licencja CC-PD-Mark. Źródło: Wikimedia Commons