Kopalnia dla przyszłości
W jednym z niedawnych wydań „American Scientist” przeczytałem refleksje Fredericka Cohana wywołane obejrzeniem filmu „Moneyball”. Film jest o baseballu i zastosowaniu rewolucyjnej w swoim czasie zmiany analizy statystycznej osiągnięć sportowców, która sprawiła, że podupadający klub trafił na szczyt ligi. Dalej autor na tej bazie snuje rozważania o data miningu i to jest właściwy temat jego artykułu.
Dużą część artykułu zajmują bezpośrednie nawiązania do filmu i baseballu. Filmu nie widziałem, wyłączywszy jakieś zajawki, a na baseballu znam się niespecjalnie. Swego czasu sportowe analogie do którejś z amerykańskich gier z piłką (nie pamiętam już której) snuł też Stephen Jay Gould, ale jakoś to przebrnąłem. Tu Cohan rozpisuje się o zaletach data miningu, ale także o jego ograniczeniach. Zalety są dość oczywiste – jest mnóstwo danych, które same w sobie mają wartość niewiele ponadanegedotyczną, ale zebrane łącznie pozwalają na wyłowienie istotnych statystycznie wniosków. Jest też całe mnóstwo danych, których pierwotni wytwórcy nie byli w stanie opracować z różnych względów. Chociażby dlatego, że skupiali się na innych aspektach. Cohan pisze o poszukiwaniu związków między skokami ewolucyjnymi bakterii a zmianami zasolenia wód, w których one żyły. Problem w tym, że ewolucjoniści badając zmiany w genotypach i fenotypach bakterii nie mierzą zasolenia albo mierzą je niezbyt dokładnie, a ekolodzy badając wymagania środowiskowe bakterii nie badają ich zmian ewolucyjnych.
Cohan postuluje więc, aby naukowcy badając jakieś zjawiska nie byli krótkowzroczni, lecz tak projektowali badania, by nadawały się dla przyszłych naukowców do ponownego wykorzystania pod innym kątem, metodami data miningu. Postulat piękny, ale kompletnie pozbawiony szans na realizację. Przecież naukowcy są „krótkowzroczni” nie bez powodów, a powody te trudno przeskoczyć ot tak. Po pierwsze, skąd naukowiec ma wiedzieć, że badając czynniki ze zbioru {a, b, c}, powinien do zbioru dorzucić jeszcze „d”, bo kiedyś przyda się to komus, kto odkryje istotność czynnika „d”? Gdyby podejrzewał, że czynnik „d” jest ważny, toby sam badał jego wpływ, a nie pozostawiał innym okazję do przełomowego odkrycia. Badanie zaś na wszelki wypadek wszystkiego, co jest pod ręką jest nierealistyczne, zwłaszcza w tak materialnej nauce, jak ekologia. Zdarza się, że aparatura pozwalająca zmierzyć stężenie – powiedzmy – potasu, pozwala też od razu zmierzyć poziom sodu. Tak w istocie jest w badaniach wykorzystujących fotometrię płomieniową. Wtedy ktoś badający rolę potasu może przy okazji zanotować też wyniki sodu (powiedzmy, że samo notowanie kolejnych wyników zajmuje znikomą ilość czasu i energii, co jest jednak uproszczeniem). Jednak już dla zbadania wapnia trzeba nieco inaczej przygotować próbkę, więc robienie tego tylko dlatego, że kiedyś ktoś może to do czegoś wykorzystać, nie jest oczywiste. Pamiętajmy też, że każdy odczynnik kosztuje, a naukowiec musi się mniej lub bardziej dokładnie rozliczyć przed grantodawcą.
Kwestię tego, że naukowiec może po prostu zazdrościć wytworzonej przez siebie informacji, której nie jest w tym momencie stanie wykorzystać, na razie pominę. Załóżmy roboczo, że muzyk, który uważa, że ktoś kopiując jego muzykę go okrada, zasługuje na zrozumienie i ochronę praw intelektualnych, a naukowiec powinien w imię Postępu godzić się na kopiowanie wypracowanej przez niego wiedzy.
PS. Wiem, że data mining jest pojęciem mocno zadomowionym już w polskiej nauce, zwłaszcza w informatyce stosowanej, ale nie kojarzę prób spolszczenia. Kopalnictwo danych?
Piotr Panek
Fot. wikipedysta Mattes. licencja CC-PD-Mark. Źródło: Wikimedia Commons
Komentarze
Najczęściej tłumaczy się jako „eksploracja danych”
Dzięki, rzeczywiście ? chyba eksploracja danych obiła mi się o uszy…
@panek (1)
„Kwestię tego, że naukowiec może po prostu zazdrościć wytworzonej przez siebie informacji, której nie jest w tym momencie stanie wykorzystać, na razie pominę. Załóżmy roboczo, że muzyk, który uważa, że ktoś kopiując jego muzykę go okrada, zasługuje na zrozumienie i ochronę praw intelektualnych, a naukowiec powinien w imię Postępu godzić się na kopiowanie wypracowanej przez niego wiedzy.”
No, chyba po to dochodzi się do wiedzy, żeby się nią dzielić?! Naukowiec, dostając pensję ze swojego miejsca pracy, przekazuje mu prawa autorskie (prawa autorskie zależne), a ktoś, kto obrabia na nowo dane, chyba powinien powołać się na źródło tych danych?
@panek (2)
Jako specjalista od wody napisz artykuł o ciekawym zjawisku: nie ma suszy, a Wisła i też trochę Odra wysychają. Co o tym sądzisz?
Z calego artykulu Cohana najbradziej mnie rozsmieszyl fragment, w ktorym stwierdzil, ze najwiecej udokumentowanych danych zgromadzila meteorologia i ekonomika. Czyli, wygladaloby na to, ze bawiac sie w „data mining” mielibysmy okazje dowiedziec sie nawiecej w tych dziedzinach. Tymczasem sa to najbardziej nieprzewidywalne dziedziny, o czym swiadczy chocby obecny kryzys.
Pozdrowienia.
@Meruńka
A muzyk nie po to tworzy muzykę, żeby się nią dzielić? Muzyk dostaje pensję za nagranie płyty i pirat ją kopiując (zwykle, żeby skopiować musi najpierw kupić oryginał) nie ukrywa, kto jest autorem.
Żeby było jasne – nie twierdzę, że piractwo muzyczne jest właściwym zachowaniem, ale zauważam pewną dysproporcję między przyzwoleniem społecznym na swobodne korzystanie z dzieł artystów i naukowców. Istnieje oczekiwanie, że nauka jest robiona dla społeczeństwa, a sztuka niby też, ale akcent zarobku artysty jest stawiany mocniej. Oczywiście, czasem da się to bronić tym, że duża część nauki robiona jest za pieniądze publiczne, a duża część sztuki nie. O ile jednak system nauki z impact factorami sprawia, że w interesie naukowca jest dzielenie się swoimi rezultatami jak tylko szeroko to możliwe, o tyle np. samplowanie fragmentów cudzych piosenek bywa oceniane jak kradzież. A przecież nauka to też zawód i sposób utrzymania, a tymczasem o ile jest oczywiste, że muzykowi czy malarzowi płaci się za jego dzieło, o tyle od naukowca często wymaga się, żeby sam zapłacił za swoją publikację.
Pewne odbicia tego są też zauważalne w traktowaniu patentów. Można uważać, że ochrona praw patentowych w przypadku lekarstw jest bezdusznością, ale z drugiej strony, ci farmaceuci też z czegoś muszą się utrzymać i dlaczego nie mają dostać dobrego wynagrodzenia za potrzebną i niekoniecznie prostą pracę?
Co do suszy, to nie wiem, co mądrego powiedzieć. Skoro poziom wody opada, to widocznie jest susza. Pewnie na stronach IMGW da się sprawdzić, jak tam ostatnio z deszczowością było, a może i nie, bo ta instytucja ma dość specyficzne podejście do wytworzonych przez siebie danych. Uzyskanie np. danych wodowskazowych dość słono kosztuje. Swego czasu też czytałem artykuł jakiegoś polskiego klimatologa, który posiłkował się danymi historycznymi stacji meteo w Poczdamie, bo nie stać go było na zakup analogicznych danych dla Okęcia. Tu IMGW (utrzymywane ze środków państwowych, w tym NFOŚiGW) zachowuje się właśnie jak artysta skrupulatnie pilnujący tantiem.
Merunka: ” nie ma suszy, a Wisła i też trochę Odra wysychają. Co o tym sądzisz?”
Nei moge powiedziec co sadze, bo ten blog czytaja kobiety i dzieci. W poznych latach 70 uczestniczylem w Projekcie Rzadowym PR7 – „Zagospodarowanie zasobow wodnych w Polsce”. Prowadzony pzrez PAN, IMGW i szereg calkiem porzadnych uczelni krajowych. Projekt trwal kilka lat, i byl rzetelny w sensie naukowym. Po raz pierwszy w Polsce zbudowano kompleksome modele symulacyjne, prognostyczne i optymalizacyjne zasobow wodnych. Wskazano na to ze wody niebawem zabraknie i potzrebne sa inwestycje. Wskazano jakie. Sugerowano zmiany organizacyjne.
I co? MERDE. Gowno, pzrepraszam Panie i Dzieci. I na to wyszlo: wody nie ma, powodzie sa. Nic sie nie zmeinilo. W tym kraju NIC i NIGDY sie nie zmieni.
W tym samym czasie podobny projekt byl w Anglii (no, moze troche wczesniej) Specjalisci z Anglii nas konsultowali. Pzred projektem, Tamiza byla cuchnacym sciekiem. 10 lat pozniej, w pzrezroczystej wodzie plywaly ryby. A u nas?… jak g… plynelo Wisla tak plynie.
@panek
Możesz bywać rozgoryczony, ale nie można wszędzie stawiać barier finansowych; wiedza tworzona w ramach instytucji powinna być dostępna bez opłaty. W przeciwnym razie nie będzie wykorzystywana (w dużej mierze) i straci sens samo jej tworzenie. To, co robi IMGW to faktycznie aberracja. Gromadzą sporo danych, które nie są wykorzystywane ze względu na wysokie ceny (podobnie, jak np. zdjęcia lotnicze z zasobu CODGiK). Znam ciekawą publikację z lat 2000 na temat możliwości zimowego zagospodarowania Karkonoszy, która posługuje się danymi meteo czeskimi – współczesnymi i niemieckimi – przedwojennymi (dla terenów w Polsce). Bo IMGW każe słono płacić za dane..
@A.L.
Co proponował ten projekt odnośnie gospodarowania zasobami wody?
Obecna sytuacja jest zastanawiająca: lasy prowadzą inwentaryzację terenów podtopionych, gdzie od dwóch zim stagnuje woda (wcześniej jej tam zwykle nie było), a Wisła staje się kałużą. Ewidentnie szwankuje obieg wody, brak infiltracji i drenażu podziemnego. ?!
IMGW jest najbardziej zamkniętą i nieprzyjazną obywatelowi i otoczeniu służbą meteorologiczną na świecie (uwaga – NIE piszę o ludziach, piszę o INSTYTUCJI) utrzymywaną za pieniądze podatnika. Np. jako jedyna służba na świecie nie zgadza się na udostępnienie swoich klimatycznych z terenu Polski w światowych naukowych bazach danych:
http://www.realclimate.org/index.php/archives/2011/07/crutem3-data-release-except-poland/
Jako jedyny kraj w Europie nie uczestniczy w Europejskim Centrum Prognoz Średnioterminowych (ECMWF):
http://www.ecmwf.int/
Podobne przykłady mógłbym mnożyć…
A co do naukowców: mają w tej chwili kilka rożnych wariantów copyright, w tym takie które szeroko udostepniają wyniki ich pracy:
http://publications.copernicus.org/for_authors/license_and_copyright.html
Nota bene nie ma żadnego powodu żeby muzycy tez z takich nie korzystali :), wszystko zależy od modelu finansowania (badań, tworzenia nauki).
Długo się zastanawiałem, jak odpisać.
Po pierwsze, ekploracja danych działa – nie w każdym przypadku, nie do wszyskiego się nadaje, ale działa.
Po drugie, wezwanie Cohana ma sens i przyszłość. Nie wszędzie dorabianie i rejestracja dodatkowych pomiarów jest kosztowne, choć u Piotra pewnie właśnie jest. Przy tym dochodzi kwestia publikacji i archiwizacji danych pomiarowych. Ile razy badacz rejestruje dane pomiarowe, po czym odfiltrowuje te, w których występuje interesujące go zjawisko i archiwizuje je, a resztę niszczy. Tymczasem ta reszta też może zawierać źródła nowych, interesujących odkryć. W dzisiejszych czasach taniej pamięci koszt zapisania wszystkiego na płycie DVD to parę złotych. A może będzie z tego kiedyś jakieś następne odkrycie?
Po drugie, publiczna archiwizacja pozwala tworzyć zespołowym wysiłkiem wielu uczonych zbiory danych, których żaden z nich z osobna by nie dał rady zgromadzić i które dopiero w takiej ogromnej masie mają wartość dla algorytmów eksploracji danych. Na przykład, bazy danych struktury białek i bazy danych sekwencji DNA.
W końcu, moża oszczędzać obiekty badania dla przyszłych pokoleń. Jako przykład podam archeologów, którzy często intencjonalnie pozostawiają fragmenty stanowiska niewyksplorowane, aby za jakiś czas było możliwe ich zbadanie nowymi, jeszcze nieznanymi metodami.
J.Ty. „Po pierwsze, ekploracja danych działa ? nie w każdym przypadku, nie do wszyskiego się nadaje, ale działa”
Niestety, czesciej jest „misused” niz „used”….
„W dzisiejszych czasach taniej pamięci koszt zapisania wszystkiego na płycie DVD to parę złotych. A może będzie z tego kiedyś jakieś następne odkrycie?”
Niestety, nie ma letko. Ktos te DVD musi gromadzic. Ktos musi je katalogowac. Plyta DVD, podobnie jak CD nie zyje wiecznie. Zolknie po niejakim czasie i srebro czernieje. No i poza tym – komputerowe nosniki sa dobre tak dlugo jak mamy hardware i software ktory jest w stanie je odczytac. A te zmieniaja sie czesto. Ja mam pelno 8 calowych dyskietek, 5 calowych dyskietek, 3 calowych dyskietek, dyskow Bernoulli, ZIP dyskow, dyskow SYQUEST, tasm QIC, tasm na wielkich 25 centymetrowych szpulach, rolek tasm dziurkowanych i kart. Neistety, nie da sie tego wszystkiego odczytac, bo albo nie ma hardware, albo te ktore by sie nawet daly, nie dadza sie rozkodowac, bo byly dla oszczednosci skompresowane programem ktory ani nie instnieje, ani by na wspolczesnych komputerach nei dzialal. Wiec w miare rozwoju technologii tzreba te dane kopiowac na nowe nosniki, nie zapominajac o redundancji i backupach. Trzeba placic za material, spzret, ludzak parce i pomiesczenia. Nie mowiac o rachunku za prad.
No i na dodatek, bez odpowiedniego systemu opisu, katalogowanai i wyszukiwanie wszystkie te dane to smieci. W efekcie, archiwizacja danych to potezne i wielce kosztowne przedsiewziecie, za ktore ktos musi zaplacic. A potem jest swiete oburzenie ze za dane trzeba placic. Nie da sie archiwow zrobic „po amatorsku”, niestety. I jak sie pobiera dane czy to z IMGW, czy to z NOAA (obie instytucje znam z autopsji) to tzreba chociaz czesc tych kosztow zwrocic.
P.S. Merunka, jestem winien odpowiedz w sprawie wody
To, że dane same się nie pozyskują i nie przetwarzają, to ja wiem. Zważ, że w moich wypowiedziać jest ton zazdrości, że IMGW i muzycy za swoje dzieła biorą opłaty (no – naukowcy też biorą w postaci grantów, czy pensji uczelnianych, więc to nie jest tak, że rozdają wszystko zupełnie za darmo, a koniec końców, zwłaszcza ci już na stałe zatrudnieni, mogą lepiej na tym wyjść niż przeciętni artyści na samozatrudnieniu), a nie proste potępienie. Jednak łatwiej zrozumieć, gdy instytucja ustawowo zwana państwową służbą hydrologiczną bierze opłaty za informację o stanie wody od klienta komercyjnego, np. armatora barek, dla którego te dane mogą posłużyć do wytworzenia zarobku albo uniknięcia strat, a trudniej, gdy za te dane każe płacić naukowcom, którzy badają hydrologię dla Dobra i Postępu czy isntytucjom państwowym zarządzającym wodami, dla których te dane są podstawą działalności narzuconej ustawowo. W branży dość głośna ostatnio była przepychanka między IMGW a Krajowym Zarządem Gospodarki Wodnej właśnie w tej sprawie. Zresztą, nawet przepływ tych danych między poszczególnymi jednostkami IMGW nie jest bezbolesny. Co zaś do NASA, to mało jest na świecie posiadaczy takich zasobów zdjęć, które sa dostępne na wolnej licencji. Jakoś w tej kolebce kapitalizmu można było uznać, że skoro zdjęcia Ziemi z Księżyca udało się zrobić dzięki pieniądzom państwowym, to nie powinno się juz za nie płacić z kieszeni prywatnej.
Nie chcę tu wychodzić na krytyka IMGW, bo, mając dość dużo zawodowych kontaktów z tą instytucją wiem, że nie jest łatwo im te swoje dane pozyskać, niemniej to, jak ich później zazdrośnie strzegą nieraz wygląda na przesadę. Może oddać głos samym pracownikom IMGW 🙂 To wpadło mi w ręce zupełnie niezależnie od tutejszej dyskusji: http://kzgw.inforia.net/pdf/newPdf/index.php?a=81629345&s=91463&t=0
@JTy
Trochę liczyłem, że coś napiszesz właśnie od drugiej strony. Ja nie przeczę, że eksploracja danych działa i że jest obiecująca. Tak jak po czasach, gdy naukę robili geniusze, którzy mieli jeszcze szczęście móc sobie pozwolić na kosztowne hobby i wielkie odkrycia następowały co kilkadziesiąt/kilkaset lat, nastapiły czasy robienia nauki instytucjonalnie przez zespoły niekoniecznie geniuszy, ale za to wspólnie dokładających cegiełki do systemu, więc co roku są okazje do kilku nobli, tak teraz następuje dalsze umasowienie tego procesu dzięki przerabianiu komputerowemu wielkich zbiorów danych. W swoim wpisie nawet nie chciałem sygnalizować problemów z porównywalnością tych danych. Parę lat temu w hydrobiologii pojawiła się głośna publikacja pokazująca spadek obfitości fitoplanktonu morskiego w ciągu ostatniego wieku. Niestety, szybko stała się głośna również ze względu na spory dotyczące jakości i porównywalności danych. Zestawiono dane pozyskiwane gołym okiem przy pomocy krążka Secchiego z danymi ze zdjęć satleitarnych i chyba jeszcze innymi. Ale nawet dane satelitarne pozyskane w latach 70 XX w. i na przełomie naszych wieków okazują się być pozyskane metodami niedającymi się dobrze zinterkalibrować.
..cd, bo coś zaginęło:
Ja po prostu odezwę Cohana o takie prowadzenie badań, by ułatwić eksplorację danych uważam za nieco naiwną.
Z pozytywnej strony:
sporo danych do eksploracji jest, z mojej dziedziny w takich miejscach jak te:
http://www.eol.ucar.edu/projects/
http://www.ncdc.noaa.gov/
http://badc.nerc.ac.uk/home/index.html
http://eca.knmi.nl/
i wiele innych…
Dane są jakie są, krytycznie ważne jest żeby były uzupełnione metadanymi – opisami jak były zmierzone, jakie są ich ograniczenia e.t.c.. Wystarczy to zrobić rzetelnie z myślą o sobie i nie starć się zgadnąć co ktoś kiedyś może mieć na myśli. W tej kwestii zgadzam się z pankiem.
Zamiast odpowiedzi napisałem kolejny tekst blogowy, miejmy nadzieję, że Karol wkrótce go puści