Kristoff104 Kristoff104
745
BLOG

Pies z trzema nogami, czyli magia statystyk

Kristoff104 Kristoff104 Rozmaitości Obserwuj notkę 0

Powiedziano na przykład, że:
Są trzy rodzaje kłamstw: kłamstwa, przeklęte kłamstwa i statystyki.
albo:
Statystycznie, to ja i mój pies mamy po trzy nogi.
O tym, że na statystyki i liczby (bo o nich też będzie tu mowa, choć czasem oba pojęcia zostaną użyte zamiennie) trzeba uważać, wiedzą teoretycznie wszyscy. Ale już nie wszyscy wiedzą dokładnie, dlaczego nie ufać i w ten sposób nie bardzo wiedzą też, w jaki sposób ze statystyk można korzystać, nie narażając się na błąd. A że korzystać czasem trzeba, nie ulega wątpliwości.
Na co więc uważać? Diabeł, jak to często bywa, tkwi w szczegółach, a grupy tych szczegółów widziałbym trzy:
  1. Obszar zbierania danych
  2. Obszar przetwarzania i prezentacji danych
  3. Obszar interpretacji widzianych statystyk
Pierwszy obszar jest największy i najgorszy, zwłaszcza że źle zebrane dane rzutują na błędy w dwóch dalszych. W pierwszym obszarze mamy najwięcej możliwości pomyłek merytorycznych.
Zwłaszcza w wypadku zbierania danych do opracowań sondażowych, gdzie cały wynik dla populacji, powiedzmy – kraju, opracowany jest na podstawie względnie małej próbki, na przykład ok 1000 przepytanych osób. Teoretycznie, jeśli w całym kraju 40% ludzi popiera PiS, 40 PO, 10 SLD i PSL, a pozostałe 10 nie wie co to partia polityczna, może zdarzyć się, że do ankiety wytypujemy (bądź w zupełnie dobrej wierze, wylosujemy) 1000 eseldowców i z badania wyjdzie coś zupełnie nieprzystającego do rzeczywistości.
Na szczęście, takie przypadki są mało prawdopodobne. Ważne, by próbka była „reprezentatywna”, to znaczy by dobór ankietowanych nie był w jakiś perfidny sposób ograniczany. Niestety, niekoniecznie rozwiąże nam sprawę dzwonienie po losowo wybranych numerach telefonów, gdyż w takim wypadku pomijamy całkowicie ludzi nieposiadających telefonu. Ponadto, np. dzwoniąc na stacjonarne numery przed 15 narażamy się na to, że będziemy rozmawiać z większą liczbą bezrobotnych czy emerytów. Wychodząc na ulicę też trzeba uważać: zapewne pod budynkiem uczelni wyższej spotkamy więcej młodych osób z maturą, niż w okolicach cmentarza.
Oczywiście, pewnych rzeczy się nie przeskoczy i idealnie reprezentatywnej grupy się nie dobierze, ale mając to wszystko na uwadze, sondażownie mogą jako tako działać. Mają zresztą w tej kwestii swoje przyzwyczajenia i standardy, skąd też zapewne mogą wynikać różnice w podawanych przez konkurujące instytuty wynikach.
Niekiedy mamy do czynienia z pełnym badaniem populacji. Należy do nich np. spis powszechny, gdzie nie ma miejsca na przypuszczenie i przybliżenia – przepytane są wszystkie (teoretycznie) gospodarstwa domowe i dzięki temu wiemy, jaki odsetek ludności ma kibelek w domu a jaki nie (o ile pamiętam, było w ostatnim spisie podobne pytanie), ile ludzie zarabiają i inne takie.
Z pełnym badaniem populacji mamy do czynienia także w przypadku wyborów powszechnych – wiemy jaki odsetek uprawnionych obywateli głosował, wiemy dokładnie jak rozłożyło się poparcie dla poszczególnych kandydatów.
Inny przykład to wypadki przy pracy – każde takie zdarzenie powinno być właściwym organom zgłoszone, urzędy dysponują więc pełną wiedzą o incydentach zgłoszonych jako wypadek przy pracy (zwróćmy uwagę, że nie obejmuje ta wiedza przypadków nie zgłoszonych, co się zdarza).
Taka pełna wiedza jest oczywiście pewniejsza.
Kłopot w pierwszym obszarze polega też na doborze kryteriów badania. Częsty błąd polega na niewyczerpaniu w możliwych odpowiedziach wszystkich możliwości. Przykładowe pytanie:
Czy lubisz smak homara:
a) tak
b) nie
jest błędne, bo nie uwzględnia możliwości, że ktoś smaku homara nie zna. Prowadzi to w oczywisty sposób do braku odpowiedzi lub zafałszowań. W tym wypadku wystarczyłoby dodać trzecią możliwość „nie wiem”. Niekiedy jednak rzecz nie jest tak oczywista. Kolejne przykładowe pytanie:
Czy lubisz makowiec:
a) tak
b) nie
c) nie wiem
wygląda już poprawnie, ale co by Państwo powiedzieli, na taki wybór odpowiedzi:
a) tak
b) tak, ale tylko z rodzynkami
c) tak, ale tylko bez rodzynek
d) nie
e) nie wiem?
W oczywisty sposób przewidziano tu więcej możliwości i na dodatek wykluczono tę z nich, kiedy ktoś lubi makowiec ale tylko z rodzynkami i przez to nie może się zdecydować, czy odpowiedzieć „tak” albo „nie”. Można w ten sposób się rozdrabniać coraz bardziej: uwzględniać polewę, posypkę z kolorowych słodkości albo kokosa... Wszystko tak naprawdę zależy od tego, CZEGO CHCEMY SIĘ DOWIEDZIEĆ.
Na przykład, pytanie o ulubiony kolor z trzema możliwymi odpowiedziami: „czerwony”, „niebieski”, „jakikolwiek inny lub żaden”, być może da nam wystarczającą wiedzę i nie będzie trzeba pytać o pozostałe purpury czy odcienie zielonego.
To, w jaki sposób zbieramy dane i według jakich kryteriów grupujemy, ma wielkie znaczenie dla ostatecznego wyniku.
Wszystko wydaje się oczywiste, piszę dość szeroko na ten temat, gdyż czytając statystyki, warto o nim pamiętać. Zwłaszcza w kontekście tego, jak zebrane dane zostaną później opracowane i pokazane.
No właśnie, obszar drugi.
Tu pole do popisu manipulatorów i tych co się zwyczajnie mylą, jest – tak sądzę – mniejsze. Za to tutaj można popsuć pełne dane o populacji, jeśli takie szczęśliwie (nieszczęśliwie?) posiadamy.
Na przykład: „ofiara śmiertelna wypadku drogowego”. Co to jest? No, człowiek, który w wyniku wypadku umarł. No tak, tylko jak to mierzyć w dużej skali? Przecież ofiara wypadku drugiej ofierze nierówna. Niektórzy giną na miejscu – i wtedy wątpliwości nie ma. Ale inni umierają po jakimś czasie, ale bez wątpienia na skutek wypadku. W praktyce nie sposób wszystkich takich przypadków uwzględniać, dlatego stosuje się kryterium śmierci w ciągu określonego czasu od wypadku, np. 2 dni. Jasne że nie uwzględni to śmierci pacjenta po pięciodniowej walce o życie, za to przypadkiem może zostać zakwalifikowana sytuacja (proszę mnie poprawić, jeśli się mylę), w której to ofiara wypadku złamała rękę i zaraz po opatrzeniu wychodzi do domu, gdzie np. ginie od porażenia prądem. Z tego co wiem, różne kraje w swoich statystykach podają te dane wg różnych kryteriów.
Tak więc, nawet z pełnych danych możemy mieć różne wyniki.
W wypadku tematów lżejszych prym wiodą „rekordowe” filmy. Jeden zarobił najwięcej kasy na świecie w weekend otwarcia, drugi też w weekend otwarcia zarobił najwięcej, ale... w USA, trzeci miał największą liczbę widzów w ciągu pierwszych dwóch tygodni od premiery... Co film to przelicznik, tak więc „kasowych” filmów znajdziemy w zajmujących się tym gazetkach sporo.
Jeśli chodzi o opracowanie danych niepełnych, to dokonuje się niezbędnej estymacji. To znaczy szacuje się, na podstawie próby, jaki dałoby wynik przebadanie całej populacji. Rzecz w tym, że w TV nie widzimy wszystkiego.
Widzimy słupki, czy ładnie pokrojoną, kolorową pizzę z procentami. Czasem jeszcze tzw. „błąd”.
Powoduje to mylne wrażenie, że sondażownia chwali się, iż pomyli się maksymalnie o np. 3%, tymczasem błąd wyniesie 7. Otóż, wynik obliczeń podawany jest (czy powinien być) z pewnym prawdopodobieństwem. Jak już wcześniej powiedziałem, teoretycznie jest szansa że spośród społeczeństwa: 40% PiS, 40%PO, 10% SLD+PSL, 10% nie wie co czyni, wylosujemy 1000 zwolenników SLD. Ta szansa jest mała, ale jest – i można nawet wyznaczyć prawdopodobieństwo takiego wyniku.
Pełne opracowanie sondażu mogłoby brzmieć: „na podstawie badania możliwie reprezentatywnej próby 998 osób, wykonanego w dniu XX, twierdzimy z prawdopodobieństwem równym 95%, że poparcie dla PiS wynosi 40 plus/minus 3 procent, poparcie dla PO – 40 ± 3%...” i tak dalej.
Jak widzimy te 3 % oznacza przedział. 40% ± 3% oznacza przedział, od 37 do 43 %. Jak widzimy, jest pięcioprocentowa szansa, że prawdziwy wynik będzie poza tym przedziałem. Czy zatem, gdy PiS dostanie 32%, sondażownia pomyliła się? No nie, mogło się zdarzyć.
Sygnałem, że coś jest nie tak z sondażownią, może być zbyt częste występowanie tego przypadku.
A dlaczego nie widzimy tego wszystkiego w gazetach czy telewizyjnych njusach? Moim zdaniem, nie ma w tym wielkiego wyrachowania. Po prostu, zbyt szczegółowe informacje są odbiorcom niepotrzebne. Kogo tak naprawdę obchodzi, z jakim prawdopodobieństwem i w jakim przedziale oszacowano coś-tam? Ludzi, widać, interesuje kto i ile ma.
Prezentując dane, można zrobić z nich wiele. Weźmy to użyte już pytanie o homara. Powiedzmy, że odpowiedzi były takie:
tak – 140 osób,
nie – 90 osób,
nie wiem 770 osób.
Możemy zaprezentować te dane na 3 sposoby:
  • tak 14%, nie 9%, nie wiem 77%,
  • tak 14%, nie 8%,
  • tak 61%, nie 39%.
Trzeci sposób prezentacji uwzględnia tylko odpowiedzi „tak” bądź „nie”, całkowicie wyeliminowano z danych: „nie wiem”; sposób drugi pomija tylko pokazanie oczywistej różnicy 100 – (14 + 9).
Jeśli widzimy sformułowanie typu „Spośród osób, które znają smak homara, lubi go 61%, nie lubi zaś 39%” - powinniśmy uważać. W tym wypadku mamy podane niepełne informacje, a pomimo iż cała badana próba to 1000 osób, przedstawiono nam odpowiedzi tylko 230 z nich. Zrobiono to zresztą zupełnie uczciwie, ale nasze odczucia, związane z odbiorem tak podanej informacji, są nieco inne niż kiedy przeczytamy:
14% ankietowanych lubi homara, 9% nie lubi tej potrawy. Pozostali nigdy nie próbowali.
Prezentacja statystyk wiąże się nieodmiennie z interpretacją.
Oznacza to, że wreszcie docieramy do trzeciego zagadnienia.
Interpretacja niekiedy połączona jest z podaniem samych statystyk i miewa wtedy cechy manipulacji, czasem interpretuje ktoś na swoje potrzeby informację od kogoś wziętą – i zazwyczaj jest to tylko pomyłka.
Istnieje cała gama narzędzi do zmylenia odbiorcy. Omówię tylko kilka najbardziej według mnie rozpowszechnionych.
Najbardziej bezczelną i prymitywną manipulacją jest podanie jednej liczby, dotyczącej jakiegoś złego zjawiska i wywnioskowanie na tej podstawie o jego wzroście.
W tym roku z naszych muzeów skradziono aż 120 obrazów. Ten wzrost zainteresowania przestępców...” - takie sformułowanie jest nadużyciem. Nie można wnioskować o wzroście, mając tylko tę jedną liczbę. Posiadając dane z roku poprzedniego, a najlepiej z kilku poprzednich lat, można coś powiedzieć na temat trendu.
Taki sposób nadinterpretacji, mimo że prymitywny, jest spotykany zadziwiająco często.
Innym patentem jest wyciąganie wniosków nie na temat. Przytaczane liczby, wyniki badań dotyczą czegoś, a komentarz podany przy okazji – czegoś innego, tylko lekko związanego z tematem statystyki. Niestety, nie pamiętam teraz konkretnych przykładów i nie potrafię wymyślić analogicznych, pamiętam tylko, że spotykam niekiedy takie coś.
Istnieje kwestia kontekstu.
Na przykład: „W naszym mieście skradziono w 2008 roku 1000 samochodów”. Inaczej to zabrzmi w mieście z milionem mieszkańców, inaczej w mieście zamieszkiwanym przez 200 tys. osób.
Ach! są jeszcze wartościowania:
W naszym mieście skradziono w 2008 roku 1000 samochodów
W naszym mieście skradziono w 2008 roku tylko1000 samochodów

 
Jak widzimy, w każdym obszarze jest pole do popisu, by popsuć informację statystyczną. Najwięcej chyba do zrobienia jest na etapie zbierania danych, najmniej: w trakcie ich przetwarzania. Dla kreatywnych sposób zaprezentowania informacji to także całkiem niezła okazja.
Kristoff104
O mnie Kristoff104

Nowości od blogera

Komentarze

Pokaż komentarze

Inne tematy w dziale Rozmaitości