Pięć lat temu większość sondaży przed pierwszą turą o parę procent zawyżyło wynik Komorowskiego, a zaniżyło Kaczyńskiego. Jednak mimo to nieźle przewidziały wyniki wyborów.
Najlepiej wypadły: 1. TNS Polska, 2. GFK Polonia, 3. IBRIS.
Wyniki sprzed 5 lat
Michał Zieliński opublikował w Newsweeku [1] zestawienie sondaży sprzed I tury wyborów prezydenckich z roku 2010. To bardzo ciekawe zestawienie. Szacunek dla Autora za przygotowanie, aczkolwiek pozwolę sobie nieco inaczej zinterpretować te wyniki.
We wspomnianym tekście czytamy:
>>W poniższej tabeli zaprezentowano ostatni sondaż każdego ośrodka badania opinii zrealizowany przed I turą wyborów prezydenckich 20 czerwca 2010 roku. By móc porównać poszczególne pomiary, wszystkie pomiary sprowadzono do wspólnego mianownika tj. wyłączono z podstawy procentowania wyborców niezdecydowanych jak głosować.<<
Poniżej zamieszczam tabelę podobną do zamieszczonej w [1] (zawiera parę moich modyfikacji):
Tabela 1 Wyniki wybory prezydenckich 2010, a sondaże
|
Wyniki
wyborów
20 VI 2010
|
TNS
Polska
|
GFK
Polonia
|
IBRIS
|
Millward
Brown
|
CBOS
|
Komorowski
|
41.54
|
40
|
43.2
|
42.5
|
46.30
|
47.2
|
Kaczyński
|
36.46
|
35
|
32.6
|
36.9
|
30.50
|
31.5
|
Napieralski
|
13.68
|
13
|
12.6
|
9.4
|
13.70
|
11.2
|
Korwin-Mikke
|
2.48
|
3
|
4.2
|
1.7
|
3.20
|
3.4
|
Pawlak
|
1.75
|
3
|
3.2
|
5.0
|
2.10
|
2.3
|
Olechowski
|
1.44
|
3
|
1.1
|
2.6
|
2.10
|
2.3
|
Lepper
|
1.28
|
3
|
0.0
|
0.9
|
1.10
|
1.1
|
Jurek
|
1.06
|
1
|
3.2
|
1.0
|
1.10
|
0.0
|
Ziętek
|
0.18
|
0
|
0.0
|
0.1
|
0.00
|
0.0
|
Morawiecki
|
0.13
|
0
|
0.0
|
0.0
|
0.00
|
0.0
|
W kolejnej tabeli przedstawiam proste funkcje statystyczne dla poszczególnych kandydatów:
Tabela 2
|
Wyniki
wyborów
20 VI 2010
|
Sondaże
|
Średnia
minus
wynik
w wyborach
|
Minimum
|
Maksimum
|
Średnia
|
Komorowski
|
41.54
|
40.0
|
47.2
|
43.84
|
2.3
|
Kaczyński
|
36.46
|
30.5
|
36.9
|
33.3
|
-3.16
|
Napieralski
|
13.68
|
9.4
|
13.7
|
11.98
|
-1.7
|
Korwin-Mikke
|
2.48
|
1.7
|
4.2
|
3.1
|
0.62
|
Pawlak
|
1.75
|
2.1
|
5
|
3.12
|
1.37
|
Olechowski
|
1.44
|
1.1
|
3
|
2.22
|
0.78
|
Lepper
|
1.28
|
0.0
|
3
|
1.22
|
-0.06
|
Jurek
|
1.06
|
0.0
|
3.2
|
1.26
|
0.2
|
Ziętek
|
0.18
|
0.0
|
0.1
|
0.02
|
-0.16
|
Morawiecki
|
0.13
|
0.0
|
0
|
0
|
-0.13
|
Warto wiedzieć, że [1]:
- TNS Polska to dawny TNS OBOP.
- IBRIS to dawne Homo Homini.
- Millward Brown to dawne SMG/KRC.
Na początek kilka komentarzy do powyższych danych:
- Wyniki uzyskane przez najważniejszych kandydatów (wyjątkiem jest Pawlak i dwójka z najsłabszymi wynikami) mieszczą się w przedziale <minimum, maksimum> dla wszystkich sondaży.
- Sondaże nieco zawyżyły wyniki Komorowskiego, a zaniżyły Kaczyńskiego.
W przypadku Komorowskiego cztery z pięciu sondaży zawyżyło jego wynik – średnio o 2,3 punktów (dla wszystkich pięciu sondaży).
W przypadku Kaczyńskiego cztery z pięciu sondaży zaniżyło jego wynik – średnio o 3,2 punkta.
Oznacza to, że różnica między Komorowskim, a Kaczyńskim została średnio zawyżona o 5,5 punkta na niekorzyść Kaczyńskiego.
Co ciekawe w sondażach lekko niedoszacowany był Napieralski, a przeszacowany Pawlak. Wygląda to na pewną regularność - sondażownie jakby "lubiały" partie trzymające władzę, czyli PO i PSL, a nie "lubiały" opozycyjnych - PiS, a także SLD. Efekty te są niewielkie, ale występują.
Wniosek z tego taki, że warto czytać sondaże (przynajmniej te robione tuż przed wyborami), aczkolwiek trzeba zachować dystans.
Które sondażownie najlepiej przewidziały wyniki
Autor tekstu [1] podsumował błędy popełnione przez poszczególne sondażownie. Na tej podstawie ustalił kolejność od najlepszych do najgorszych. Według tej metody byłyby to:
Miejsce
|
Ośrodek
|
Suma błędów
|
1
|
TNS Polska
|
9.10
|
2
|
IBRIS
|
11.52
|
3
|
Millward Brown
|
13.00
|
4
|
GFK Polonia
|
13.84
|
5
|
CBOS
|
16.98
|
Uważam, że niekoniecznie jest to dobra ocena i najlepsze podejście, gdyż suma błędów nie musi być najlepszą miarą. Wydaje mi się, że lepiej sumować kwadraty błędów. W statystyce znana jest metoda najmniejszych kwadratów, która właśnie taką miarę uwzględnia przy dopasowywaniu najlepszej prostej do punktów pomiarowych.
Jeżeli rozważymy różne sondaże o tej samej sumie będów, to suma kwadratów będzie premiowała te sondaże, w których błędy są równomiernie "porozdzielane" pomiędzy różnych kandydatów. W takim wypadku sondaże będą lepiej przewidywały różnice pomiędzy poszczególnymi kandydatami.
Przy sumowaniu kwadratów odchyłek uzyskujemy taką kolejność:
Miejsce
|
Ośrodek
|
Suma kwadratów błędów
|
1
|
TNS Polska
|
12.24
|
2
|
GFK Polonia
|
30.27
|
3
|
IBRIS
|
32.12
|
4
|
Millward Brown
|
59.34
|
5
|
CBOS
|
65.88
|
Jak widać najlepszy był sondaż TNS Polska (dawny OBOP). Tutaj mamy zgodność z poprzednią metodą. Jednak potem mamy inny wynik, bo obok siebie pojawia się GFK Polonia i IBRIS (dawne Homo Homini). Na końcu stawki mamy Millward Brown i CBOS.
Nie twierdzę, że suma kwadratów to jedyna możliwa miara. Jednak uważam, że ma swoje zalety.
Jeżeli interesuje nas przede wszystkim pojedynek dwóch najsilniejszych rywali, to warto przyjrzeć się jak dobrze została przewidziana różnica między nimi. Dlatego na koniec proponuję sprawdzić, jak poszczególne ośrodki przewidziały różnicę Komorowski - Kaczyński.
Różnica ta w wyborach 2010 wyniosła 5.08 punkta. Oto przewidywania poszczególnych ośrodków badawczych:
Ośrodek
|
Przewidywana
różnica
|
Błąd
|
TNS Polska
|
5
|
-0.08
|
IBRIS
|
5.6
|
0.52
|
GFK Polonia
|
10.6
|
5.52
|
CBOS
|
15.7
|
10.62
|
Millward Brown
|
15.8
|
10.72
|
Jak widać ta miara jest bardziej zgodna z sumą kwadratów błędów aniżeli z sumą błędów.
Źródła i przypisy:
[1]
http://polska.newsweek.pl/rozjazd-sondazy-przedwyborczych,artykuly,360958,1.html