Jak sondaże prezydenckie sprawdziły się pięć lat temu?

Pięć lat temu większość sondaży przed pierwszą turą o parę procent zawyżyło wynik Komorowskiego, a zaniżyło Kaczyńskiego. Jednak mimo to nieźle przewidziały wyniki wyborów.
Najlepiej wypadły: 1. TNS Polska, 2. GFK Polonia, 3. IBRIS.

Wyniki sprzed 5 lat

Michał Zieliński opublikował w Newsweeku [1] zestawienie sondaży sprzed I tury wyborów prezydenckich z roku 2010. To bardzo ciekawe zestawienie. Szacunek dla Autora za przygotowanie, aczkolwiek pozwolę sobie nieco inaczej zinterpretować te wyniki.

We wspomnianym tekście czytamy:
>>W poniższej tabeli zaprezentowano ostatni sondaż każdego ośrodka badania opinii zrealizowany przed I turą wyborów prezydenckich 20 czerwca 2010 roku. By móc porównać poszczególne pomiary, wszystkie pomiary sprowadzono do wspólnego mianownika tj. wyłączono z podstawy procentowania wyborców niezdecydowanych jak głosować.<<

Poniżej zamieszczam tabelę podobną do zamieszczonej w [1] (zawiera parę moich modyfikacji):

Tabela 1 Wyniki wybory prezydenckich 2010, a sondaże

	Wyniki wyborów 20 VI 2010	TNS Polska	GFK Polonia	IBRIS	Millward Brown	CBOS
Komorowski	41.54	40	43.2	42.5	46.30	47.2
Kaczyński	36.46	35	32.6	36.9	30.50	31.5
Napieralski	13.68	13	12.6	9.4	13.70	11.2
Korwin-Mikke	2.48	3	4.2	1.7	3.20	3.4
Pawlak	1.75	3	3.2	5.0	2.10	2.3
Olechowski	1.44	3	1.1	2.6	2.10	2.3
Lepper	1.28	3	0.0	0.9	1.10	1.1
Jurek	1.06	1	3.2	1.0	1.10	0.0
Ziętek	0.18	0	0.0	0.1	0.00	0.0
Morawiecki	0.13	0	0.0	0.0	0.00	0.0

W kolejnej tabeli przedstawiam proste funkcje statystyczne dla poszczególnych kandydatów:

Tabela 2

	Wyniki wyborów 20 VI 2010	Sondaże			Średnia minus wynik w wyborach
	Wyniki wyborów 20 VI 2010	Minimum	Maksimum	Średnia	Średnia minus wynik w wyborach
Komorowski	41.54	40.0	47.2	43.84	2.3
Kaczyński	36.46	30.5	36.9	33.3	-3.16
Napieralski	13.68	9.4	13.7	11.98	-1.7
Korwin-Mikke	2.48	1.7	4.2	3.1	0.62
Pawlak	1.75	2.1	5	3.12	1.37
Olechowski	1.44	1.1	3	2.22	0.78
Lepper	1.28	0.0	3	1.22	-0.06
Jurek	1.06	0.0	3.2	1.26	0.2
Ziętek	0.18	0.0	0.1	0.02	-0.16
Morawiecki	0.13	0.0	0	0	-0.13

Warto wiedzieć, że [1]:

TNS Polska to dawny TNS OBOP.
IBRIS to dawne Homo Homini.
Millward Brown to dawne SMG/KRC.

Na początek kilka komentarzy do powyższych danych:

Wyniki uzyskane przez najważniejszych kandydatów (wyjątkiem jest Pawlak i dwójka z najsłabszymi wynikami) mieszczą się w przedziale <minimum, maksimum> dla wszystkich sondaży.
Sondaże nieco zawyżyły wyniki Komorowskiego, a zaniżyły Kaczyńskiego.
W przypadku Komorowskiego cztery z pięciu sondaży zawyżyło jego wynik – średnio o 2,3 punktów (dla wszystkich pięciu sondaży).
W przypadku Kaczyńskiego cztery z pięciu sondaży zaniżyło jego wynik – średnio o 3,2 punkta.
Oznacza to, że różnica między Komorowskim, a Kaczyńskim została średnio zawyżona o 5,5 punkta na niekorzyść Kaczyńskiego.
Co ciekawe w sondażach lekko niedoszacowany był Napieralski, a przeszacowany Pawlak. Wygląda to na pewną regularność - sondażownie jakby "lubiały" partie trzymające władzę, czyli PO i PSL, a nie "lubiały" opozycyjnych - PiS, a także SLD. Efekty te są niewielkie, ale występują.

Wniosek z tego taki, że warto czytać sondaże (przynajmniej te robione tuż przed wyborami), aczkolwiek trzeba zachować dystans.

Które sondażownie najlepiej przewidziały wyniki

Autor tekstu [1] podsumował błędy popełnione przez poszczególne sondażownie. Na tej podstawie ustalił kolejność od najlepszych do najgorszych. Według tej metody byłyby to:

Miejsce	Ośrodek	Suma błędów
1	TNS Polska	9.10
2	IBRIS	11.52
3	Millward Brown	13.00
4	GFK Polonia	13.84
5	CBOS	16.98

Uważam, że niekoniecznie jest to dobra ocena i najlepsze podejście, gdyż suma błędów nie musi być najlepszą miarą. Wydaje mi się, że lepiej sumować kwadraty błędów. W statystyce znana jest metoda najmniejszych kwadratów, która właśnie taką miarę uwzględnia przy dopasowywaniu najlepszej prostej do punktów pomiarowych.

Jeżeli rozważymy różne sondaże o tej samej sumie będów, to suma kwadratów będzie premiowała te sondaże, w których błędy są równomiernie "porozdzielane" pomiędzy różnych kandydatów. W takim wypadku sondaże będą lepiej przewidywały różnice pomiędzy poszczególnymi kandydatami.

Przy sumowaniu kwadratów odchyłek uzyskujemy taką kolejność:

Miejsce	Ośrodek	Suma kwadratów błędów
1	TNS Polska	12.24
2	GFK Polonia	30.27
3	IBRIS	32.12
4	Millward Brown	59.34
5	CBOS	65.88

Jak widać najlepszy był sondaż TNS Polska (dawny OBOP). Tutaj mamy zgodność z poprzednią metodą. Jednak potem mamy inny wynik, bo obok siebie pojawia się GFK Polonia i IBRIS (dawne Homo Homini). Na końcu stawki mamy Millward Brown i CBOS.

Nie twierdzę, że suma kwadratów to jedyna możliwa miara. Jednak uważam, że ma swoje zalety.

Jeżeli interesuje nas przede wszystkim pojedynek dwóch najsilniejszych rywali, to warto przyjrzeć się jak dobrze została przewidziana różnica między nimi. Dlatego na koniec proponuję sprawdzić, jak poszczególne ośrodki przewidziały różnicę Komorowski - Kaczyński.

Różnica ta w wyborach 2010 wyniosła 5.08 punkta. Oto przewidywania poszczególnych ośrodków badawczych: