В связи с захлестнувшей нас перед выборами волной опросов, мне захотелось провести сравнение и узнать, кому из социологов
можно доверять, а кому совсем наоборот. Это можно сделать, сравнив прошлые опросы с результатами выборов.
Неплохо, чтобы в опросах рядом с названием фирмы публиковалась статистика: сколько прогнозил, сколько попал,
средняя ошибка и т.д.
Как в НБА, когда Коби бросает штрафные, мы заранее про него знаем, сколько он забивает в среднем,
какой рукой, сколько ему еще осталось забить и какая вероятность.
Логично, если бы рейтинг социолога, его зарплата и частота мелькания в медиапространстве зависели бы от этих данных.
Ведь странно, что у в Израиле главной по опросам до сих пор считается Мина Цемах, хотя вся страна знает, что Мина стабильно
ошибается на 5% влево. Может быть кто-то прогнозит лучше?
В общем, если до сих пор этого никто не сделал, я решил что пора сделать :)
Основы
Для начала, разберемся с основными терминами.
Социологическая погрешность - обычно в пределах 3-5%, зависит от размера выборки (количество опрашиваемых).
То есть, если кандидат на самом деле набирает 40%, хорошими можно признать все опросы, дающие ему 37-43%, с погрешностью 3%.
И наоборот, если в опросе мы имеем 40%, с той же погрешностью, мы вправе ожидать, что кандидат наберет от 37 до 43%.
Интервал 37-43 называется доверительным интервалом.
Но не все так просто. Погрешность зависит и от самого полученного показателя - в формулу входит х*(100-х). Понятно, что
максимальный результат будет, если х=50%, и по видимому именно это значение указывают в качестве максимальной погрешности
опроса. Для кандидата, набирающего в районе 10% погрешность примерно вдвое меньше максимальной, для 5% - еще вдвое меньше.
Уровень доверия (доверительная вероятность) - какой процент опросов попадет в границы доверительного интервала.
Доверительная вероятность также влияет на погрешность и наоборот - понятно, что чем выше погрешность, тем выше вероятность
попадания. Опросам с погрешностью 100% доверять можно всегда, но пользы от них не много. В соц.опросах уровень доверия обычно
берется 95%.
Это значит, что в одном из каждых 20 опросов социолог может выходить за пределы погрешности и нести любую чушь, и ему за это
ничего не будет. В общем, еще одна отмазка для социологов :)
Вот тут про это все подробно и достаточно понятным языком объясняется.
А тут можно даже скачать калькулятор погрешностей и почувствовать
себя социологом.
Поскольку проверить качество опросов можно только зная правильный ответ, т.е. результаты выборов, все остальное время
социологи могут нести любой бред, и мы их не можем поймать за руку (как в случае с итнаткутом, по которому так и не было
референдума).
Для сравнений я брал опросы за последнюю неделю до выборов, если у конторы несколько опросов - брался последний.
Учитывались только опросы сделанные до голосования, не экзит-поллы. В отличие от последних, результаты опросов,
публикующиеся до выборов влияют на наше мнение перед голосованием и давно стали средством пропаганды.
Плавающие голоса. В некоторых опросах любят указывать процент неопределившихся. Понятно, что к выборам неопределившиеся исчезают - либо они
становятся определившимися, либо не идут голосовать (но проценты явки нас сейчас не интересуют). Значит их можно не учитывать,
и нужно умножить результаты опроса на некий коэфициент, в сумме дающий 100%. (Если в опросе сказано, что кандидаты А и Б
набирают по 40% и еще 20% не определились, мы будем считать, что реальная ситуация между кандидатами 50-50).
Мандаты, Надя, мандаты. Социологи получают данные в процентах, газеты публикуют опросы в мандатах, делая весьма произвольные округления (или
указывая интервал от-до), не учитывая соглашения об остаточных голосах и т.д. В случае интервала мной бралось среднее
значение (например, для партий на грани проходного барьера, и набирающих 0-2 мандата берется 1) и переводил обратно в
проценты.
Естественно, все эти преобразования еще больше увеличивают погрешность вычислений, но других данных нет.
Ну и последнее - опросы находил в интернете, считал почти на коленке, указывайте на ошибки - буду благодарен :)
1.ПАРТИИ
В крайней левой колонке - правильный ответ, в крайней правой - среднее по палате.
Видно, что по большинству партий отклонение в 1-2 мандата, что можно признать более-менее нормальным.
в 2006-м бросается в глаза, что все дружно ошиблись примерно на 5 мандатов с Кадимой, и примерно на столько же но в другую
сторону с пенсионерами. Учитывая, что на следующий день виновники торжества объединились в одну фракцию, можно сказать, что
и не ошибка вовсе. К тому же, если мы отмотаем чуть назад, тенденцию падения Кадимы
предсказывали все опросы, а значит тут случай особый - каждый новый день со страшной силой отбирал мандаты, и за оставшиеся
2 дня ситуация для Кадимы могла еще больше ухудшиться.
Прогнозящий для газеты для альтернативно думающих людей "Диалог" сумел отличиться и на этом фоне, даже за 2 дня до выборов
давая Кадиме 36 мандатов. Отметим также, что Геокартография и Шваким давали Кадиме 33-34 мандата за 6 дней до выборов, и более
поздних их опросов нет, тогда как другие (Дахаф, Диалог, Телесекер) в то время еще радовали Кадиму, давая ей 36-37. К сожалению,
тот факт что опросы проводятся в разные дни, невозможно отразить в статистике и это вносит дополнительные неточности. Остается
надеяться, что при большом количестве опросов в среднем все утрясется равномерно.
Также отметим, что с упомянутой троицей Дахаф-Диалог-Телесекер сотрудничают три основные печатные газеты, и их опросы в
последние четверг-пятницу до выборов (а это как раз 5-6 дней) видит вся страна, тогда как у остальных аудитория гораздо меньше -
радиостанции, секторальный Макор Ришон, англоязычный JPost и т.д.
в 2003-м все дали в среднем на 6.5 мандатов меньше Ликуду
(и тут уже никаких тенденций не видно, просто тупо ошиблись), а в 99-м примерно на столько же ШАСу.
С ШАСом вообще всегда проблема, они во всех опросах получают меньше, чем на самом деле (обычно не так явно, как в 99-м,
но ошибка в 1-2 мандата в их случае почти всегда со знаком минус.
С НДИ в 2006-м самы большой разброс мнений, от +4 до -4, но в среднем как раз все хорошо (7 мандатов им Диалог давал - ничего
личного). В прошлые годы такая же проблема была с ИБА - то недолет, то перелет, но всегда сюрприз.
В общем, секторальные партии загадочны и плохо поддаются научным исследованиям.
В 96-м опросы трагически обрываются в конце апреля, поэтому в дальнейшем не учитываются. Но видно, что и там ошибка влево.
Судя по данным по опубликованным рядом опросам Перес-Нетаниягу, за оставшийся месяц существенных изменений не было.
В 84-м летописи донесли до нас лишь частичные данные, поэтому они тоже в дальнейшем не учитывались. Но радует, что и отмотав на
четверть века назад, мы опять встречаем те же лица.
Что еще сказать о партиях не знаю, поэтому перейдем к блокам и премьерам.
2. ОБЩИЕ ВЫБОРЫ - ПРЕМЬЕРЫ И БЛОКИ
Работа над ошибками
Кроме ошибки по каждому кандидату считалась суммарная ошибка опроса - сумма всех ошибок по кандидатам. Понятно, что чем
больше участников, тем больше суммарная ошибка и сравнения не совсем корректны (это относится только к праймериз, на общих
выборах всегда было по 2 кандидата). Другой вариант - сравнивать средние значения ошибок
тоже не решает проблему: чем больше участников, тем меньше будет средняя ошибка. Например, на последних праймериз в Кадиме
здорово облажались почти все социологи, но если мы разделим на 4 (результат двух аутсайдеров мог угадать даже ребенок)
средняя ошибка выглядит вполне приемлемой.
Поэтому отдельно сравнивалась разница между основными конкурентами (1-2-е место) и ее отклонение от реальной.
Правые, левые, прочие
Кроме того, считалась ошибка вправо/влево. Для этого все партии были поделены на блоки - правые и левые.
Кандидаты также были поделены на правых и левых, там где это казалось возможным. Понятно, что такое деление весьма условно,
и можно было делить как-то иначе.
К правым отнесены все партии коалиции Нетаниягу, включая ИБА и Третий путь, а также возникшие позже ИЛ, Либерман, и прочие
Хазиты и Атиквы, все кандидаты на пост ПМ от Ликуда, Биби и Фейглин на праймериз в Ликуде, Фуад в Аводе и Мофаз в Кадиме.
К левым - все партии коалиции Рабина плюс возникшие позднее Шинуй, Кадима и прочие пенсионеры зеленые, голубые и розовые
пнины розенблюм, кандидаты Аводы на пост ПМ, Шарон и Шалом на праймериз в Ликуде, Бург, Мицна и Рамон в Аводе, Ципа в Кадиме.
Некоторые вообще никуда не относятся, поэтому суммарная ошибка и ошибка вправо/влево не всегда совпадают.
Примечания:
По поводу 96-го года, на одном из форумов приводится ссылка на
два опроса
в Маариве и Йедиот, в одном из которых (йедиотском) вел Нетаниягу.
Речь идет о газетах, вышедших в понедельник (27.05). Для Йедиот у нас прогнозит Мина Цемах, в опросе Дахафа,
который я нашел, сделанном 28.05 вечером перед выборами Перес снова ведет 3%
Насчет опроса Маарива - не совсем понятно, кто его делал - скорее всего Геллап. На картинке, в газете за неделю до выборов видно,
что в Маариве публиковалось сразу три опроса, по всем вел Перес (отсюда)
Википедия также сообщает нам
о перевесе Переса в обоих газетных опросах перед выборами.
Еще приводилась ссылка на ликудовский опрос
за 5 дней до выборов, по которому Нетаниягу впереди на 1%.
Непонятно, кто его делал и где это было опубликовано, поэтому в дальнейшем опрос не учитывался. Но можно отметить, что внутренний
ликудовский опрос оказался абсолютно точным, в отличие от "объективных" газетных, хотя казалось бы, должно быть наоборот.
3. ПРАЙМЕРИЗ + РЕФЕРЕНДУМ
Примечания:
Последние колонки: суммарная ошибка, ошибка вправо/влево, разница между 1-м и 2-м местом, ошибка по 1-2 месту.
К ликудовским праймериз 2007 я нашел только один опрос, и хотя он был сделан за 2 недели до выборов, опрос абсолютно точный,
я решил его включить.
К ликудовским праймериз 99-го года (их там было 2 штуки) опросов вообще не нашел, что само по себе показательно.
На праймериз в Аводе в 2001-м было два результата: сначала выиграл Бург, потом часть друзских урн решили переголосовать,
друзы не пришли и выиграл Фуад. Опросов тоже два - в одном ведет Бург, в другом Фуад. Я считал наиболее близкий результат,
в итоге оба угадали, оба молодцы.
На ликудовских праймериз в 2007-м и в некоторых других мы всречаем двойные опросы - для всех избирателей и для тех кто
наверняка придет голосовать. В том конкретном случае цифры тех кто наверняка оказались ближе к правильным, но если посмотреть
дальше - никакой зависимости нет (либо недостаточно данных). Фактически, социолог подстраховывается и продает нам два варианта опроса по цене одного,
чтобы потом у него всегда была возможность сказать, что нужно было читать маленькие буквы, на последней странице, по диагонали.
В общем, я считал лучший вариант (он выделен болдом).
В праймериз N14 (Авода-2006, 1 тур) на имре второй опрос приписан Маагару Мохот,
во всех прочих местах это Шваким Панорама.
В опросе N18 (праймериз в Ликуде-2002) триумфально появляется с перекосом на 13% влево фирма Market Watch, которую мы
больше нигде не встречаем. Что за контора такая? Вот как раз недавно тут о ней писали.
На тех же ликудовских праймериз была такая добрая традиция не публиковать результаты Фейглина, как будто кандидатов всего двое.
Ну, раз не публиковали, считал 0. Может они чего-то другое имели в виду - я между строк читать не умею.
На ликудовском референдуме (опрос N17) все угадали результат и все ошиблись с цифрами влево. Вроде бы хуже всех нашаманили
И.Кац и Мина Цемах, но нужно отметить даты опросов - число противников размежевания росло с каждым днем и эту тенденцию верно
уловили почти все конторы. Последний опрос Каца от 28.04, у двух других 01.05. Если посмотреть на опрос Телесекера от
28.04 - там дела еще хуже.
Отличилась же Мина Цемах - старушка единственная обнаружила тенденцию роста сторонников размежевания.
Всеобщие выборы (партии и премьеры):
31 опрос, средняя ошибка 4.6%
Но влево ошибаются чаще (17 против 10 вправо) и больше: средняя ошибка левых опросов - 6.3%, средняя ошибка вправо - 3.5%, почти вдвое меньше.
Итого: каждый опрос в среднем ошибается на 2.3% влево.
Это подтверждает истину, известную каждому ребенку: опросы подрисовывают пару мандатов левым партиям, но стараются при этом оставаться в каких-то рамках.
Отдельно по партиям и по премьерам картина примерно одинаковая.
На праймериз веселее:
35 опросов, 20 левых, всего 4(!) правых, средняя ошибка 12.1%
Левые ошибаются в среднем на 11%, правые - на 5.9%. В среднем каждый опрос прибавляет 5.6% левым.
В сумме все вместе:
66 опросов, средняя ошибка 8.6%, влево - 8.8%, вправо - 4.2%, в среднем 4.1% влево.
Старуха процентщица и другие
Теперь отдельно по опрос-конторам (выписывал только тех, кто давал больше одного прогноза):
Геокартография (А.Дгани): 5 прогнозов, 4.37%, 2.35% влево
эти - самые объективные, дальше - хуже.
Маагар Мохот (И.Кац): 4 прогноза, 5.91%, 7.63% влево
этот тоже относительно неплохо, из-за малого числа опросов сильно тянет вниз ошибка на референдуме, когда опрос был сделан раньше других.
Геллап: 4 прогноза, 6.86% (столько же влево)
Галь хадаш: 4 прогноза, 9.79% (9.37 влево)
Галь хадаш - это бывший Геллап, видно, что смена вывески не изменила концепцию. Из 8-и опросов 7 ошибаются влево.
Стабильность - признак класса!
Дахаф (М.Цемах): 15 прогнозов, 7.26%, 4.63% влево.
Из 15-и опросов 10 ошибок влево, 3 вправо. Вот он профессионализм - все в пределах стат.погрешности и в то же время ошибки
почти всегда в нужную сторону.
Диалог (К.Фукс): 9 прогнозов, 10.22%, 5.35% влево
Газета для думающих людей помогает думать в нужном направлении.
(но на общих выборах все не так плохо - 2 прогноза, ср.ошибка 1.25% влево)
Телесекер: 9 прогнозов, 10.27%, 2.04% влево
Эти считать не умеют, но объективные, чушь несут направо и налево.
Отдельно можно выделить т.н. сложные выборы - когда разница между 1 и 2-м местом составляла меньше 10%. Их, включая 84-й год, было 9 (N3,5,6,9,11,13,14,16,20), 24 опроса.
7 раз конторы угадывали победителя, 13 раз промахивались.
Отличилась тут Мина Цемах - из 7-и попыток 6 неугаданных победителей.
Вы вдумайтесь в простые эти цифры, за каждой вижу чью-нибудь судьбу...
Персональная статистика - некоторые наиболее интересные персонажи:
(в первых двух случаях я считал разницу между кандидатом и его ближайшим конкурентом)
Нетаниягу фигурирует в 17 опросах (ПМ+праймериз, не считая 2007-го года, когда соперничества фактически не было),
13 раз ошибка влево, в среднем каждый опрос ошибается на 5.23% не в его пользу.
Перес (сюда также посчитал 1984, хотя там фигурируют партии) - 10 опросов, все(!) в его пользу, в среднем ошибка 9.3%
Фейглин участвовал в 12 опросах, в среднем в каждом получал на 1.66% меньше, чем на самом деле. Учитывая,
что всего он набирал в среднем 8.86%, т.е. в каждом опросе на 19% меньше реального результата.
Партия ШАС за последние 12 лет (вместе с 96-м годом - данные за апрель) появляется в 17 опросах, 13 дают ей меньше
чем на самом деле, всего один - больше. В среднем получают в каждом опросе на 2.26% меньше, т.е. на 2-3 мандата.
Кадиму и лично Ципи Ливни не считал, т.к. они успели отметиться только в одних выборах, но видно, что у Ш.Переса появились
достойные конкуренты.
Парадокс Марзеля. Партия Баруха Марзеля (Херут, потом Хазит) участвовала в выборах 2003-го и 2006-го года, оба раза набирая более
одного мандата, но не проходя ахуз хасима. Тем не менее, мы мало где встретим ее в опросах.
Зато мы там часто встречаем зеленых, Але ярок, Тафнит, Пнину Розенблюм, пенсионеров (в их непроходные годы) и
кого только не.
(http://www.politicsnow.co.il/ele2003sk.html,
http://www.uzit.co.il/poll2006.html)
О важности попадания в опросы перед выборами свидетельствует успех партии пенсионеров: стоило им в 2006-м году
появиться в 6-и из 7-и последних предвыборных опросов, создав ощущение проходимости, как народ массово побежал
за них голосовать, принеся 7 мандатов.
Как это работает
Поскольку я начал собирать данные еще осенью, 17 сентября, в день праймериз в Кадиме, передо мной была таблица с цифрами
в графе праймериз:
средняя ошибка 11.4%, средняя ошибка влево - 10%. Не могу сказать, что сильно удивился, узнав на следующее утро, что все три мидгама
ошиблись на 10% в пользу Ливни.
Интересно также, кого позвали делать мидгам: 10 канал - К.Фукс (на праймериз ср.ошибка 12.8%, средняя влево - 7%),
2 канал - Мина Цемах (9.64%, 6.84% влево), 1 канал - Мано Гева (не знаю кто такой, нет данных). Есть конторы, которые, мягко говоря,
угадывают получше (у Шваким Панорама до тех праймериз средняя ошибка была 5.82% и их прогноз
наиболее близок к реальности.
Наиболее же точным следует признать прогноз Мофаза (43.7%),
правда счастья ему это не принесло.
В частности, тут любопытная дискуссия с участием нобелевского лауреата проф.Аумана ("опросы - лженаука и средство влияния")
и ответ проф.Фукса ("опросы - это наше всё и ошибаются не так уж сильно").
Данное исследование показывает, что ошибаются в среднем действительно не так уж сильно, правда опросов самого Фукса (10.22%) это не касается.