Статистичний пошук фальсифікацій в результатах підрахунку голосів
Закон Бенфорда, або «закон першої цифри» часто використовують для перевірки числових даних на відсутність махінацій та підтасовок. Основне положення закону: «вірогідність появи цифр в даних з реального світу - нерівномірна. Чим менша цифра, тим частіше вона зустрічається». Відповідно до цього закону - одиниця в якості першої цифри числа зустрічається у 30% випадків, двійка - у 17,6%, а дев’ятка - лише у 4,58%. Цей закон багато разів підтверджували емпірично: площі басейнів рік, кількість населення країн, висоти будівель, фінансові та соціологічні дані - всі вони здебільшого підпорядковуються цьому закону. Останнім часом закон Бенфорда застосовують для перевірки чесності та прозорості виборчих кампаній.
Нами зроблено спробу застосувати закон Бенфорда для перевірки результатів голосування на парламентських виборах 2014 року. Спочатку перевірку було зроблено для всієї України, потім - для кожного виборчого округу окремо. Для перевірки ми взяли результати голосування за шість «прохідних» партій, а також за ВО Свобода та Компартію.
Перевірка даних по всій Україні не показала порушення закону Бенфорда. Навіть не дивлячись на часткову невідповідність фактичних даних теоретичним постулатам - встановити статистично значущі відхилення нам не вдалось. Так, для «строгого» пошуку відхилень ми застосували критерій Пірсона хі-квадрат, який дозволяє порівнювати масиви даних і доводити/спростовувати тезу про те, що ці масиви підпорядковуються одному математичному закону. При перевірці даних для всієї України найбільші візуальні відхилення від теоретичних закономірностей спостерігались в результатах голосування за Радикальну Партію Олега Ляшка. Але перевірка за допомогою статистичного критерію хі-квадрат не виявила статистично значущих відмін між теоретичними та фактичними даними не тільки для Радикальної, але і для всіх інших із 8-ми партій. Нижче показано, як виглядають результати перевірки показника «кількість голосів на виборчих дільницях» для НАРОДНОГО ФРОНТУ та Радикальної Партії Олега Ляшка. Стовпчик «теоретична частість» показує - із якою частотою повинна зустрічатись у даних конкретна цифра. Стовпчик «фактична частість» - показує - із якою частотою конкретна цифра насправді фігурує в наших даних. Ми аналізували «перші значущі цифри» - тобто перші цифри кожного числа. За вихідні дані взято показник «кількість голосів за партію на виборчій дільниці».
Як зазначено вище — в цілому жодна з перевірених партій не вийшла за межі випадкових розбіжностей. А от результати «поокружних» перевірок виявились набагато цікавішими! По-перше - для 198 виборчих округів встановлено в загалом 223 відхилення від закону Бенфорда (для 8-ми партій). По-друге - приблизно така ж кількість випадків - це значення «на межі довіри». В якості граничного значення ми обрали рівень значущості критерію хі-квадрат 0,1 (10%). Так от - велика кількість результатів перевірки коливається в межах 0,2-0,1. Це дозволяє розглядати ці дані як «кандидати в махінації». І по-третє, що нам здалось найбільш підозрілим, - в деяких округах порушення закону Бенфорда спостерігається одразу для декількох політичних сил. Такими, наприклад, є результати перевірки в 27 (Самопоміч, Батьківщина, Свобода, Компартія), 50 (Опозиційний блок, Радикальна Партія, Свобода, Компартія), 155 (Блок Порошенка, Самопоміч, Радикальна Партія, Батьківщина), 187 (Блок Порошенка, Самопоміч, Батьківщина, Свобода, Компартія), 223 (Блок Порошенка, Самопоміч, Опозиційний блок, Батьківщина) та інших виборчих округах. Така «сукупність» невідповідностей наштовхує на думку про те, що на цих округах в одних політичних сил голоси «зникали», натомість у інших - «з’являлись». Нажаль ми не можемо списати ці невідповідності на соціологічні, географічні та інші чинники. Справа в тому - що сусідні округи із цими показують цілком «пристойні» результати, тобто - без порушень закону Бенфорда. Через це - ми підозрюємо саме зовнішнє втручання у числові дані та їхнє змінення. Для деталізації ми відібрали в таблицю ті округи, на яких спостерігається порушення закону Бенфорда для чотирьох і більше партій. Сподіваємось - що наші читачі зможуть зорієнтуватись в причинах цих невідповідностей і наслідках подібних махінації (якщо вони дійсно були).
Одномандатний виборчий округ | Кількість порушень закону Бенфорда | Партії, для яких спостерігається порушення закону Бенфорда |
27 | 4 | Самопоміч, Батьківщина, Свобода, Компартія |
50 | 4 | Опозиційний блок, Радикальна Партія, Свобода, Компартія |
136 | 5 | Блок Порошенка, Радикальна Партія, Батьківщина, Свобода, Компартія |
155 | 4 | Блок Порошенка, Самопоміч, Радикальна Партія, Батьківщина |
187 | 5 | Блок Порошенка, Самопоміч, Батьківщина, Свобода, Компартія |
189 | 4 | Народний Фронт, Блок Порошенка, Опозиційний блок, Компартія |
192 | 4 | Самопоміч, Опозиційний блок, Радикальна Партія, Батьківщина |
202 | 4 | Блок Порошенка, Самопоміч, Свобода, Компартія |
223 | 4 | Блок Порошенка, Самопоміч, Опозиційний блок, Батьківщина |
Як видно - підозрілі результати підрахунку голосів видали округи, які зовсім не «засвітились» у всіляких гучних скандалах. Як кажуть у народі — «тишком-нишком».
В якості доказу нашого дослідження ми наводимо графіки із перевіркою даних по 202 виборчому округу (Чернівецька область). На графіках зображено теоретичні та фактичні частості перших значущих цифр для Блока Порошенка, Самопомічі, Свободи та Компартії.
Найяскравішим прикладом махінацій є графік, побудований за даними ВО Свобода. Особливо виділяється цифра «6». Відповідно до закону Бенфорда цифра «6» на першій позиції числа повинна зустрічатись 6,69%. Для масиву із 164 чисел це становить приблизно 11 разів (10,979). Але в нашому випадку шістка зустрічається аж 22 рази! Це у два рази більше! Не було б проблеми, якби і сусідні цифри зустрічались зі схожою частістю, але це не так. Можна підозрювати, що Свободі намагались «підтягнути» результати, але при цьому намагались сильно не виділятись (не вписувати вісімки та дев’ятки). От і вийшло, що «підтягнули» не дуже приховано. Повну протилежність показує графік із результатами Комуністичної партії - особливо виділяється тотальний дефіціт «високих» цифр - сімок, вісімок та дев’яток. Після подібної перевірки з’являється підозра, що не пройти до парламенту комуністам трошки «допомогли».
Отже, за результами нашої перевірки можна виділити дев’ять округів, на яких, можливо, все-ж таки була масово задіяна технологія «переписування протоколів». А загалом - невідповідність теоретичним розподілам фіксується на 128-ми виборчих округах. Але найцікавішим виявляється адміністративна прив’язка цих округів. Для візуалізації ми побудували картограму, на якій зазначили загальну кількість «невідповідностей» закону Бенфорда на округах в межах областей. Числа на картограмі відображають суму всіх сумнівних випадків по кожній із 8-ми партій і в кожній області.
Як видно із картограми - беззаперечними лідерами маніпуляцій із даними є Дніпропетровська (22 випадки), Донецька (20 випадків) області та місто Київ (21 випадок). Далеко позаду залишаються Харківська (15 випадків), Хмельницька (14 випадків) та Одеська (12 випадків) області. Окружні комісії інших областей України створили, здебільшого, менше десяти "підозрілих" підрахунків. Найменша кількість махінацій із даними підрахунку голосів фіксується в Волинській, Кіровоградській та Полтавській областях - лише по три випадки розходження із законом Бенфорда.