Найбільш вживані слова у передвиборних програмах кандидатів у президенти 2014
У цьому аналітичному огляді ми спробували «взяти за язика» наших кандидатів у Президенти України. Основним об’єктом дослідження стали тексти передвиборчих програм, люб’язно опубліковані на сайті Центральної виборчої комісії. З метою ознайомлення ми завантажили ці файли і витягнули із них тексти передвиборчих обіцянок. Аналітична обробка текстів здійснювалась із використанням програмного середовища R. Перед обробкою текстів вони були позбавлені дубльованих пробілів, цифр і «шумових слів» («стоп-слів»). Окрім цього, всі літери були приведені до рядкового регістру.
Словник шумових слів складений власноруч і містить наступні слова: або; авжеж; адже; але; би; в; від; все; всі; де; дещо; для; до; є; з; і; із; її; їх; його; ледве; майже; на; навіть; над; нею; ним; ними; но; ось; отже; отож; під; при; про; та; так; така; таке; такий; таким; таких; такі; такій; також; такому; те; теж; тих; ті; тобто; того; тож; той; тому; тощо; у; хто; це; цей; ці; цій; цьому; ця; що; щоб; як; яка; який; які. Слід зазначити, що однокореневі слова («Україна», «України», «Україною» та їм подібні) — не вилучались. На нашу думку — вилучення подібних слів суттєво змінить кінцеві результати через незначні розміри первинних текстів. А приведення подібних слів «до єдиного знаменника» — викривить змістовну складову текстів.
За результатами аналітичної обробки текстів побудовані «хмари слів» — найбільш вживані слова у текстах передвиборчих обіцянок. В якості вхідного порогу використано умову «три і більше повторювань слова у тексті».
Окрім визначення найбільш вживаних слів, нами проведено порівняння тотожності (схожості) текстів передвиборчих програм. Порівняння виконувалось за допомогою коефіцієнту Охаі («косінусний коефіцієнт»). Результати порівняння представлено нижче.
Результати перевірки тотожності текстів дещо неоднозначні. Можна було б очікувати подібності текстів, оскільки всі вони написані на звужену тематику. Насправді це і спостерігається: коефіцієнт Охаі для жодної пари текстів не знижується нижче 0,55. Але цікаво на загальному фоні виглядають тексти передвиборчих програм від Гриценка та Царьова: в їхніх програмах написано «про все» у прямому розумінні слова. Їхні передвиборчі програми показують високу схожість з усіма іншими текстами. Іще можна констатувати існування «полярних» поглядів, виражених через тексти. Такими є пари «Клименко-Куйбіда», «Добкін-Симоненко», «Кузьмин-Тягнибок» та «Тягнибок-Тимошенко».
Ну, і нарешті, — нами обрано «Топ 15» слів, які найчастіше зустрічаються серед усіх проаналізованих текстів виборчих програм:
Оскільки ми не стали редагувати словоформи, до гістограми потрапили різні написання нашої Неньки. Це жодним чином не знижує тієї любові до нашої Батьківщини, якою просякнуті наші кандидати у Президенти. Але інші слова говорять самі за себе: нажаль «влада» і тепер, після всіх революційних змін, значно випереджає «розвиток», натякаючи на істинні цілі президентства, а висока вживаність «забезпечення+забезпечити» знову викликає сумні спогади про «бюджети проїдання» та всілякі «спеціальні утримання».
Щоб спростувати ці неприємні асоціації, у наступній статті ми розглянемо взаємні положення цих слів у текстах передвиборчих програм.