Комп'ютерне програмне забезпечення для обробки емпіричних даних

У процесі аналізу даних соціолог використовує різні програ­ми: текстовий редактор (для підготовки звіту), пакет ілюстра­тивної комп'ютерної графіки (для підготовки графіків у звіт або слайдів для публічного виступу з результатами) і, звичайно, па­кет програм для аналізу даних. Сучасні пакети програм — це результат копіткої роботи колективів висококваліфікованих фахівців. Кожний пакет розробляється для певного типу комп'ю­терів. Крім того, як правило, кожний пакет програм має свої формати даних, і інформація, підготовлена для одного пакета, не може безпосередньо оброблятися засобами іншого пакета. Більшість пакетів мають у своєму складі спеціальні програми перекодування даних у формати найвідоміших пакетів програм (їх називають програмами експорту та імпорту даних).

 

Пакети обробки соціологічних даних включають, як правило, такі функціональні блоки програм.

1. Програми настроювання на конкретне дослідження та введення інформації в комп'ютер. Ці програми дають змогу описати структуру даних, що оброблятимуться (наприклад, вказати кількість ознак, допустимі значення їх та ін.), та ввести дані в комп'ютер відповідно до цієї структури. Від простоти і зруч­ності користування програмою залежать час, необхідний для вве­дення інформації в комп'ютер, та надійність введених даних.

2. Програми контролю та коригування даних, завдяки яким соціолог може знайти та виправити у введених даних по­милки, відкинути недостовірні дані.

3. Програми перетворення введених даних. Цей блок вклю­чає всебе програми перекодування даних (зміна кодів значень ознак, об'єднання кількох значень певної ознаки в одне та ін.), ремонту вибірки, побудови додаткових ознак (значення яких об­числюються на основі значень наявних ознак), побудови підвибірок, що задовольняють певні умови, експорту даних у формати інших пакетів та імпорту їх.

4. Програми математично-статистичного аналізу. Це, як правило, програми побудови різних таблиць, розрахунку стати­стичних показників, перевірки статистичних гіпотез, кореляцій­ного, регресійного, дисперсійного, кластерного та факторного ме­тодів аналізу.

5. Програми наочного представлення та виведення ре­зультатів обчислень. Цей блок включає програми виведення на екран дисплея, друкуючий пристрій або на спеціальне облад­нання різних таблиць, графіків, діаграм, гістограм, малюнків та інших форм представлення результатів роботи пакета.

Є досить велика кількість пакетів програм для аналізу соціо­логічних даних, розроблених у різних країнах і розрахованих для використання на різних типах комп'ютерів. Серед них є па­кети, що розвиваються не один десяток років і мають версії для роботи майже на будь-яких типах комп'ютерів (наприклад, 8Р88, 8А8, ВМОР). Пакети різняться зручністю та легкістю експлуа­тації, швидкістю та точністю обчислень, набором математичних методів аналізу, наявністю документації, ціною та іншими по­казниками.

Одним зі світових лідерів у статистичній обробці даних для соціальних наук є американський пакет 8Р88. Роботи над цим пакетом ведуться протягом кількох десятків років. Є версії пакета для різних типів комп'ютерів. Пакет включає в себе велику кількість різних статистичних методів аналізу даних і має вели­кі можливості для обробки як кількісних, так і якісних (що ви­мірюються в номінальних або порядкових шкалах) даних. Хоча пакет не орієнтований безпосередньо на обробку саме соціоло­гічних даних, але наявність широкого спектра процедур стати­стичного аналізу, поєднана з досить гнучкою спеціалізованою мовою програмування, дає змогу за наявності певного досвіду розв'язувати найрізноманітніші завдання аналізу даних. Пакет досить великий (займає багато пам'яті на дискові). Пакет 8Р88 має змістовний і великий за обсягом комплект документації, в якому описуються можливості пакета і який може розглядатись як підручник з комп'ютерного аналізу даних. На жаль, немає українізованих або русифікованих версій пакета. На заваді ши­рокому використанню його в Україні може стати також ціна — залежно від конфігурації — від кількох сотень до кількох тисяч доларів США.

Чи не єдиним досить поширеним в Україні вітчизняним спеціалізованим пакетом програм для аналізу даних соціоло­гічних досліджень на персональних комп'ютерах є пакет ОСА (обробка соціологічних анкет). Цей пакет призначений для без­посереднього використання соціологами, що мають мінімальні навички самостійної роботи з комп'ютером. Є українська та ро­сійська версії пакета. Пакет ОСА, звичайно ж, значно поступається пакетові 8Р88 у кількості методів статистичного аналізу даних. До ОСА включено основні методи стандартного арсеналу проце­дур аналізу даних, що використовуються в соціології. Спілку­вання з пакетом організовано українською або російською (за­лежно від версії) мовою з активним використанням меню. Це полегшує роботу з пакетом, дає змогу вибирати на екрані комп'ю­тера необхідні операції й одразу бачити результат обробки (ви­конання окремих операцій забирає секунди).

 

Розглянемо можливості пакета ОСА та технологію його засто­сування для аналізу даних.

Пакет ОСА дає змогу обробляти ознаки, задані в метричній, порядковій або номінальній шкалі. При цьому розрізняють номі­нальні шкали з несумісними (респондент може вибрати тільки одну із запропонованих відповідей) та із сумісними альтернатива­ми (респондент може вибрати будь-яку кількість із запропоно­ваних йому відповідей).

Дані для аналізу мають бути підготовлені у вигляді двох файлів. Перший з них містить текст питальника, введений у спеці­альному форматі, паспорт масиву. У другому файлі зберігаються власне дані, зібрані в ході дослідження. Паспорт містить для кожної ознаки:

— її назву; наприклад, "Задоволеність умовами праці";

— відповідне запитання з питальника; наприклад, "Як Ви оцінюєте умови праці на Вашому підприємстві?";

— перелік усіх варіантів відповідей, запропонованих респон­дентові, та відповідні числові коди, наприклад, "З — повністю задовільні, 2 — непогані, 1 — незадовільні";

— тип шкали (метрична, порядкова, номінальна або номінальна із сумісними альтернативами).

 

Назви ознак, варіанти відповідей можна брати безпосередньо з анкети (як фрази українською мовою) — це дуже зручно. Якщо, наприклад, текст питальника готувався за допомогою комп'юте­ра, то паспорт досить просто можна одержати, переформатувавши цей текст. Крім того, пакет містить засоби для безпосереднього введення паспорта. Паспорт і текст питальника готують квалі­фіковані фахівці, які знають, як кодуватимуть і як оброблятимуть зібрані дані.

Процес введення зібраних даних у комп'ютер не потребує ви­сокої спеціальної кваліфікації. Це дає змогу залучити до введен­ня зібраних даних велику кількість виконавців, а окремі частини даних вводити паралельно на кількох комп'ютерах. Після завершення процедури введення ці частини об'єднуються в один масив для аналізу. В процесі введення здійснюється контроль на від­повідність інформації, що вводиться, паспорту. Комп'ютер, на­приклад, "не дозволить" ввести кілька кодів відповідей на запи­тання з несумісними альтернативами або такий код, якого немає серед можливих кодів відповідей.

Аналіз однієї ознаки

Первинні дані мають бути певним чином упорядковані. Для цього застосовують різноманітні статистичні методи — групу­вання, обчислення узагальнюючих параметрів та коефіцієнтів, кореляційний, регресійний, кластерний, факторний аналіз та ін. Проте незалежно від того, який метод аналізу застосовується, першим і абсолютно необхідним кроком обробки даних є попе­реднє впорядкування інформації, переважно за допомогою стати­стичного групування та побудови статистичних таблиць.

Структура відповідей на запитання анкети наводиться в табли­ці, де для кожного з можливих значень ознаки записано, скільки разів воно трапляється в сукупності зібраних даних. Таку таблицю називають таблицею одновимірного розподілу, одновимірною та­блицею, або варіаційним рядом. Пакет ОСА дає змогу за лічені секунди побудувати один або кілька (навіть кілька десятків або кілька сотень) одновимірних розподілів. Результати обчислень можуть бути виведені на екран комп'ютера (для безпосереднього аналізу на екрані), на друкуючий пристрій або у файл на дискові.

Для ознаки "Задоволеність умовами праці" одновимірна та­блиця має такий вигляд:

 

Задоволеність умовами праці*

Значення Частота % до всіх % до значень
Цілком задоволений 12,61 12,93
Більше задоволений, ніж не задоволений 24,65 25,29
Більше не задоволений, ніж задоволений 29,41 30,17
Повністю не задоволений 30,81 31,61
Без відповіді 2,52

* Було опитано 357 осіб, відповіли на запитання "Чи задоволені Ви умовами праці на Вашому підприємстві" 348 осіб (97,48 %).

 

Кількість опитаних у досліджуваній сукупності — 357. Для 348 опитаних (що становить 97,48 % загального обсягу сукупно­сті) відоме значення ознаки "Задоволеність умовами праці". Для інших (у нашому випадку їх 9) значення цієї ознаки не відоме (наприклад, інформація збиралася методом опитування, і деякі робітники підприємства не захотіли відповісти на поставлене запитання). Аналізуючи таблицю, ми бачимо, наприклад, що задо­волених умовами праці — 45, а це становить 12,61 % загального обсягу сукупності та 12,93 % кількості робітників, які відповіли на поставлене запитання. Ми бачимо також, що переважна більшість опитаних робітників (29,41 % + 30,81 % = 60,22 %) або повністю, або частково не задоволені умовами праці.

Для ознак, заданих у метричних шкалах, пакет дає змогу всі значення ознаки розбити на певні інтервали, а вже потім буду­вати одновимірну таблицю.

Для того щоб полегшити аналіз великої кількості таблиць та мати можливість порівняти кілька таблиць, обчислюють узагаль­нюючі характеристики рядів розподілу. Одна з таких характери­стик (її використовують дуже часто) — міри центральної тен­денції. Для кількісної ознаки обчислюють середнє арифметичне значення цієї ознаки для всіх об'єктів сукупності. Для номіналь­них ознак узагальнюючою характеристикою ряду є мода — значення, що найбільш часто трапляється в одновимірній табли­ці. Так, у наведеній вище таблиці модальним для ознаки "Задово­леність умовами праці" є значення "повністю не задоволений" (саме таких відповідей на поставлене запитання було найбільше). Для ознак, вимірюваних у порядкових шкалах, часто обчислюють таку міру центральної тенденції, як медіана — середній ряд упорядкованого ряду значень. Медіана має просту і водночас ко­рисну властивість — принаймні половина всіх досліджуваних об'єктів має значення ознаки, не більші, ніж медіана, і водночас принаймні половина об'єктів — значення, не менші, ніж медіана.

Слід зауважити, якщо впорядкувати шкали за рівнем вимі­рювання (найвищий рівень — це метричні шкали, потім — по­рядкові шкали, далі — номінальні шкали), то можна сформулю­вати таке загальне правило: якщо певний показник визначений для шкали певного рівня вимірювання, то його можна обчислю­вати і для шкал більш високого рівня, але, звичайно, не можна обчислювати для шкал нижчого рівня.

Отже, застосувавши це правило для розглянутих нами мір центральної тенденції, можна легко упевнитися, що моду можна обчислювати не тільки для номінальних шкал, а й для порядко­вих та метричних шкал, але медіану не можна обчислювати для ознак, виміряних у номінальній шкалі.

Для того щоб оцінити весь ряд розподілу, обчислюють стати­стичні показники варіації ознак, або міри варіації. Для метричних ознак це — дисперсія, середнє квадратичне відхилення та коефі­цієнт варіації. Для якісних ознак розроблено спеціальні індекси якісної варіації. Чим більшим є значення відповідного показ­ника варіації, тим більше розсіяні навколо середнього значення реальні значення ознаки, а отже, тим обережніше при побудові змістових висновків слід оперувати із середнім значенням.

Міри варіації дають змогу оцінити, наскільки сукупність одно­рідна за певною ознакою. Якщо вона неоднорідна, може виникну­ти потреба розбити цю сукупність на кілька однорідних за цією ознакою частин і аналізувати кожну з них окремо. Припустимо, ми вивчаємо задоволеність умовами праці на підприємстві. З логічних міркувань або з результатів попередніх досліджень нам відомо, що заробітна плата робітника впливає на задоволеність його умовами праці. Нехай коефіцієнт варіації заробітної плати для всієї сукупності робітників дорівнює 0,7. Тоді всю сукупність робітників слід розбити на приблизно однакові за рівнем заробіт­ної плати групи (наприклад, так, щоб у кожній групі коефіцієнт варіації заробітної плати не перевищував 0,4) і проводити аналіз задоволеності умовами праці для кожної групи окремо.

Графічне зображення даних

Дуже корисним для змістовного аналізу є зображення даних у графічній формі. Графіки та діаграми в деяких випадках спри­ймаються читачем легше, ніж стовпчики чисел статистичних та­блиць. Зручно використовувати графічне зображення даних і під час публічних виступів — на телебаченні, конференціях тощо.

Найпоширенішими формами графічного зображення одновимірних розподілів є гістограма (або стовпчикова діаграма), полі­гон розподілу та секторна діаграма.

Гістограма — це послідовність стовпчиків, розміщених верти­кально (вертикальна гістограма) чи горизонтально (горизонтальна гістограма). Кожний стовпчик має висоту (або довжину), пропор­ційну кількості (або частці, або відсотку) об'єктів, що мають відпо­відне значення ознаки. Так, на рис. 1 зображено горизонтальну гістограму розподілу відповідей на запитання про задоволеність

власним становищем. Для кожного стовпчика гістограми вказа­но відповідну частоту та відсоток. Отже, конфігурація стовпчиків гістограми дає уявлення про тенденцію, а числа необхідні для більш детального аналізу. Як правило, при побудові гістограм використовують рівні інтервали, а отже, стовпчики мають одна­кову ширину. Масштаб зображення краще обирати так, щоб відно­шення висоти найбільшого стовпчика до ширини гістограми було приблизно 3:5. Досить часто гістограму зображують не у ви­гляді окремих стовпчиків, а як суцільний контур.

Рис. 1. Горизонтальна гістограма зображення відповідей