Комп'ютерне програмне забезпечення для обробки емпіричних даних

У процесі аналізу даних соціолог використовує різні програми: текстовий редактор (для підготовки звіту), пакет ілюстративної комп'ютерної графіки (для підготовки графіків у звіт або слайдів для публічного виступу з результатами) і, звичайно, пакет програм для аналізу даних. Сучасні пакети програм — це результат копіткої роботи колективів висококваліфікованих фахівців. Кожний пакет розробляється для певного типу комп'ютерів. Крім того, як правило, кожний пакет програм має свої формати даних, і інформація, підготовлена для одного пакета, не може безпосередньо оброблятися засобами іншого пакета. Більшість пакетів мають у своєму складі спеціальні програми перекодування даних у формати найвідоміших пакетів програм (їх називають програмами експорту та імпорту даних).

Пакети обробки соціологічних даних включають, як правило, такі функціональні блоки програм.

1. Програми настроювання на конкретне дослідження та введення інформації в комп'ютер. Ці програми дають змогу описати структуру даних, що оброблятимуться (наприклад, вказати кількість ознак, допустимі значення їх та ін.), та ввести дані в комп'ютер відповідно до цієї структури. Від простоти і зручності користування програмою залежать час, необхідний для введення інформації в комп'ютер, та надійність введених даних.

2. Програми контролю та коригування даних, завдяки яким соціолог може знайти та виправити у введених даних помилки, відкинути недостовірні дані.

3. Програми перетворення введених даних. Цей блок включає всебе програми перекодування даних (зміна кодів значень ознак, об'єднання кількох значень певної ознаки в одне та ін.), ремонту вибірки, побудови додаткових ознак (значення яких обчислюються на основі значень наявних ознак), побудови підвибірок, що задовольняють певні умови, експорту даних у формати інших пакетів та імпорту їх.

4. Програми математично-статистичного аналізу. Це, як правило, програми побудови різних таблиць, розрахунку статистичних показників, перевірки статистичних гіпотез, кореляційного, регресійного, дисперсійного, кластерного та факторного методів аналізу.

5. Програми наочного представлення та виведення результатів обчислень. Цей блок включає програми виведення на екран дисплея, друкуючий пристрій або на спеціальне обладнання різних таблиць, графіків, діаграм, гістограм, малюнків та інших форм представлення результатів роботи пакета.

Є досить велика кількість пакетів програм для аналізу соціологічних даних, розроблених у різних країнах і розрахованих для використання на різних типах комп'ютерів. Серед них є пакети, що розвиваються не один десяток років і мають версії для роботи майже на будь-яких типах комп'ютерів (наприклад, 8Р88, 8А8, ВМОР). Пакети різняться зручністю та легкістю експлуатації, швидкістю та точністю обчислень, набором математичних методів аналізу, наявністю документації, ціною та іншими показниками.

Одним зі світових лідерів у статистичній обробці даних для соціальних наук є американський пакет 8Р88. Роботи над цим пакетом ведуться протягом кількох десятків років. Є версії пакета для різних типів комп'ютерів. Пакет включає в себе велику кількість різних статистичних методів аналізу даних і має великі можливості для обробки як кількісних, так і якісних (що вимірюються в номінальних або порядкових шкалах) даних. Хоча пакет не орієнтований безпосередньо на обробку саме соціологічних даних, але наявність широкого спектра процедур статистичного аналізу, поєднана з досить гнучкою спеціалізованою мовою програмування, дає змогу за наявності певного досвіду розв'язувати найрізноманітніші завдання аналізу даних. Пакет досить великий (займає багато пам'яті на дискові). Пакет 8Р88 має змістовний і великий за обсягом комплект документації, в якому описуються можливості пакета і який може розглядатись як підручник з комп'ютерного аналізу даних. На жаль, немає українізованих або русифікованих версій пакета. На заваді широкому використанню його в Україні може стати також ціна — залежно від конфігурації — від кількох сотень до кількох тисяч доларів США.

Чи не єдиним досить поширеним в Україні вітчизняним спеціалізованим пакетом програм для аналізу даних соціологічних досліджень на персональних комп'ютерах є пакет ОСА (обробка соціологічних анкет). Цей пакет призначений для безпосереднього використання соціологами, що мають мінімальні навички самостійної роботи з комп'ютером. Є українська та російська версії пакета. Пакет ОСА, звичайно ж, значно поступається пакетові 8Р88 у кількості методів статистичного аналізу даних. До ОСА включено основні методи стандартного арсеналу процедур аналізу даних, що використовуються в соціології. Спілкування з пакетом організовано українською або російською (залежно від версії) мовою з активним використанням меню. Це полегшує роботу з пакетом, дає змогу вибирати на екрані комп'ютера необхідні операції й одразу бачити результат обробки (виконання окремих операцій забирає секунди).

Розглянемо можливості пакета ОСА та технологію його застосування для аналізу даних.

Пакет ОСА дає змогу обробляти ознаки, задані в метричній, порядковій або номінальній шкалі. При цьому розрізняють номінальні шкали з несумісними (респондент може вибрати тільки одну із запропонованих відповідей) та із сумісними альтернативами (респондент може вибрати будь-яку кількість із запропонованих йому відповідей).

Дані для аналізу мають бути підготовлені у вигляді двох файлів. Перший з них містить текст питальника, введений у спеціальному форматі, паспорт масиву. У другому файлі зберігаються власне дані, зібрані в ході дослідження. Паспорт містить для кожної ознаки:

— її назву; наприклад, "Задоволеність умовами праці";

— відповідне запитання з питальника; наприклад, "Як Ви оцінюєте умови праці на Вашому підприємстві?";

— перелік усіх варіантів відповідей, запропонованих респондентові, та відповідні числові коди, наприклад, "З — повністю задовільні, 2 — непогані, 1 — незадовільні";

— тип шкали (метрична, порядкова, номінальна або номінальна із сумісними альтернативами).

Назви ознак, варіанти відповідей можна брати безпосередньо з анкети (як фрази українською мовою) — це дуже зручно. Якщо, наприклад, текст питальника готувався за допомогою комп'ютера, то паспорт досить просто можна одержати, переформатувавши цей текст. Крім того, пакет містить засоби для безпосереднього введення паспорта. Паспорт і текст питальника готують кваліфіковані фахівці, які знають, як кодуватимуть і як оброблятимуть зібрані дані.

Процес введення зібраних даних у комп'ютер не потребує високої спеціальної кваліфікації. Це дає змогу залучити до введення зібраних даних велику кількість виконавців, а окремі частини даних вводити паралельно на кількох комп'ютерах. Після завершення процедури введення ці частини об'єднуються в один масив для аналізу. В процесі введення здійснюється контроль на відповідність інформації, що вводиться, паспорту. Комп'ютер, наприклад, "не дозволить" ввести кілька кодів відповідей на запитання з несумісними альтернативами або такий код, якого немає серед можливих кодів відповідей.

Аналіз однієї ознаки

Первинні дані мають бути певним чином упорядковані. Для цього застосовують різноманітні статистичні методи — групування, обчислення узагальнюючих параметрів та коефіцієнтів, кореляційний, регресійний, кластерний, факторний аналіз та ін. Проте незалежно від того, який метод аналізу застосовується, першим і абсолютно необхідним кроком обробки даних є попереднє впорядкування інформації, переважно за допомогою статистичного групування та побудови статистичних таблиць.

Структура відповідей на запитання анкети наводиться в таблиці, де для кожного з можливих значень ознаки записано, скільки разів воно трапляється в сукупності зібраних даних. Таку таблицю називають таблицею одновимірного розподілу, одновимірною таблицею, або варіаційним рядом. Пакет ОСА дає змогу за лічені секунди побудувати один або кілька (навіть кілька десятків або кілька сотень) одновимірних розподілів. Результати обчислень можуть бути виведені на екран комп'ютера (для безпосереднього аналізу на екрані), на друкуючий пристрій або у файл на дискові.

Для ознаки "Задоволеність умовами праці" одновимірна таблиця має такий вигляд:

Задоволеність умовами праці*

Значення	Частота	% до всіх	% до значень
Цілком задоволений		12,61	12,93
Більше задоволений, ніж не задоволений		24,65	25,29
Більше не задоволений, ніж задоволений		29,41	30,17
Повністю не задоволений		30,81	31,61
Без відповіді		2,52	—

* Було опитано 357 осіб, відповіли на запитання "Чи задоволені Ви умовами праці на Вашому підприємстві" 348 осіб (97,48 %).

Кількість опитаних у досліджуваній сукупності — 357. Для 348 опитаних (що становить 97,48 % загального обсягу сукупності) відоме значення ознаки "Задоволеність умовами праці". Для інших (у нашому випадку їх 9) значення цієї ознаки не відоме (наприклад, інформація збиралася методом опитування, і деякі робітники підприємства не захотіли відповісти на поставлене запитання). Аналізуючи таблицю, ми бачимо, наприклад, що задоволених умовами праці — 45, а це становить 12,61 % загального обсягу сукупності та 12,93 % кількості робітників, які відповіли на поставлене запитання. Ми бачимо також, що переважна більшість опитаних робітників (29,41 % + 30,81 % = 60,22 %) або повністю, або частково не задоволені умовами праці.

Для ознак, заданих у метричних шкалах, пакет дає змогу всі значення ознаки розбити на певні інтервали, а вже потім будувати одновимірну таблицю.

Для того щоб полегшити аналіз великої кількості таблиць та мати можливість порівняти кілька таблиць, обчислюють узагальнюючі характеристики рядів розподілу. Одна з таких характеристик (її використовують дуже часто) — міри центральної тенденції. Для кількісної ознаки обчислюють середнє арифметичне значення цієї ознаки для всіх об'єктів сукупності. Для номінальних ознак узагальнюючою характеристикою ряду є мода — значення, що найбільш часто трапляється в одновимірній таблиці. Так, у наведеній вище таблиці модальним для ознаки "Задоволеність умовами праці" є значення "повністю не задоволений" (саме таких відповідей на поставлене запитання було найбільше). Для ознак, вимірюваних у порядкових шкалах, часто обчислюють таку міру центральної тенденції, як медіана — середній ряд упорядкованого ряду значень. Медіана має просту і водночас корисну властивість — принаймні половина всіх досліджуваних об'єктів має значення ознаки, не більші, ніж медіана, і водночас принаймні половина об'єктів — значення, не менші, ніж медіана.

Слід зауважити, якщо впорядкувати шкали за рівнем вимірювання (найвищий рівень — це метричні шкали, потім — порядкові шкали, далі — номінальні шкали), то можна сформулювати таке загальне правило: якщо певний показник визначений для шкали певного рівня вимірювання, то його можна обчислювати і для шкал більш високого рівня, але, звичайно, не можна обчислювати для шкал нижчого рівня.

Отже, застосувавши це правило для розглянутих нами мір центральної тенденції, можна легко упевнитися, що моду можна обчислювати не тільки для номінальних шкал, а й для порядкових та метричних шкал, але медіану не можна обчислювати для ознак, виміряних у номінальній шкалі.

Для того щоб оцінити весь ряд розподілу, обчислюють статистичні показники варіації ознак, або міри варіації. Для метричних ознак це — дисперсія, середнє квадратичне відхилення та коефіцієнт варіації. Для якісних ознак розроблено спеціальні індекси якісної варіації. Чим більшим є значення відповідного показника варіації, тим більше розсіяні навколо середнього значення реальні значення ознаки, а отже, тим обережніше при побудові змістових висновків слід оперувати із середнім значенням.

Міри варіації дають змогу оцінити, наскільки сукупність однорідна за певною ознакою. Якщо вона неоднорідна, може виникнути потреба розбити цю сукупність на кілька однорідних за цією ознакою частин і аналізувати кожну з них окремо. Припустимо, ми вивчаємо задоволеність умовами праці на підприємстві. З логічних міркувань або з результатів попередніх досліджень нам відомо, що заробітна плата робітника впливає на задоволеність його умовами праці. Нехай коефіцієнт варіації заробітної плати для всієї сукупності робітників дорівнює 0,7. Тоді всю сукупність робітників слід розбити на приблизно однакові за рівнем заробітної плати групи (наприклад, так, щоб у кожній групі коефіцієнт варіації заробітної плати не перевищував 0,4) і проводити аналіз задоволеності умовами праці для кожної групи окремо.

Графічне зображення даних

Дуже корисним для змістовного аналізу є зображення даних у графічній формі. Графіки та діаграми в деяких випадках сприймаються читачем легше, ніж стовпчики чисел статистичних таблиць. Зручно використовувати графічне зображення даних і під час публічних виступів — на телебаченні, конференціях тощо.

Найпоширенішими формами графічного зображення одновимірних розподілів є гістограма (або стовпчикова діаграма), полігон розподілу та секторна діаграма.

Гістограма — це послідовність стовпчиків, розміщених вертикально (вертикальна гістограма) чи горизонтально (горизонтальна гістограма). Кожний стовпчик має висоту (або довжину), пропорційну кількості (або частці, або відсотку) об'єктів, що мають відповідне значення ознаки. Так, на рис. 1 зображено горизонтальну гістограму розподілу відповідей на запитання про задоволеність

власним становищем. Для кожного стовпчика гістограми вказано відповідну частоту та відсоток. Отже, конфігурація стовпчиків гістограми дає уявлення про тенденцію, а числа необхідні для більш детального аналізу. Як правило, при побудові гістограм використовують рівні інтервали, а отже, стовпчики мають однакову ширину. Масштаб зображення краще обирати так, щоб відношення висоти найбільшого стовпчика до ширини гістограми було приблизно 3:5. Досить часто гістограму зображують не у вигляді окремих стовпчиків, а як суцільний контур.

Рис. 1. Горизонтальна гістограма зображення відповідей