Восходящая и нисходящая стратегии анализа данных

 

Исходя из цели исследования используется та или иная стратегия анализа. Так, восходящая стратегия анализа используется обычно для анализа латентых социальных групп, когда нет чётко сформулированных гипотез, которые носили бы объяснительный характер. В таком случае можно использовать метод «снежного кома».

 

Восходящая стратегия анализа предназначена для выделения эмпирических результатов, объединения их в группы.

 

Нисходящая стратегия анализа используется в случае, если гипотезы чётко обозначены, выборка формируется из структуры генеральной совокупности.

 

Нисходящая стратегия используется в изучении общественного мнения.

 

Выбор стратегии зависит от характера гипотез и априорных знаний исследователя.

 

Источником данных является индивид, сформулирована описательная гипотеза. Например, политические предпочтения определяются возрастом и происхождением.

 

Нисходящая стратегия анализа используется в случае, когда необходимо ответить на вопрос, почему политические предпочтения зависят от возраста и пола, то есть позволяет прийти от общих характеристик. В результате измерения фиксируем значение признака, который имеет 3 уровня измерений:

 

· Номинальные признаки - нельзя описать количественными данными (факультет, специальность, профессия)

· Порядковые признаки – ранжирование признаков (место на соревновании)

· Метрические признаки (количество, числа)

 

Матрица данных «объект-признак»

 

Распределение признака социологи называют: линейкой, простым распределением, линейным распределением, частотным распределением, простой группировкой.

 

Показатели Будущая профессия Итого
1 2 3 4 5 6 7 8
Абсолютная частота - -
Относительная чистота в долях 0,1 0,2 0,3          
Относительная частота                  
Накопленная частота                  

 

Таблица сопряжённости – сводная числовая характеристика по двум, обычно, качественным признаком.

 

 

Анализ по столбцам – выводы по одной из оценок пятибалльной шкалы по профессиям.

Например, из всех студентов больше всего неудовлетворены – культурологи – 45%

Таблицы сопряжённости позволяют выявить зависимости между признаками (профессии-учёба).

 

Структура времяпрепровождения студентов

 

Матрица «объект-признак» - это таблица данных по признаку.

 

Построение такой матрицы полезно в случаях пилотажного исследования, когда объект не определён чётко.

 

Пример: Накопленная частота = 70 означает, что 70% всех студентов имеют степень удовлетворённости учёбой до 3 баллов включительно.

 

В результате исследования возможно выделение типологических групп по признакам, выдвигаемым исследователем или в соответствии с гипотезами.

 

Построение временных (количественных) интервалов:

 

Неравные интервалы:

1) 0 - 1 ч.

2) 1 - 2,5 ч.

3) 2,5 – 4 ч.

4) 4 – 7 ч.

5) 7 – 8 ч.

6) 8 – 9 ч.

 

R = Xmax – Xmin = 9 – 0

 

h (число групп) = 9/6 = 1,5

 

Одномерные распределения необходимы:

• Для сравнительного анализа данных (групп респондентов)

• Для проверки качества выборки (могут быть удалены или объединены многочисленные группы)

• Для определения взаимосвязи между признаками

• Для определения характера распределения

 

Для номинальных и порядковых шкал возможно построение гистограмм; в этом случае они служат только для визуализации данных.

 

Для номинальной шкалы можно провести ранжирование профессий по объёму студентов, выделить модальные группы.

 


 

Лекция 13 (02.11)

 

Коэффициент связи

 

Функциональная связь – одному и тому же значению одного признака соответствует одно или несколько значений другого.

 

Корреляционная связь – одному и тому же значению признака соответствует распределение значений по другому признаку (стохастические).

 

Выделяют следующие пары (дихотомические):

• Зависимый признак – независимый

• Направленная связь – ненаправленная

• Статистическая зависимость – независимость

 

Среди рассматриваемых признаков обычно выделяют несколько главных, основных, и рассматривают их в парной связи с остальными.

 

В противном случае остальные признаки считают независимыми друг от друга. Вычисляются значения коэффициентов, проводится ранжирование этих признаков по степени их влияния на основной признак. Отбираются признаки с наиболее высокими значениями коэффициентов.

 

Пример:

Генеральная совокупность для профессии и степени удовлетворённости.

 

Специальность 4 балла Другие баллы Итого
Политология 30 a 70 d 100 a+d
Др. спец. 220 c 680 b 900 c+b
Итого 250 a+c 750 b+d 1000 a+b+c+d

 

Коэффициент Юла:

 

Q принимает значение от -1 до +1.

 

Q = -1 – сильная отрицательная связь

Q = 1 – сильная положительная связь

Q = 0,14 – слабая положительная, то есть поставленный балл не зависит от специальности

 


 

Лекция 14 - SPSS (06.11)

 

SPSS – Начало работы

 

1967 год – первая версия программы. Разработана на языке Паскаль.

Начало 1970-х годов – создание соответствующей фирмы.

 

Определение переменных

 

Переменные – ячейки памяти, в которые можно записывать значения.

 

Программа также носит название редактора данных. Редактор данных состоит из двух листов: «переменные» - определяет имя, тип, значение переменных и «данные» - содержит значения переменных.

 

Создание файла через пункт меню Файл – Создать – Данные.

Сохранение через Файл – Сохранить как… (только после ввода данных).

 

Сохранённые файлы имеют расширение .sav

 

Столбцы – названия переменных.

Строки – номера анкет/респондентов.

 

Выделение строки и столбца – щелчок по номеру строки или имени столбца.

 

Правила выбора имени переменной:

1. Имя переменной должно начинаться с буквы (var)

2. Имя может содержать буквы латинского алфавита и цифры

3. Допускаются специальные символы, такие как _(подчёркивание), точка, а также @ и #.

4. Не разрешаются пробелы, знаки других алфавитов и !, ?, “ и *.

5. Последний символ может быть точкой/подчёркиванием.

6. Длина имени – не больше 8 символов

 

Различные типы вопросов:

1. Открытые вопросы – тип переменного определяется как текстовой, возможна запись до 250 символов.

2. Вопросы-меню – когда можно выбрать больше двух вариантов (каждому варианту отдельная переменная)

3. Полузакрытые вопросы – определяются две переменные: цифровая и строковая, которая определяет тип вопроса «другое».

 

Тип переменной

 

По умолчанию являются числовыми с длиной знаков 8.

 

Диалоговое окно Тип переменной определяется как число. В этом же диалоговом окне можно определить ширину столбца как число символов, которые можно ввести в ячейку. Например, пол – 1 символ (М, Ж), возраст – 2 символа.

Строчный тип – до 250 символов.

 

Тип переменной Дата может быть использован для того, чтобы записать дату опроса.

 

 

Количество вводимых символов может быть определено в столбце «Ширина».

Столбец «Десятичные» определяет количество знаков после запятой.

Столбец «Метки значений» - название, которое описывает возможные значения.

Столбец «Значения» - возможные варианты ответа.

 

В диалоговом окне Метки значений в поле Значение вводится цифра – кнопка Добавить данные.

 

Возраст может быть определён как интервальная переменная.

 

Максимально допустимая длина метки – 60 знаков.

 

Столбец «Пропуски» определяет незаполненные ячейки.

 

В диалоговом окне «Пропущенные значения» в поле Отдельные пропущенные значения восстанавливается цифра (например, 0), таким образом пользователь может выделить те анкеты, в которых есть пропуски ответов на вопросы.

 

Столбец «Выравнивание»: правый, левый край, центр – форма представления в окне «Данные».

Столбец «Шкала». Три типа: номинальная, количественная и порядковая.