Извлечение случайной выборки

Данные - Отобрать наблюдения - Случайная выборка - Подвыборки

 

Примерно - процентное значение, созданное случайной выборкой объёма.

 

Точно - точное количество наблюдений в случайной выборке.

 


 

Лекция 19 (21.11)

 

Данные – Отбор данных – Подвыборка

Примерно 20% от всех наблюдений – выбираются случайные 20% респондентов.

 

Данные – Отбор данных – Подвыборка – Точно

 

Вводится точное число респондентов из заданного количества.

 

Сортировка наблюдений

 

Данные – Сортировать наблюдения (по возрастанию/убыванию)

 

SORT CASES BY имя переменной (A) – возрастание

SORT CASES BY имя переменной (B) – убывание

 

Несколько переменных сортировки:

Последовательность переменных в списке будет определять порядок, в котором будут отсортированы наблюдения.

 

SORT CASES BY переменная 1 (A) переменная 2 (B).

 

Разделение наблюдений на группы – анализ данных раздельно по группам.

 

Группа – определённое количество наблюдений с одинаковыми значениями признаков.

 

Данные – Расщепить файл – Сравнить группы – По з/п (данные сортируются по возрастанию)

Для разделения по группам необходимо сначала отсортировать данные по признаку:

 

Данные – Сортировать наблюдения

 

Также позволяет ранжировать по выбранной переменной.

 


 

Лекция 20 (27.11)

 

Категоризация данных

 

Представление дискретных данных в интервальном вариационном ряде.

 

Равные интервалы используются тогда, когда вариация признака незначительна. В противном случае могут быть использованы неравные интервалы.

 

Выводим минимальное и максимальное значение через Анализ - Описательные статистики - Частоты - Статистики - Минимум; максимум.

 

Min = 15750

Max = 135000

 

1 группа - 15-30 тыс.

2 группа - 31-60 тыс.

3 группа - 61-90 тыс.

4 группа - 91-135 тыс.

 

Для организации групп выбираем пункт меню Преобразовать - Перекодировать в другие переменные.

В диалоговом окне выбрать переменную Зарплата, определить имя и метку новой переменной - Изменить - Старые и новые значения.

Выбираем поле Диапазон от наименьшего до указанного, определяем 1 группу - до 30000.

В поле Новое значение указываем "1".

Для определения второй группы в поле Диапазон вводим от и до.

Для организации четвёртой группы используем Диапазон от указанного значения до наибольшего.

В окне Переменные, используя столбец Значения, восстанавливаем Метки значений для 4-х значений.

 

ГС: пол / новая переменная.

 

Через кнопку Статистики - Значение Хи-квадрат. Этот коэффициент указывает на наличие/отсутствие связи между исследуемыми данными.

Если значение Хи-квадрат менее 0,05, связь считается статистически независимой, то есть значения зависимой переменной (зарплаты) не зависит от независимой (пол).

 

Вычисление новых переменных

 

В SPSS могут быть организованы новые переменные путём выполнения расчётов над имеющимися переменными.

 

Для формулировки числовых выражений применяют следующие арифметические операторы: +, -, /, *, **(степень).

 

Пример: имя переменной ± имя новой переменной.

 

Для построения новой переменной используем пункт меню Преобразовать – Вычислить переменную.

В диалоговом окне Вычислить переменную определяется имя новой переменной, а также тип и методы.

 

В поле Числовое выражение помещаем имена переменных.

Данная операция соответствует следующему командному синтаксису:

 

COMPUTE job = prevexp + jobtime

 

Процентное представление данных:

 

COMPUTE stag = (jobtime/prevexp) * 100

 

Применение встроенных функций

 

1. Функция ABS – возвращает абсолютное значение

 

COMPUTE job = ABS(prevexp - jobtime)

 

2. Функция RND – округляет до ближайшего целого числа

 

3. Функция SORT – возвращает квадратный корень

 

Статистические функции

 

Статистические функции рассчитываются для каждого респондента индивидуально, то есть по строкам. Эти функции могут иметь любое число параметров – переменных.

 

— SUM – возвращает сумму значений допустимых аргументов

— MEAN(переменная 1, переменная 2…) – среднее арифметическое

— SD(переменная 1, переменная 2…) – стандартное отклонение

— VARIANCE(переменная 1, переменная 2, переменная 3) – дисперсия

— CFVAR(переменная 1, переменная 2, переменная 3) – коэффициент вариации

— MIN(переменная 1, переменная 2, переменная 3) – наименьшее значение

— MAX(переменная 1, переменная 2, переменная 3) – наибольшее значение

 

Подсчёт частоты появления определённых значений

 

Подсчитать количество появления одного и того же значения или нескольких значений для определённой переменной.

 

Например: для 9 вариантов выбора видов спорта каждый респондент может отобрать от 0 до 9 видов.

 

1) Преобразовать – Подсчёт значений наблюдений

2) Задать имя и метку

3) Перенести переменные V02-V12 в список. Вводится отдельное значение, частоту которого необходимо посчитать

4) Задать значения (например, 1)

5) Создана новая переменная, значения которой от 0 до общего числа переменных. Можно задать несколько значений (например, 1,2)