МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ПРАКТИЧЕСКИМ ЗАНЯТИЯМ

Тема 1. ЭЛЕКТРОННЫЕ ТАБЛИЦЫ: MS Excel

 

Электронные таблицы позволяют производить математические расчеты, использовать формулы, строить диаграммы. Встроенные функции программы позволяют использовать многие статистические показатели, рассматривающиеся в данном курсе.

Создание электронных таблиц: Каждая ячейка таблицы имеет адрес, определяемый буквенным обозначением столбца и номером строки, например, (А1). Чтобы внести данные в ячейку, нужно ее активировать с помощью мыши и ввести необходимую информацию. Для примера, введите данные из таблицы о численности населения СССР и союзных республик (в тыс. человек). Для этого, поместите курсор в ячейку А2 и введите «СССР», далее переключитесь (с помощью клавиши Enter) в ячейку А3 и введите следующее данные и так далее, пока все республики не будут отображены. После этого заполните числовые данные в столбцах В, C, D, E.

Рис. 2. Численность населения СССР в1959-89 гг.

  1959 г. 1970 г. 1979 г. 1989 г.
СССР
РСФСР
Украинская ССР
Белорусская ССР
Узбексая ССР
Казахская ССР
Грузинская ССР
Азербайджанская ССР
Литовская ССР
Молдавская ССР
Латвийская ССР
Киргизская ССР
Таджикская ССР
Армянская ССР
Туркменская ССР
Эстонская ССР

 

Для оперативного ввода числовой информации рекомендуется пользоваться правой (числовой) частью клавиатуры, для ее включения необходимо активировать клавишу NumLock. В случае повторения информации (например повторяется заголовок) ее можно копировать (выделяется диапазон ячеек, которые необходимо скопировать и правой клавишей мыши выбирается функция копировать, затем выбирается диапазон ячеек, куда следует вставить скопированную информацию и также правой клавишей мыши выбирается функция вставить). Важным инструментом ввода данных является функция автозаполнение, которая позволяет распространить хранящуюся в ячейке формулу или последовательность на весь цифровой ряд. Чтобы воспользоваться этой функцией, нужно выделить ячейку с формулой и навести курсор на правый нижний угол выделенной ячейки, так чтобы курсор приобрел вид знака +, после чего, удерживая левую клавишу мыши, следует протянуть выделенное значение до конца числового ряда. При вводе дробных чисел следует обратить внимание на то, что в русифицированной версии Excel десятичные доли дробного числа отделяются с помощью запятой, тогда как в англоязычной версии для этой цели используется точка.

Табличный процессор позволяет задавать тип информации, содержащейся в ячейке таблицы, для этого используется функция Формат ячейки (меню формат на панели управления – формат ячейки). Наиболее часто используются форматы: общий, числовой, процентный, денежный, текстовый. Формат ячейки определяется характером данных, которые будут в ней храниться, т.е. дату надо вводить в формате дата, а проценты в формате процентный. В меню формат ячейки также можно задать параметры оформления таблицы: выравнивание, объединение ячеек, перенос по словам и др.

Расчеты в Excel. В Табличном процессоре реализованы основные арифметические действия сложение (+), вычитание (-), умножение (*), деление (/). Для того чтобы произвести вычисление поместите курсор в нужную ячейку и откройте строку формул, введя знак равенства (=), затем напишите адрес ячейки, знак необходимого действия и адрес второй ячейки. Например, рассчитайте прирост населения СССР за 1959-89 гг. Для этого из данных за 1989 г. следует вычесть данные за 1959 г. В строке формул запись будет выглядеть следующим образом: =Е2–B2. Произведенный расчет показывает, что за 30 лет население СССР выросло на 77,8 млн. человек.

Произведите суммирование данных по численности населения всех республик за 1959 г. с тем, чтобы проверить сходятся ли они с общими данными по СССР. (Выделите ячейки в диапазоне от B3 до B17, затем на панели инструментов раскройте меню графической кнопки [∑] и выберите автосумма). Данные должны совпасть. Далее рассчитайте среднее значение числа жителей СССР за 30 лет. Выделите ячейки в диапазоне от B2 до E2, и в меню графической кнопки [∑] и выберите среднее.

Для нахождения относительных величин (например, процента числа) программа предлагает воспользоваться расчетом доли (то, что сравнивается, делится на то, с чем сравнивается) и переводом полученного значения в процентный формат. Рассчитаете, сколько процентов жители РСФСР в 1979 г. составляли от общего населения СССР. Для этого в свободной ячейке разделите данные по РСФСР (ячейка D3) на данные по СССР (ячейка D2). В строке формул запись получает вид =D3/D2. Результатом вычисления становится число 0,524132. Для того чтобы перевести эти данные в вид процента, поменяйте формат ячейки на процентный. Получается 52,41%. По аналогии можно рассчитать и доли остальных республик в общем населении СССР. Для оптимизации расчетов воспользуйтесь функцией константы, с помощью которой закрепите (сделайте неизменными) данные по СССР. Это можно сделать, поставив в строке формул знак константы ($) в адресе ячейки, содержащей данные по СССР. Таким образом, формула должна выглядеть следующим образом =D3/D$2. Далее, с помощью функции автозаполнение растяните формулу на длину всего числового ряда.

Важнейшим инструментом табличного процессора является мастер функций, располагающийся на панели управления слева от строки формул. Он активируется, когда в начале любого вычисления в пустую ячейку ставится знак равенства. Зайдите в меню мастера функций и выберите другие функции. В открывшемся окне в строке категория выберите статистические. С помощью встроенных функций удобно производить расчет медианы (функция МЕДИАНА), стандартного квадратичного отклонения (СТАНДОТКЛОН), дисперсии признаков (ДИСП).

Воспользуйтесь матером функций для расчета коэффициента корреляции между данными по республикам за 1959 г. и за 1989 г. Для этого в пустой ячейке поставьте знак равенства, затем войдите в мастера функций и выберите функцию ПИРСОН. В открывшемся окне в строке Массив 1 задайте диапазон значений В3:В17 (данные по республикам за 1959 г.), а в строке Массив 2, соответственно диапазон Е3:Е17 (данные за 1989 г.), далее нажмите ОК. Полученное значение коэффициента 0,9976336 свидетельствует о высокой зависимости двух сравниваемых переменных.

Построение графиков. Для визуализации динамики изменения численности населения СССР выделите значения по всем четырем переписям населения (диапазон В2:Е2) и активируйте графическую кнопку мастер диаграмм на панели управления. В открывшемся окне в разделе Тип выберите график, а в разделе Видграфик с маркерами. Нажмите графическую кнопку Далее. В появившемся проекте графика зайдите в графическую закладку Ряд и в строке Подписи оси Х задайте годы переписей (выделите диапазон В1:Е1), а в строке Имя напишите тыс. жителей. Нажмите Далее. В строке название диаграммы напишите Численность населения СССР. Нажмите Далее. Укажите размещение диаграммы на имеющемся листе и нажмите Готово.

Рис. 3. График численности населения СССР

Чтобы визуализировать доли союзных республик в населении СССР 1989 г. постройте круговую диаграмму. Для этого выделите данные по республикам (без сводных данных по СССР) в столбцах А и Е. Сначала выделите диапазон А3:А17, а затем, удерживая на клавиатуре клавишу Ctrl, выделите диапазон Е3:Е17. Активируйте графическую кнопку мастера диаграмм. В открывшемся окне выберите ТипКруговая и ВидКруговая Диаграмма. Нажмите Далее и Готово.

Рис. 4. Доли союзных республик в населении СССР 1989 г.

 

Моделирование в Excel. В качестве примера динамической модели социальных процессов постройте систему уравнений Лотки-Вольтерра, описывающее взаимовлияние двух популяций – «хищников» и «жертв».

Исходная формула:

В столбце A будут размещаться значения переменной X (хищники), а в столбце B – значения переменной Y (жертвы). В ячейку A1 заносится начальное количество «хищников» 20 (х1 в формуле), а в ячейку B1 – начальное количество «жертв» (у1 в формуле). (A1 = 20, B1 = 30). Дальнейшие ячейки первой строки будут соответствовать коэффициентам системы Лотки. Параметры a и b соответствуют скорости размножения двух популяций. Для упрощения задачи сделайте их одинаковыми (a = b = 1) (в ячейки C1 и D1 заносится число 1), а в ячейку Е1 вносится коэффициент питания k=0,01 Наконец, в ячейку F1 вводится временной шаг модели Dt = 0,05. Таким образом, первая строка листа модели выглядит следующим образом:

Рис. 5. Ввод данных в лист программы Excel

0,01 0,05

Далее, в ячейку A2 вводится формула расчета xi+1, которая позволит выявить динамику численности популяции «хищников». В строке формул эта запись получает вид:

= A1 + F$1 * (–C$1*A1 + E$1 * A1 * B1)

В ячейку B2 введите формулу расчета yi+1, определяющую динамику численности популяции «жертв».

= B1 + F$1 * (D$1 * B1 – E$1 * A1 * B1)

В обеих формулах необходимо расставить значки константы ($), закрепив неизменность переменных a, b, k, Δt (расставьте константы так, как предлагается в пособии). Далее, воспользуйтесь функцией автозаполнения и распространите каждую из формул на диапазон до ячеек А200 и В200 соответственно. По полученным расчетным данным за 200 временных шагов постройте график.

Рис. 6. Динамика развития популяций по модели Лотки-Вольтерра

На графике видно, что популяции развиваются взаимосвязано. Так, достижение максимума популяции «жертв» ведет к резкому росту популяции «хищников» (т.к. «хищники хорошо питаются»), что в свою очередь ведет к достижению максимума популяции «хищников» и резкому уменьшению числа «жертв», которых в этот момент активно поедают. Достижение минимума популяцией «жертв» ведет к падению численности популяции «хищников». Таким образом, цикл завершается.

Задания для самоконтроля:

1.Создайте таблицу следующего вида:

Страна Питание Алкогольные напитки
Россия 25,8
Великобритания 14,5
Венгрия 27,9
Германия 17,6 3,3
Испания 26,4
Канада 13,4 3,3
Польша 36,8 11,4
США 1,4
Финляндия 20,1
Франция 17,9

2. Рассчитайте, сколько в среднем потребляется продуктов питания в данных странах;

3. Сравните потребление продуктов питания в разных странах по отношению к США (найдите процент каждой страны от США);

4. Рассчитайте стандартное квадратичное отклонение по потреблению алкогольных напитков;

5. Рассчитайте коэффициент корреляции между потреблением продуктов питания и потреблением алкогольных напитков;

6. Постройте гистограмму, отображающую потребление алкогольных напитков в разных странах.

7. Создайте таблицу следующего вида.

  Челябинская область Свердловская область Пермская область
  Число Число Число
Число избирателей
Число выданных бюллетеней
Число неопущеных бюллетеней
Число недействительных бюллетеней
Бюллетеней ЗА
Бюллетеней Против

 

8. Определите общее количество избирателей в трех областях.

9. Рассчитайте процент явки избирателей в целом и по каждой области отдельно.

10. В какой области наибольшее количество не проголосовавших избирателей.

11. Рассчитайте процент проголосовавших ЗА от количества избирателей, и от выданных бюллетеней в каждом регионе.

12. Постройте гистограмму сравнения ЗА в каждой области.

13. Определите среднее количество протестного электората

14. Определите корреляцию между проголосовавшими ЗА и проголосовавшими ПРОТИВ.

15. Какой процент неопущеных и недействительных бюллетеней составляют от бюллетеней ЗА и ПРОИВ

16. Рассчитайте какую долю от суммарных данных по Уралу составляют

 


Тема 2. БАЗЫ ДАННЫХ: MS ACCESS

 

Создание базы данных: Откройте программу Microsoft Access и создайте новую базу данных (Создание – Новая база данных). Затем сохраните ее, на жестком диске, присвоив ей имя «База-1». Для примера предлагается создать базу данных преподавателей и студентов некоего факультета. Сначала необходимо сконструировать базу данных, определив необходимое количество атрибутов (признаков) изучаемых объектов и задав имена столбцов будущей таблицы. Для этого, выберете создание таблицы в режиме конструктора. В открывшейся в режиме конструктора таблице в столбце «Имя поля» в первой ячейке введите «№ преподавателя», во второй ячейке «Фамилия преподавателя». В столбце «Тип данных» напротив «№ преподавателя» выберите счетчик, напротив «Фамилии преподавателя» выберите тип данный текстовый. Для связи между отдельными таблицами базы данных необходимо задать ключевое поле, которое будет являться идентификатором объектов при запросах. В нашем примере ключевым будет поле «№ преподавателя». Для этого, на панели инструментов найдите стилизованное изображение ключа и нажмите его установив курсор в ячейку «№ преподавателя». Сохраните созданную таблицу под именем «Преподаватели». Перейдите в режим таблицы (Вид – Режим таблицы). В первой ячейке столбца «Фамилия» введите «Иванов», во второй «Петров». После чего, таблицу можно закрыть.

Рис. 7. Построение таблицы в программе Access

Таблица Преподаватели
№ преподавателя Фамилия преподавателя
Иванов
Петров

 

По аналогии с первой таблицей в режиме конструктора создавайте следующую таблицу и сохраните ее под именем «Студенты». Данная таблица также будет иметь два атрибута «№ студента» (ключевое) и «фамилия студента». Далее перейдите в режим таблицы и заполните столбец «Фамилия»: Кузнецов, Сидорова, Ульянов, Васильев, Попов. После чего таблицу также можно закрыть.

Рис. 8. Построение таблицы в программе Access

Таблица Студенты
№ студента Фамилия студента
Кузнецов
Сидорова
Ульянов
Васильев
Попов

 

Создайте третью таблицу и сохраните ее под именем «Экзамены». Данная таблица будет содержать пять атрибутов: «№ экзамена», «Предмет», «№ преподавателя», «№ студента», «Оценка». Для удобства заполнения в строке «№ экзамена» выберите тип данных счетчик. Строка «Предмет» получает тип данных текстовый, а остальные – числовой. В данной таблице задавать ключевое поле не обязательно. Перейдите в режим таблицы и заполните ее следующим образом:

Рис.9. Построение таблицы в программе Access

Таблица 3
№ экзамена Предмет № преподавателя № студента Оценка
История России
История России
История России
История России
История России
История России
История России
История России
История России
История России

Создание запросов. На панели управления базой данных в столбце «Объекты» выберите закладку «Запросы» и создайте запрос в режиме конструктора. В окне «Добавление таблицы» добавьте все три созданные таблицы (Преподаватели, Студенты, Экзамен). Если все сделано правильно, между тремя таблицами должны автоматически установиться взаимосвязи. Если этого не произошло это можно сделать вручную, соединив ключевые поля в двух первых таблицах с аналогичными полями в таблице «Экзамен».

В окне режима конструктора запроса имеется насколько строк. 1) Поле – указывает по какому из атрибутов таблицы будет происходить запрос; 2) Имя таблицы – необходимо в том случае, если база данных состоит из нескольких таблиц; 3) Сортировка –упорядочивает данные по возрастанию или убыванию; 4) Вывод на экран (если поставить галочку в данной строке, то выбранный атрибут будет выводиться на экран в результатах запроса, если галочку убрать, то он будет скрыт, однако, все равно будет учитываться в условиях отбора) 5) Условия отбора – позволяет задавать условия выборки.

Типы запросов. Запрос на выборку.В качестве первого запроса выясните, какие студенты получили на экзаменах оценки 4 и 5. Для этого выберите в первом поле атрибут «фамилия студента», а во втором «Оценка». В графе условия отбора по атрибуту «Оценка» введите >3 (математические знаки «больше» и «меньше» используются для оптимизации заданий запроса). После чего запустите запрос (нажмите на панели управления иконку с восклицательным знаком (!) или просто перейдите в режим таблицы). Если все сделано правильно, то программа выдаст следующий результат:

Рис. 10. Построение запроса в программе Access

Фамилия студента Оценка
Васильев
Попов
Сидорова
Ульянов
Васильев
Попов

 

Вернувшись в режим конструктора,измените имена полей и условия отбора и выясните, каким студентам, и какой преподаватель поставил двойку. Для этого, очистите поля запроса и, в первом столбце выберите атрибут «Фамилия преподавателя», во втором – «Фамилия студента», а в третьем – «Оценка». В третьем столбце поставьте в качестве условие отбора оценку 2 и запустите запрос.

Рис. 11. Построение запроса в программе Access

Фамилия преподавателя Фамилия студента оценка
Иванов Кузнецов
Иванов Ульянов

 

Для выяснения вопроса, какие оценки поставил, например преподаватель Петров, необходимо вновь переформулировать запрос. В режиме конструктора выберите атрибуты «Фамилия преподавателя» и «Оценка» В качестве условия отбора по столбцу «Фамилия преподавателя» укажите первую букву фамилии искомого преподавателя П* (значок * используется для поиска информации в базе данных по усеченному основанию слова, т.е. П* будет искать все фамилии начинающиеся на П).

Рис. 12. Построение запроса в программе Access

Фамилия преподавателя Оценка
Петров
Петров
Петров
Петров
Петров

 

Откройте базу данных «Четвертая Дума», в появившемся меню выберите Создание запроса в режиме конструктора, и добавьте Таблица – 1. В качестве примера, сделайте выборку депутатов четвертого созыва Государственной Думы РФ, которым на момент избрания (2003 г.) было менее 30 лет, т.е. они родились после 1973 г. Для этого в первом поле выберите графу «ФИО», а во втором «Год рождения». В колонке под годом рождения в строке Условие отбора пишете >1973. Запустите запрос. Если все сделано правильно, то программа выдает тот же перечень депутатов, что и в таблице с результатами запроса №4.

Рис. 13. Построение запроса на выборку в программе Access

ФИО Год рождения
Агеев Александр Александрович
Афанасьева Елена Владимировна
Буренин Андрей Викторович
Габдрахманов Ильдар Нуруллович
Капков Сергей Александрович
Мусатов Иван Михайлович
Островский Алексей Владимирович
Семенов Павел Владимирович
Хинштейн Александр Евсеевич

Запрос на групповые операции:является разновидностью запроса на выборку, однако он позволяет совершать с данными простейшие арифметические подсчеты и анализировать не только единичные значения объектов, но и их группы. Групповые операции добавляются в качестве дополнительной строки в режим конструктора запроса путем активации графической кнопки Σ на панели управления. Разновидностями групповых операций являются:

Группировка – группирует данные по заданному атрибуту.

Sum – суммирует данные в графе, работает только с числами,

Avg– вычисляет среднее значение. Если выбрать эту операцию применительно к данным по годам рождения, то получим 1952,8886364, это будет средний год рождение депутатов Думы. Таким образом, можно определить средний возраст депутатов.

Min – минимальное значение. Получаем 1928, это самый маленький год рождения, то есть возраст самого старого депутата.

Max – максимальное значение. 1976, то есть возраст самого молодого депутата.

Count – подсчет количества объектов, участвующих в анализе. Получив число 440, мы можем сказать, что по 440 депутатам есть данные о годе рождения.

StDev – стандартное квадратичное отклонение. Получаем 22,130156667, этот показатель указывает, что разброс от среднего по году рождения составляет около 22 лет.

First – первый введенный в базу объект.

Last – последний введенный в базу объект.

В качестве примера рассмотрите средний возраст депутатов по отдельным фракциям Государственной Думы четвертого созыва. Для этого в режиме конструктора запроса задайте следующие параметры: Поле 1 – Фракция (групповая операция – группировка), Поле 2 – Год рождения (Avg), Поле 3 – Год рождения (StDev).

 

Рис. 14. Построение запроса с использованием групповых операций в программе Access

Фракция Avg-Год рождения StDev-Год рождения
Единая Россия 1953,51839464883 18,9908710698425
КПРФ 1939,40425531915 43,2815150695537
ЛДПР 8,75332449159589
Народно-патриотический союз -Родина 1950,72727272727 12,6892939842287
Независимый депутат 1955,7619047619 8,41370763637983
Справедливая Россия 1955,25 10,367442836483

 

Из полученных результатов видно, что самой «молодой» фракцией, да еще и с наименьшим разбросом значений, является фракция ЛДПР, а самой «пожилой» и с максимальным разбросом – КПРФ.

Чтобы узнать количество членов каждой фракции, измените условия запроса. Поле 1 – Фракция (групповая операция – группировка), Поле 2 – Пол (Count).

Рис. 15. Построение запроса с использованием групповых операций в программе Access

Фракция Count-Пол
Единая Россия
КПРФ
ЛДПР
Народно-патриотический союз -Родина
Независимый депутат
Справедливая Россия

Перекрестный запрос.Данный тип запроса позволяет рассматривать распределение одного атрибута в зависимости от другого. Результат перекрестного запроса реализуется в виде перекрестной таблицы, построенной по двум атрибутам. Для создания перекрестного запроса в меню Запрос на панели управления выберите Перекрестный. При этом в окне режима конструктора запроса добавляются две строки – Групповая операция и Перекрестная таблица (в которой задается структура будущей перекрестной таблицы). В качестве примера рассмотрите состав фракций по полу. Для этого в режиме конструктора задайте следующие параметры: Поле 1 – Фракция (Групповая операция – группировка, перекрестная таблица – заголовки строк), Поле 2 – Пол (группировка, заголовки столбцов), Поле 3 – Год рождения (Count, Значение). В данном примере атрибут год рождения используется для подсчета значений по двум изучаемым атрибутам.

Рис. 16. Построение перекрестного запроса в программе Access

Фракция Ж М
Единая Россия
КПРФ
ЛДПР
Народно-патриотический союз -Родина
Независимый депутат
Справедливая Россия

Если в режиме конструктора запроса групповую операцию Countпо полю Год рождения заменить на Avg, то можно получить в качестве результата средний возраст (средний год рождения) мужчин и женщин депутатов каждой фракции.

Рис. 17. Построение перекрестного запроса в программе Access

Фракция Ж М
Единая Россия 1955,61764705882 1953,24905660377
КПРФ 1947,83333333333 1938,17073170732
ЛДПР 1964,58620689655
Народно-патриотический союз -Родина 1949,8
Не входит 1951,5 1956,76470588235
Справедливая Россия

Выясните, как соотносится принцип избрания депутатов (по партийным спискам или по одномандатным округам) с количеством созывов Государственной Думы в которых данный депутат участвовал. В режиме конструктора запроса задайте следующие параметры: Поле 1 – Количество созывов (группировка, заголовки строк), Поле 2 – Принцип избрания (группировка, заголовки столбцов), Поле 3 – Фракция (Count, значение).

Рис. 18. Построение перекрестного запроса в программе Access

Количество созывов Округ Партийный список
     

 

Из этого запроса видно, что и по партийным спискам и по одномандатным округам количество старожил и новичков примерно одинаково. При этом если суммировать всех кто имеет более одного срока, то их получиться столько же, сколько и новых. Таким образом, можно сделать вывод, о том, что по сравнению с предыдущим созывом ГД 4 созыва обновилась примерно на половину.

Задания для самоконтроля:

По базе данных DUMA 1 (депутаты 1-ой Государственной Думы, созыва 1906 г.) сформируйте следующие запросы:

1. Количественный состав фракций;

2. Поименный состав фракции кадетов;

3. Национальный состав фракции социал-демократов;

4. Поименный состав с указанием фракции всех депутатов в возрасте до 40 лет;

5. Средний год рождения депутатов по фракциям;

6. Распределение депутатов по сословному происхождению и уровню образования;

7. Распределение депутатов по роду занятий и профилю образования;

8. Сословный состав Государственной Думы;

9. Национальный состав Государственной Думы;

10. Уровень образования депутатов Государственной думы.

По базе данных COMANDARM (командармы Красной армии) сформируйте следующие запросы:

11. Определите, сколько представителей каждой национальности было среди командармов.

12. Найдите фамилию самого старого командарма.

13. Сколько из командармов в Первую мировую войну были штабс-капитанами.

14. Какое количество командармов погибло в 1941 г.

15. Выясните, какими иностранными языками владели участники войны с Японией.

16. Сколько человек вступило в партию после начала службы в Красной Армии.

17. Найдите командармов, которые вступили в партию до 1917 года.

18. Выясните с помощью совместной работы таблиц базы данных фамилии командармов, которые были исключены из партии, а также причину исключения.

19. Найдите величину стандартного отклонения по переменной год рождения для вышедших в отставку в звании маршала.

20. Сколько человек принимали участие в событиях вокруг озера Хасан или в конфликте на КВЖД.


Тема 3. ПРИКЛАДНЫЕ СТАТИСТИЧЕСКИЕ ПРОГРАММЫ: SPSS.

 

Пакет программ SPSS (Statistical Package for Social Science) является наиболее распространенным инструментом компьютеризованного статистического анализа, адаптированным для решения задач гуманитарных наук.

Создание таблиц в SPSS. Откройте программу SPSS (Пуск – Программы – SPSS for Windows) и, в открывшемся стартовом меню, выберите Тип данных. Открывшееся окно Редактора данных SPSS содержит два основных режима работы: Вид переменной (режим конструктора в SPSS) и Панель данных (режим таблицы данных), они располагаются в нижнем левом углу экрана и переключаются с помощью мыши. В режиме Вид переменной задаются настройки будущей таблицы данных. Наиболее важные среди них:

Имя (Name) – задает названия переменных, т.е. заголовки столбцов в таблице данных (максимальное количество символов в имени 8, имя не может начинаться с цифры).

Тип (Type) – задает формат ячейки таблицы данных: Числовой – вводимые переменные отображаются в стандартном цифровом формате (например, 10345); Запятая – вводимые цифры разбиваются через каждые три знака запятой (например, 10,345); Точка – вводимые цифры разбиваются через каждые три знака точкой (например, 10.345); Учетная нотация – вводимые цифры отображаются через множители (например, число 1200 может быть записано как 12х102); Дата – формат, предназначенный для хранения хронологической информации; Строковое – формат хранения не числовой (текстовой) информации, переменные, записанные в данном формате в вычислениях не участвуют.

Значение (Values) – в этой настройке задаются параметры переменных, имеющих несколько вариантов значений (например, альтернативных признаков).

Создайте таблицу из двух переменных («фамилия» и «пол»), для этого, в режиме конструктора Вид переменной в первой строке в настройке Имя запишите название первой переменной «фамилия», в настройке Тип выберите Строковое. Во второй строке в настройке Имя пишете «пол», в настройке ТипЧисловой формат, а в настройке Значение активируйте меню Метки переменных. В открывшемся окне в поле Значение напишете число 1, а в поле Метка первый вариант переменной «пол» слово «мужской», затем нажмите Добавление. В пустом поле появляется запись 1,00=“мужской”. Так же добавьте значение 2 и метку «женский», затем нажмите ОК и переключитесь в режим Панель данных. В первой ячейке по переменной «фамилия» напишете «Петров», а во второй – «Иванова». Активируйте на панели управления графическую кнопку Метки значений и значения по переменной «пол» выберите из самораскрывающегося списка, соответственно «мужской» и «женский».

При вводе данных из различных опросов и анкет в таблицу SPSS, для удобства статистической обработки информации, рекомендуется каждый вариант ответа на закрытый вопрос анкеты представлять в виде самостоятельной переменной, выраженной в двоичной шкале (1=да, 0=нет, т.е. наличие или отсутствие положительного выбора данного варианта ответа на вопрос анкеты).

Анализ статистической информации с помощью SPSS. Откройте базу данных «World95» (Файл – Открыть – папка SPSS – World95.sav), в которой представлена статистическая информация по странам мира за 1995 год. Переключитесь в режим Вид переменной. База содержит следующие переменные: Country – страна; Populatn (Population in thousands) – численность населения; Density (Number of people / sq. Kilometer) – плотность жителей на кв.километров; Urban (People living in cities (%)) – процент городского населения; Religion (Predominant religion) – господствующая религия; Lifeexpf (Average female life expectancy) – средняя продолжительность жизни женщин; Lifeexpm (Average male life expectancy) средняя продолжительность жизни мужчин; Literacy (People who read (%)) – процент грамотного населения; Pop_incr (Population increase (% per year)) – рост населения за год (в %); Babymort (Infant mortality (deaths per 1000 live births)) – детская смертность на 1000 жителей; Gdp_cap (Gross domestic product / capita) – объем ВВП; Region (Region or economic group) – принадлежность страны к одному из экономических регионов; Calories (Daily calorie intake) – дневное потребление калорий; Aids (Aids cases) – количество больных СПИДом; Birth_rt (Birth rate per 1000 people) – рождаемость на 1000 жителей; Death_rt (Death rate per 1000 people) – смертность на 1000 жителей; Aids_rt (Number of aids cases / 100000 people) – количество больных СПИДом на 100000 жителей; Lit_male (Males who read (%)) – процент грамотности среди мужчин; Lit_fema (Females who read (%)) процент грамотности среди женщин; Climate (Predominant climate) – господствующий климат.

Постройте таблицу частот по переменной Predominant religion, для этого в меню Анализ на панели управления выберите Описательная статистика – Частоты. В открывшемся окне в левой его части (список переменных) выберите переменную Predominant religion и, с помощью графической кнопки переноса, поместите ее в правую часть окна (выбранные переменные). Затем в разделе Диаграммы этого же окна, выберите Части круга и укажите, чтобы диаграмма строилась в Процентах. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output1. В левой части нового листа Output1 расположена схема объектов (таблиц и графиков), содержащихся в данном выводе. Каждому из этих объектов здесь можно присваивать имена. Результаты анализа частот в Output1 реализуются следующим образом (См. Рис. 19, 20.).

Пояснение к результатам: Frequency – это частота встречаемости разновидностей изучаемой переменной (так из 108 стран, по которым имеется информация (Valid), 41 страна – католическая, 8 православных, 7 буддистских и т.д.) По одной стране данные отсутствуют (Missing). Percent – показывает процент стран, исповедующих отдельные религии от общего числа стран (т.е. от 109). Так католиков 37,6%, православных 7,3%, буддистов 6,4%. Valid Percent – показывает процент от числа стран по которым данные не пропущены (т.е. от 108 стран). Cumulative Percent – показывает какая доля выборки задействована по сумме нескольких религий.

Рис. 19. Output1. Statistics Predominant religion

N Valid  
  Missing  

Рис. 20. Output1. Predominant religion

    Frequency Percent Valid Percent Cumulative Percent  
Valid Animist 3,7 3,7 3,7  
  Buddhist 6,4 6,5 10,2  
  Catholic 37,6 38,0 48,1  
  Hindu ,9 ,9 49,1  
  Jewish ,9 ,9 50,0  
  Muslim 24,8 25,0 75,0  
  Orthodox 7,3 7,4 82,4  
  Protstnt 14,7 14,8 97,2  
  Taoist 1,8 1,9 99,1  
  Tribal ,9 ,9 100,0  
  Total 99,1 100,0    
Missing   ,9      
Total   100,0      

Постройте таблицу сопряженности (Crosstab) по качественным переменным Predominant religion и Predominant climate, для этого в меню Анализ на панели управления выберите Описательная статистика – Перекрестные таблицы. В открывшемся окне в левой его части (список переменных) выберите переменную Predominant religion и, с помощью графической кнопки переноса, поместите ее в правую часть окна (строки), а переменную Predominant climate поместите в правую часть окна (колонки). Активируйте меню графической кнопки Статистика и выберите в нем функцию хи-квадрат. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output2.

Пояснение к результатам: На Рис. 21. показан вывод Output2 о количестве объектов (стран) по которым информация имеется (Valid) и отсутствует (Missing). Рис. 22. представляет собственно таблицу сопряженности (Crosstabulation Count) распределения объектов по двум выбранным переменным. На Рис. 23. значение критерия χ2 хи-квадрат (Value) существенно меньше единицы, а значение вероятности (Asymp. Sig.) меньше порогового значения, равного 0,05, из чего можно сделать вывод о независимости переменных.

 

Рис. 21. Output2. Case Processing Summary

  Cases            
  Valid   Missing   Total    
  N Percent N Percent N Percent  
Predominant religion * Predominant climate 97,2% 2,8% 100,0%  

Рис. 22. Output2. Predomin. religion * Predomin. climate Crosstabulation Count

    climate                 Total  
    desert arid / desert arid tropical mediterranean maritime temperate arctic / temp    
Predominant religion Animist              
  Buddhist              
  Catholic      
  Hindu                  
  Jewish                  
  Muslim        
  Orthodox              
  Protstnt          
  Taoist                
  Tribal                  
Total    

Рис. 23. Output2. Chi-Square Tests

  Value Asymp. Sig. (2-sided)  
Pearson Chi-Square ,106 ,005  
N of Valid Cases    

 

Корреляционный анализ: в меню Анализ на панели управления выберите Согласование-Одновариантность. В открывшемся окне с помощью графической кнопки переноса выберите следующие переменные: People living in cities (%), People who read (%), Infant mortality (deaths per 1000 live births), Gross domestic product / capital, Number of aids cases / 100000 people. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output3.

Пояснение к результатам: На Рис. 24. представлена матрица корреляций по пяти выбранным переменным. Для каждой пары переменных рассчитываются значения коэффициента корреляции Пирсона (Pearson Correlation), уровень статистической значимости (Sig.), и количество объектов (N) по которым строились расчеты. Из таблицы видно, что наиболее высокие значения коэффициента имеются у переменной Infant mortality с переменными People living in cities, People who read, причем в обоих случаях коэффициент отрицательный, что свидетельствует о сильной обратной связи. Это подтверждается и нулевыми значениями показателя уровень статистической значимости (Sig.). Наименьшие значения коэффициента корреляции с высоким, превышающим пороговое значение, уровнем статистической значимости выявлены у переменной Number of aids cases с переменными People who read и Gross domestic product / capital, что свидетельствует об отсутствии связи между ними.

 

Рис. 24. Output3. матрица корреляций..

    People living in cities (%) People who read (%) Infant mortality (deaths per 1000 live births) Gross domestic product / capita Number of aids cases / 100000 people  
People living in cities (%) Pearson Correlation ,650 -,718 ,605 -,287  
  Sig. (2-tailed) , ,000 ,000 ,000 ,003  
  N  
People who read (%) Pearson Correlation ,650 -,900 ,552 -,160  
  Sig. (2-tailed) ,000 , ,000 ,000 ,104  
  N  
Infant mortality (deaths per 1000 live births) Pearson Correlation -,718 -,900 -,640 ,285  
  Sig. (2-tailed) ,000 ,000 , ,000 ,003  
  N  
Gross domestic product / capita Pearson Correlation ,605 ,552 -,640 -,031  
  Sig. (2-tailed) ,000 ,000 ,000 , ,749  
  N  
Number of aids cases / 100000 people Pearson Correlation -,287 -,160 ,285 -,031  
  Sig. (2-tailed) ,003 ,104 ,003 ,749 ,  
  N  

Регрессионный анализ: в меню Анализ на панели управления выберите Регрессия – Линейный. Выберите переменную Infant mortality и, с помощью графической кнопки переноса, поместите ее в строку Подчиненный, а переменную People living in cities в строку Независимые. Активируйте меню графической кнопки Статистика и выберите в нем функции Оценки и Согласие модели. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output4.

Пояснение к результатам: на Рис. 25. рассчитаны значения множественного коэффициента корреляции R и коэффициента детерминации R Square. Первый из которых показывает силу связи между зависимой и независимой переменными, а второй – характеризует долю от общей дисперсии зависимой переменной, объясняемую регрессией. На Рис. 26. представлены коэффициент регрессии В равный -1,131 и показатель смещения по оси ординат, равный 106,55 (значение Constant). Таким образом: Infant mortality = 106,55+(-1,131* People living in cities). Следовательно, при росте городского населения на 1% детская смертность снижается на 1,1%. Для оценки статистической значимости коэффициента регрессии также рассчитан t-критерий Стьюдента; если его фактическое значение превышает пороговое, то гипотеза о влиянии независимой переменной на зависимую отклоняется.

 

Рис. 25. Output4. Model Summary

Model R R Square Adjusted R Square Std. Error of the Estimate  
,718 ,516 ,511 26,6580  

 

Рис. 26. Output4. Coefficients

    Unstandardized Coefficients   Standardized Coefficients t Sig.  
Model   B Std. Error Beta      
(Constant) 106,550 6,543   16,285 ,000  
  People living in cities (%) -1,131 ,106 -,718 -10,622 ,000  

 

Факторный анализ: в меню Анализ на панели управления выберите Уменьшение размерности – Факторный анализ. С помощью графической кнопки переноса задайте следующие независимые переменные: People living in cities, People who read, Infant mortality, Gross domestic product, Daily calorie intake, Number of aids cases. Войдите в меню графической кнопки Извлечение и задайте, в качестве метода анализа, метод Главных компонент (Principal components). Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output5.

 

Рис. 27. Output5.Total Variance Explained

  Initial Eigenvalues     Extraction Sums of Squared Loadings      
Component Total % of Variance Cumulative % Total % of Variance Cumulative %  
3,955 65,919 65,919 3,955 65,919 65,919  
,988 16,468 82,386        
,451 7,517 89,903        
,337 5,623 95,527        
,212 3,527 99,053        
5,681E-02 ,947 100,000        

Рис. 28. Output5.Component Matrix

  Component  
   
People living in cities (%) ,849  
People who read (%) ,884  
Infant mortality (deaths per 1000 live births) -,946  
Gross domestic product / capita ,818  
Daily calorie intake ,887  
Number of aids cases / 100000 people -,319  

 

Пояснение к результатам: на Рис. 27. представлены рассчитанные программой факторные нагрузки по каждой из компонент. Первый фактор (Component 1) имея начальное собственное значение (Total) равное 3,955 объясняет 65,9% дисперсии данных. Следовательно, большинство избранных для анализа переменных изменяются согласованно и на этом основании их можно включить в один фактор. Рис. 28. показывает степень связи каждой участвующей в анализе переменной с выявленным фактором. Сила связи, в том числе и обратной, достаточно велика у всех переменных, кроме одной – Number of aids cases, которая выбивается из общего ряда, что может свидетельствовать о возможном действии еще одного самостоятельного фактора.

Кластерный анализ: в меню Анализ на панели управления выберите Классификация – Иерархические группы. В открывшемся окне необходимо задать в качестве Метки регистра ту переменную, множественные значения которой программа будет группировать в кластеры, в данном примере это переменная Country. Далее, с помощью графической кнопки переноса следует указать переменные, участвующие в анализе: People who read, Average male life expectancy, Daily calorie intake. В меню графической кнопки Графики выберите Dendrograma, нажмите Продолжение, а затем ОК. Программа выводит результаты анализа на отдельном листе Output6.

Пояснение к результатам: на Рис. 29. представлены итоги многомерной классификации стран по избранным переменным. Каждый объект (страна) объединен в кластеры первого (наиболее типологически схожие), второго, третьего или четвертого порядка. Чем дальше по порядку друг от друга расположены объекты, тем меньше у них типологического сходства по участвующим в анализе переменным.

Рис. 29. Дендрограмма иерархической кластеризации

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

 

Netherlands 70 òø

UK 101 òú

Turkey 99 òú

Australia 4 òú

Iran 52 òôòòòòòø

Libya 64 òú ó

New Zealand 71 òú ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø

Norway 74 ò÷ ó ó

Greece 43 òûòø ó ó

Ireland 54 ò÷ ó ó ó

Austria 5 òø ó ó ó

Italy 56 òú ùòòò÷ ó

Canada 21 òú ó ó

Germany 42 òôò÷ ó

Hungary 48 òú ó

USA 102 ò÷ ó

China 24 òø ó

Uruguay 105 òôòø ó

Colombia 25 ò÷ ùòòòòòòòòòòòø ó

Brazil 15 òø ó ó ó

Costa Rica 26 òôò÷ ó ó

Saudi Arabia 87 ò÷ ó ó

Bolivia 12 òø ó ó

Somalia 90 òú ó ó

Bangladesh 8 òôòòòø ó ó

Cent. Afri.R 22 òú ó ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

Zambia 109 ò÷ ó ó

Guatemala 44 òø ó ó

Cameroon 20 òú ùòòòòòòòø ó

Nicaragua 72 òú ó ó ó

Cambodia 19 òú ó ó ó

Uganda 103 òú ó ó ó

Kenya 59 òú ó ó ó

Peru 79 òôòòò÷ ó ó

Liberia 63 òú ùò÷

Nigeria 73 òú ó

Burkina Faso 17 ò÷ ó

Ethiopia 36 òòòòòòòòòòòòò÷

Задания для самоконтроля:

Самостоятельно создайте в SPSS анкету.

· Фамилия

· Возраст: 1-18; 19-25; 26-45; 46-60; <60

· Пол: Мужской; Женский

· Образование: Начальное; Среднее; Неоконченное высшее; Высшее

· Доход: Низкий; Средний; Высокий

· Семейное положение: не состою в браке; состою в официальном браке; состою в гражданском браке; в разводе, вдовец (вдова)

· Количество детей: нет; один; два; три; четыре; пять; более пяти

· Религиозная принадлежность: атеист; православный; католик; протестант; мусульманин; иудей; буддист; иное

· Место жительства: город, поселок городского типа, село, деревня

· За кого голосовали на Президентских выборах 2008 г.: Богданов; Жириновский; Зюганов; Медведев

 

По таблице WORLD95 выполните следующие запросы.

 

1. Постройте таблицу частот по переменной «Region or economic group», и постройте диаграмму, отражающую полученные результаты.

2. Создайте таблицу, показывающую корреляцию между следующими переменными: «Average male life expectancy», «Females who read (%)», «Number of people / sq. Kilometer», «deaths per 1000 live births». Объясните полученные результаты.

3. Проведите кластерный анализ стран, используя имеющихся переменных «People living in cities (%)», «Gross domestic product / capita», «deaths per 1000 live births», и постройте дендрограмму.

4. Расчитаетй фактурную нагрузку по трем любым свободным переменным на выбор.

 

По таблице INDUSTRY (промышленные предприятия по результатм переписей 1900 и 1908 гг.)

 

4. Переведите базу INDUSTRY из ACCESS в SPSS.

5. Постройте круговую диаграмму частотности по губернии.

6. Создайте таблицу корреляции между годом основания, числом рабочих, суммой производства и мощностью двигателя.

7.