Статистический анализ данных

Формат данного учебного пособия не предполагает описание математико-статистического аппарата, поэтому ниже будут рассмотрены только возможности использования инструментов статистики для анализа эмпирических данных.

4.2.1. Измерение центральной тенденции

Для того чтобы в полученной числовой информации можно было выявить типичные характеристики, рассчитывают средние величины или меру центральной тенденции.

Средние величины – это обобщающие показатели, в основе которых могут лежать как количественные, так и качественные признаки. В первом случае, это может быть средний возраст сотрудников, средняя оценка на курсе по какой-то дисциплине и т.д. Во втором – типичный для большинства группы респондентов мотив получения образования, уровень удовлетворенности учебой и так далее. Отсюда назначение меры центральной тенденции служить сводными количественными характеристиками, обеспечивающими наилучшее описание множества наблюдений или оценок.

Важным условий применения средних величин является их расчет на качественно однородной совокупности. Это требование предполагает, например, что намереваясь выявить отношение к учебе типичного студента, мы не будем усреднять оценки отличников и тех, кто еле-еле переползает с курса на курс.

Простая среднеарифметическая величина применяется в том случае, если в исходных данных значение каждого варианта встречается один раз. Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5.

Средняя арифметическая взвешенная используется, если имеется некоторая повторяемость значений единиц совокупности, поскольку позволяет учесть различную численность вариантов. Употребление простой среднеарифметической в этих случаях недопустимо, так как это неизбежно приводит к искажению. Например, на предприятии 10 работников со стажем работы до 3 лет, 20 - со стажем от 3 до 5 лет, 5 работников - со стажем более 5 лет. В этом случае средний стаж работников нужно рассчитывать по формуле средней арифметической взвешенной, приняв в качестве середины интервалов стажа каждого варианта 2, 4 и 6 лет соответственно.
Для характеристики структуры совокупности применяются особые показатели, которые называются структурными средними. К таким показателям относятся мода и медиана.

Мода представляет собой наиболее часто встречающееся или типичное значение. Мода – именно то число, которое в действительности встречается чаще всего (является величиной определенной). Например, наиболее часто встречающееся значение в 10-балльной шкале оценки степени удовлетворенности отношениями в группе.

Медиана – это число в середине набора чисел: половина чисел имеют значения большие, чем медиана, а половина чисел — меньшие. В примере с оценкой медианным значением будет число 5.

При симметричном распределении набора чисел все три значения центральной тенденции будут совпадать. При несимметричном распределении набора чисел они могут быть разными.

4.2.2. Характеристики рассеивания Используя для описания ряда значений признака только меру центральной тенденции, можно сильно ошибиться в оценке характера изучаемой совокупности. Например, мы изучаем средний возраст двух групп, каждая из которых состоит из 6 человек. Значения признака распределились следующим образом: 1 группа – 10, 10, 10, 50, 50, 50 2 группа – 30, 30, 30, 30, 30, 30 Подсчитав среднее значение в каждой из групп, получаем значение 30 в обеих. Иначе говоря, мы получили одинаковые значения, тогда как совершенно очевидно, что это ошибка. В подобных ситуациях необходимо использовать показатели вариации признака. Вариация признака показатель колебания признака в совокупности. Таким образом, показатель вариации позволяет оценить совокупность с точки зрения ее однородности/неоднородности.

Простейший показатель вариации размах вариации – это разность между максимальным и минимальным значениями из имеющихся в изучаемой статистической совокупности. Недостатком данного показателя является то, что он дает только максимальное различие значений и не может измерять силу вариации во всей совокупности. Для оценки силы вариации используются такие показатели как коэффициент вариации и дисперсия.

Коэффициент вариации рассчитывается как отношение среднего квадратического отклонения к средней арифметической величине и выражается в процентах. Совокупность считается однородной, если коэффициент вариации не превышает 33%.