Обобщающие характеристики массива данных

Вариационные ряды делятся на дискретные и интервальные. В дискретном ряду вариант принимает дискретное значение (количество лет, стаж работы в органах внутренних дел и др.). В случае интервального ряда значения варианта даются в виде интервалов, которые получаются в результате группировки данных наблюдения. Частоты при этом относятся не к отдельному значению признака, а к некоторому интервалу (например, варианты норм выработки на заводе в виде интервалов: 65-70%, 70-75%, 80-85% и т.д.).

Статистический ряд является эмпирическим законом распределения выборочной совокупности. К универсальной характеристике случайной величины относится ее функция, или плотность, распределения. Функцию распределения генеральной совокупности будем называть теоретической функцией распределения F(x), а статистическую функцию распределения выборки - эмпирической функцией распределения Fn (x).

При больших объемах наблюдений n Fn (x) ® F(x), т. е. эмпирическая функция распределения выборки с ростом ее объема приближается к теоретической функции распределения генеральной совокупности и может быть использована для ее приближенного представления.

Для достижения наглядности строят различные графики статистического распределения, из которых чаще всего используют полигон или гистограмму. Они являются графическим изображением статистического ряда. Графики, подобно другим искусственным языкам, (например, математическому) имеют целый ряд положительных свойств, особенно в смысле лаконичности, однозначности и наглядности.

Варианты статистического ряда могут быть абсолютными и относительными величинами. Абсолютные величины - форма выражения статистических показателей, непосредственно характеризующая абсолютные размеры правовых явлений, их признаков в единицах соответствующих систем измерения. Так, абсолютные величины характеризуют общее количество зарегистрированных преступлений, общую сумму ущерба, сроки лишения свободы, число уголовных дел и др.

Однако сравнительный анализ преступности по отдельным регионам нельзя проводить путем использования абсолютных величин, поскольку регионы могут отличаться по численности населения и другим параметрам. Поэтому для сравнения, обобщения, определения интенсивности развития исследуемого явления, его структуры, динамики используются относительные величины.

Относительные величины - это отношение двух величин. Числитель отношения - текущие данные об исследуемом явлении (преступления, суммы ущерба и т.д.). Знаменатель отношения называется основанием или базой (сравнения). В качестве текущей или базисной могут выступать как одноименные, так и разноименные величины. В первом случае получаем безразмерные величины. Если основание принять за единицу, то величины образуют долю, или коэффициент. Он показывает, во сколько раз сравниваемая величина больше или меньше основания, например, доля квартирных краж в преступлениях по линии уголовного розыска. Если основание принять за 100%, то относительная величина будет выражаться в процентах (например, число преступлений в регионе в 2011 г. - 2930, в 2012 г. - 2014, темп роста преступности К = 2930/2014*100= 145,5%). К разноименным относительным величинам относятся, например, уровень преступности в расчете на 10 тыс. человек, нагрузка на одного следователя и др.

Средние и относительные величины относятся к обобщающим показателям, которые характеризуют одним числом типичные, наиболее распространенные стороны изучаемых явлений. Обобщающие показатели отражают по определенному признаку всю совокупность в целом, отвлекаясь от частного и случайного, что дает возможность установить и измерить закономерности различных массовых процессов.

Главное значение средних величин состоит в замене множества различных индивидуальных значений признака средней величиной, характеризующей всю однородную совокупность. В статистике к средним величинам относятся: средняя арифметическая, средневзвешенная, средняя геометрическая, средняя гармоническая, средняя квадратическая, средняя кубическая, медиана, мода. Рассмотрим некоторые из них.

Средняя арифметическая величина получается путем деления суммы величин вариантов на их число. При ее вычислении общий объем признака мысленно распределяется поровну между всеми единицами совокупности. В результате получается средняя арифметическая величина - среднее слагаемое.

Математическое ожидание представляет собой центр распределения, около которого сосредоточены все возможные значения случайной величины. Поэтому математическое ожидание иногда называют просто средним значением случайной величины.

Для определения средних темпов прироста или снижения признака (например, количества преступлений), когда на протяжении всех исследуемых лет происходит либо его непрерывный рост, либо непрерывное снижение, применяется средняя геометрическая.

При изучении вариационного ряда применяются также характеристики, которые описывают его структуру, строение. К ним относятся медиана и мода.

Медиана (обозначается "Ме") - значение величины вариационного ряда, расположенного в его середине, т.е. она делит ряд на две равные части. Медиана в отличие от средней не зависит от значений признака, стоящих на краях вариационного ряда.

Модой (обозначается "Мо") называется вариант признака, имеющий наибольшую частоту, т. е. мода - наиболее типичное значение признака.

Для характеристики величины колебания в статистике исчисляют следующие показатели: размах вариации; среднее линейное отклонение; дисперсия; среднее квадратическое отклонение; коэффициент вариации.

Размах вариации является наиболее простым измерителем вариации и представляет собой разность между наибольшим и наименьшим значениями признака.

Поскольку величина размаха характеризует лишь максимальное различие значений признака, она не может измерять закономерную силу его вариации во всей совокупности.

Более точную характеристику колеблемой можно получить, если сравнить все имеющиеся значения с их средней величиной. Также сравнение можно сделать на основе среднего линейного отклонения, которое от среднего значения отнимает значения вариантов по абсолютной величине.

В математической статистике для оценки рассеяния вариантов используется дисперсия (D), часто называемая средним квадратом отклонения.

Однако в ряде случаев D неудобно пользоваться, так как она имеет размерность Х2.

Значительно более употребимой характеристикой колеблемости признака в изучаемой совокупности является среднее квадратическое отклонение, размерность которого совпадает с размерностью вариантов вариационного ряда.