Графическое представление данных

Графики предназначены для более наглядного представления результатов исследования, а также для более детального и глубокого анализа полученных данных. Виды графиков (будем изучать):

1) круговая диаграмма;

2) диаграмма полос и/или столбцов;

3) ленточная диаграмма;

4) гистограмма;

5) полигон распределения;

6) графики накопленных частот;

7) график интерквартильного диапазона.

 

1) Круговая диаграмма применяется для изображения распределения качественных признаков. На круговой диаграмме частоты представляются в виде площадей-секторов. Для того чтобы определить искомую площадь сектора необходимо вычислить пропорцию

360о - 100%.

х - fi(%).

x = 360*fi(%)/100%.

 

Нулевой градус – ???

После того как сектора обозначены, необходимо выделить каждый сектор либо цветом, либо штриховкой. Любая диаграмма должна иметь заголовок и легенду.

Пол fi(%)
М Ж 40% 60%

 

 

2) используется для представления качественных признаков.

Представляет собой набор прямоугольников с равными основаниями и расположенными на одинаковом расстоянии друг от друга. Высота прямоугольника зависит от частоты. Каждый прямоугольник представляет собой отдельное значение признака. В ДС основания располагаются по оси Х, а соответствующие частоты по оси У. В ДП основания прямоугольников располагаются по оси У, а частоты по оси Х.

3) применяется для всех видов измерительных шкал и предназначена для изображения структуры распределения. Представляет собой полоску, длина которой равна 100%. Полоска делится на доли (сектора) в соответствии с частотой того или иного значения.

Ленточная диаграмма наиболее эффективна в сравнительном контексте. Для примера приведем динамику распределения лиц с ВО по году.

4) Применяется для количественных признаков, группированных в интервалы. По оси Х откладываются интервалы, по оси У - соответствующие частоты.

Набор прямоугольников, плотно прилегающих друг к другу. Служит для изучения формы распределения количественного признака.

Не требует выделение разным цветом либо штриховкой различных прямоугольников.

Если гистограмма строится по аналитической группировке, то есть, длины интервалов одинаковые, по оси У откладывается соответствующая частота. Если гистограмма строится по типологической либо процентивной группировке, то есть, длины интервалов разные, по оси У откладывается не частота, а плотность распределения.

5) Строится для количественных признаков.

Ломаная линия, строящаяся так: по оси Х откладываются единичные значения признака. По оси Х соответствующие этим значениям частоты. Затем эти точки соединяются.

Если число значений признак небольшое, в этом случае полигон строится для конкретных значений. Если же число значений признака большое (вариационный ряд длинный), лучше строить для сгруппированных данных. В этом случае в качестве значения признака используют середину каждого интеравала. Если ПР нужно построить для сгруппированных данных, то его совмещают с гистограммой.

Если ПР совмещается с гистограммой, то он, как и гистограмма, используется для визуализации и дальнейшего изучения форм распределения признака.

 

6) 2 вида графиков:

- кумулята - график, построенный по абсолютным значениям накопленных частот.

- огива - по накопленной частоте в процентах

Строятся для всех измерительных шкал, для которых имеет смысл расчет НЧ.

По оси Х - значение признака, по оси У - значения НЧ.

На одном и том же графике могут присутствовать одновременно кривая, построенная пои возрастающей НЧ, и кривая, построенная по убывающей НЧ. Графики НЧ можно строить для данных, сгруппированных в интервалы. В этом случае кривая, отстроенная по возрастающей НЧ в качестве значения признака использует верхнюю или правую границу интервала. По убывающей НЧ - нижняя или левая граница интервала.

7. Это разность между квантилем Х0,75 и Х0,25

График ИД имеет только 1 измерение (шкала значений признака) и строится по 5 точкам Хmin, Х0,25, Х0,5, Х0,75 и Хmax.

 

Характеристика центра распределения признака (меры центральной тенденции)

Являются 3 показателя:

- Мода (Мо);

- Медиана (Ме);

- Среднее арифметическое.

 

Мода – значение признака, обладающее наибольшей частотой. Мода может быть определена для любых измерительных шкал.

Для качественных признаков и количественных, не сгруппированных в интервалы, Мода определяется по частотному распределению.

Если количественный признак сгруппирован в интервалы, мода может определяться двумя способами:

1) графический (по гистограмме) (стаж руководителей);

М интервал - интервал, которому соответствует м частота.

2) используя формулу:

Х0 - нижняя граница МИ;

l - длина МИ;

FМо - частота в %, соответствующая МИ;

f- - частота в %, соответствующая предшествующему И;

f+ - частота в %, соответствующая последующему И.

Пример интерпретации: чаще всего среди студентов 1-го курса встречается возраст 18 лет.

 

Медиана – значение признака, которая делит упорядоченный ряд данных пополам таким образом, что число единиц наблюдения с большим и меньшим, чем медиана, значением признака, одинаково; 50-ый процентиль.

 

X0 – левая граница МИ;

l – длина МИ;

F – предшествующая накопленная частота;

fMe - частота в %, соответствующая МИ.

Так как номинальная шкала не обладает свойством упорядоченности/порядка, мы не можем определить (Ме). Для остальных определяется. Для порядковых шкал и количественных признаков, представленных в виде вариационного ряда, медиана определяется приблизительно по возрастающей накопленной частоте. В медиане будет соответствовать возрастающая накопленная частота, равная либо впервые превысившая 50%. Если количественный признак сгруппирован в интервалы, точное значение медианы можно найти по формуле внутри медианного интервала. Медианный интервал - интервал, для которого возрастающая частота равна либо впервые превысила 50%. Пример интерпретации: половина студентов имеют возраст до 18 лет, вторая половина – после 18 лет.

 

Среднее арифметическое – сумма всех значений признака, делённая на объём ВС.

Вычисляется только для количественных признаков. В зависимости от того, как представлен количественный признак, используется своя разновидность:

1) сырые данные: ;

2) вариационный ряд: ; xi и fi – значение признака и соответствующая абсолютная частота;

3) группировка в интервалы: ; – середина интервала.

Пример интерпретации: средний возраст составляет 17,8 лет.

 

Показатели вариации признака.

Вариация – различие в значениях какого-либо признака у разных единиц изучаемой совокупности. Всегда связана с такой характеристикой центра распределения, как среднее арифметическое. (Вариация) и её показатели определяются только для количественных признаков. Чем больше отдельное значение различается между собой, тем больше они отличаются от СА и наоборот (чем меньше…). Если распределение количественного признака характеризовать только с помощью СА, мы получим информацию только о некой типичной или характерной величине, однако строение совокупности нам будет неизвестно.

Для того чтобы представлять значение совокупности, вводятся специальные показатели, которые численно характеризуют отклонения отдельных значений от СА.

Предположим, обследуются 2 группы семьи из количества детей.

1. 0 6 3 1 5 = 3

2. 4 2 3 3 3 = 3

d1 = 6 - 0 = 6

d2 = 4 - 2 = 4

К показателям вариации относятся:

1) d размах - разница между максимальным и минимальным (показателем признака). Однако показывает лишь крайние отклонения значений признака и не отражает отклонений всех вариантов в ряду.

2) S2 дисперсия - представляет собой средний квадрат отклонений значений признака от СА. В зависимости от того, в каком виде представлены исходные данные, дисперсия вычисляется по соответствующей формуле:

1) сырые данные: ;

2) вариационный ряд: ;

3) интервалы: .

В знаменателе вычитание единицы производится тогда, когда объём выборочной совокупности n меньше 50. Если n > 50, вычитать 1 не обязательно. Вычитание – поправка на малый объём выборочной совокупности. Это очень важный показатель вариации, однако он используется редко, так как трудно интерпретируется.

3) S среднеквадратическое отклонение (СКО; стандартное отклонение) Std, deviation. - корень квадратный из дисперсии. Отличительная особенность - показатель измеряется в тех же единицах, что и значение признака, поэтому он может интерпретироваться.

3 формулы вычисления такие же, как и у дисперсии, только из значения нужно извлечь корень ( ). Пример интерпретации: возраст студентов 1-го курса в среднем отклоняется на 1,9 года от = 17,8 лет.

4) V коэффициент вариаций – выраженное в процентах отношение СКО к СА, используется для сравнительной оценки вариаций в различных количественных признаках, в различных совокупностях. Используется как характеристика однородности изучаемой совокупности по конкретному признаку. Совокупность считается однородной по данному признаку, если для него коэффициент вариаций не превышает 33%.