Часть 2. Описательные статистики. Частотный анализ данных. Лабораторная работа в системе STATISTICA.

Задания. Найти основные статистики по данным взятым из файла data.sta, предварительно удалив строку равную номеру варианта. Проанализировать полученные результаты.

Провести частотный анализ одного набора данных с номером равным номеру варианта. Построить гистограмму по результатам частотного анализа. Проанализировать полученные результаты.

Провести частотный анализ двух наборов данных. Построить трехмерную гистограмму двухмерного распределения. Проанализировать полученные результаты.

 

  Y1 Y2 Y3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 Х15 X16 X17
9,26 204,20 13,26 0,23 0,78 0,40 1,37 1,23 0,23 1,45 26006,00 167,69 47750,00 6,40 166,32 10,08 17,72
9,38 209,60 10,16 0,24 0,75 0,26 1,49 1,04 0,39 1,30 23935,00 186,10 50391,00 7,80 92,88 14,76 18,39
12,11 222,60 13,72 0,19 0,68 0,40 1,44 1,80 0,43 1,37 22589,00 220,45 43149,00 9,76 158,04 6,48 26,46
10,81 236,70 12,85 0,17 0,70 0,50 1,42 0,43 0,18 1,65 21220,00 169,30 41089,00 7,90 93,96 21,96 22,37
9,35 62,00 10,63 0,23 0,62 0,40 1,35 0,88 0,15 1,91 7394,00 39,53 14257,00 5,35 173,88 11,88 28,13
9,87 53,10 9,12 0,43 0,76 0,19 1,39 0,57 0,34 1,68 11586,00 40,41 22661,00 9,90 162,30 12,60 17,55
8,17 172,10 25,83 0,31 0,73 0,25 1,16 1,72 0,38 1,94 26609,00 102,96 52509,00 4,50 88,56 11,52 21,92
9,12 56,50 23,39 0,26 0,71 0,44 1,27 1,70 0,09 1,89 7801,00 37,02 14903,00 4,88 101,16 8,28 19,52
6,30 46,60 10,05 0,36 0,73 0,39 1,25 0,60 0,21 2,06 9475,00 40,07 16821,00 3,60 140,76 32,40 21,76
6,22 53,20 13,99 0,37 0,68 0,33 1,13 0,82 0,42 1,96 10811,00 45,44 19459,00 3,56 128,52 11,52 25,68
5,49 30,10 9,68 0,43 0,74 0,25 1,10 0,84 0,05 1,02 6371,00 41,08 12973,00 5,65 177,84 17,28 18,13
6,50 146,40 10,03 0,35 0,66 0,32 1,15 0,67 0,29 1,85 26761,00 136,14 50907,00 4,28 114,48 16,20 25,74
6,61 18,10 9,13 0,38 0,72 0,02 1,23 1,04 0,48 0,88 4210,00 42,39 6920,00 8,85 93,24 13,32 21,21
4,32 13,60 5,37 0,42 0,68 0,06 1,39 0,66 0,41 0,62 3557,00 37,39 5736,00 8,52 126,72 17,28 22,97
7,37 89,80 9,86 0,30 0,77 0,15 1,38 0,86 0,62 1,09 14148,00 101,78 26705,00 7,19 91,80 9,72 16,38
7,02 62,50 12,62 0,32 0,78 0,08 1,35 0,79 0,56 1,60 9872,00 47,55 20068,00 4,82 69,12 16,20 13,21
8,25 46,30 5,02 0,25 0,78 0,20 1,42 0,34 1,76 1,53 5975,00 32,61 11487,00 5,46 66,24 24,84 14,48
8,15 103,50 21,18 0,31 0,81 0,20 1,37 1,60 1,31 1,40 16662,00 103,25 32029,00 6,20 67,68 14,76 13,38
8,72 73,30 25,17 0,26 0,79 0,30 1,41 1,46 0,45 2,22 9166,00 38,95 18946,00 4,25 50,40 7,56 13,69
6,64 76,60 19,40 0,37 0,77 0,24 1,35 1,27 0,50 1,32 15118,00 81,32 28025,00 5,38 70,56 8,64 16,66
8,10 73,01 21,00 0,29 0,78 0,10 1,48 1,58 0,77 1,48 11429,00 67,26 20968,00 5,88 72,00 8,64 15,06
5,52 32,30 6,57 0,34 0,72 0,11 1,24 0,68 1,20 0,68 6462,00 59,92 11049,00 9,27 97,20 9,00 20,09
9,37 199,60 14,19 0,23 0,79 0,47 1,40 0,86 0,21 2,30 24628,00 107,34 45893,00 4,36 80,28 14,76 15,98
13,17 598,10 15,81 0,17 0,77 0,53 1,45 1,98 0,25 1,37 49727,00 512,60 99400,00 10,31 51,48 10,08 18,27

Это – измененная таблица данных Мои данные.sta: уменьшено количество наблюдений до 25 и удалена строка наблюдений под номером 23 (номер варианта)

По данной выборке произведено вычисление основных описательных статистик для двух признаков: Y3 и X7 – индекс снижения себестоимости продукции и среднегодовая стоимость ОПФ соответственно.

 

Описательные статистики (Мои данные)
  N набл. Среднее Медиана Мода Частота Сумма Минимум Максимум Размах Дисперс. Стд.откл. Асимметрия Эксцесс
Y3 13,66792 12,73500 Множест. 328,0300 5,020000 25,83000 20,81000 36,44531 6,036995 0,691068 -0,448130
X7 1,33292 1,37000 1,350000 31,9900 1,100000 1,49000 0,39000 0,01297 0,113883 -0,720222 -0,582115

 

 

Анализируя, полученные статистики можно предположить, что распределение этих величин далеко от нормального. Об этом свидетельствуют большая разница значений среднего арифметического, медианы и моды; широкий размах, большие значения коэффициентов ассиметрии и эксцесса. Положительные коэффициенты ассиметрии и эксцесса свидетельствуют о правосторонней ассиметрии и островершинности графиков распределения. По значениям среднего арифметического 119 и стандартного отклонения 123 можно предположить, что в среднем предприятия машиностроения имеют индекс снижения себестоимости продукции в интервале от 0 до 242, а среднегодовую стоимость ОПФ – в интервале от 0 до 205.

Далее приведены таблицы частотного анализа для переменных:

Таблица частот: Y2: Индекс снижения себестоимости продукции (Мои данные) K-С d=,22127, p<,01
  Частота Кумул. Процент Кумул. % % всех Кумул. %
-100,000<x<=0,000000 0,00000 0,0000 0,00000 0,0000
0,000000<x<=100,0000 62,50000 62,5000 62,50000 62,5000
100,0000<x<=200,0000 16,66667 79,1667 16,66667 79,1667
200,0000<x<=300,0000 16,66667 95,8333 16,66667 95,8333
300,0000<x<=400,0000 0,00000 95,8333 0,00000 95,8333
400,0000<x<=500,0000 0,00000 95,8333 0,00000 95,8333
500,0000<x<=600,0000 4,16667 100,0000 4,16667 100,0000
Пропущ. 0,00000   0,00000 100,0000
Таблица частот: X12: Среднегодовая стоимость ОПФ (Мои данные) K-С d=,24946, p<,01
  Частота Кумул. Процент Кумул. % % всех Кумул. %
-100,000<x<=0,000000 0,00000 0,0000 0,00000 0,0000
0,000000<x<=100,0000 58,33333 58,3333 58,33333 58,3333
100,0000<x<=200,0000 33,33333 91,6667 33,33333 91,6667
200,0000<x<=300,0000 4,16667 95,8333 4,16667 95,8333
300,0000<x<=400,0000 0,00000 95,8333 0,00000 95,8333
400,0000<x<=500,0000 0,00000 95,8333 0,00000 95,8333
500,0000<x<=600,0000 4,16667 100,0000 4,16667 100,0000
Пропущ. 0,00000   0,00000 100,0000
                         

Анализируя таблицу частот для индекса снижения себестоимости продукции, мы можем сказать, что большинство предприятий машиностроения(т.е 15, что составляет 62,5 % от общего количества предприятий) имеют индекс снижения себестоимости продукции в интервале от 0 до 100, 4 предприятия – от 100 до 200, 4 предприятия – от 200 до 300. Одно предприятие имеет индекс снижения себестоимости в интервале от 500 до 600, что объясняет такой значительный размах между значениями. На гистограмме частотного анализа для индекса снижения себестоимости продукции видно, что наибольшую высоту имеет столбец, соответствующий интервалу от 0 до 100 и его высота равна 15. Также по гистограмме можно убедиться в том, что график распределения имеет острую вершину и правостороннюю ассиметрию(т.е. смещение влево относительно нормального распределения)

Теперь рассмотрим трехмерную гистограмму двухмерного распределения набора переменных Y2 и X12: по ней мы видим, что шесть предприятий имеют значения индекса снижения себестоимости продукции в интервале от 50 до 100 и значения среднегодовой стоимости в интервале от 0 до 50. Столбец, удаленный от других, обозначает предприятия с большими значениями признаков.