Одномерный дисперсионный анализ

Министерство науки и образования Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

Московский государственный университет тонких химических технологий

имени М.В Ломоносова»

 

Кафедра маркетинга и менеджмента

 

 

ОТЧЕТ ПО ПРАКТИКЕ ПО СТАТИСТИКЕ

 

Руководитель В.Б. Люкманов

 

Студент гр. ИУ-22 Д.М. Спиридонов

 

 

Москва 2012


Отчет по практике» - ИУ22 – Спиридонов Д.М.».

Тема: «Демографические тенденции в Российской Федерации за период 1980 – 2011 гг.».

Годы нас.(млн. чел.) муж.(тыс. чел.) жен.(тыс. чел.) родившиеся умершие браки разводы прод. жизни(лет) чис. больн. учреждений(тыс.)
138,1 63,2 74,2 30,54 12,5
138,8 68,7 78,3 37,88 12,8
139,6 69,5 78,8 42,93 12,1
140,5 69,5 78,8 52,53 10,7
141,6 68,3 68,75 10,6
142,5 67,6 77,6 68,93 10,3
143,6 67,5 77,5 67,61 10,1
144,8 77,2 69,19 9,8
66,6 76,9 64,52 9,5
66,2 76,6 65,34 7,5
147,7 65,8 76,4 65,23 6,8
148,3 65,7 76,3 64,95 6,5
148,3 65,6 76,3 64,85 6,5
146,3 65,6 76,3 65,27 6,3
145,2 65,8 76,4 65,3 6,2
65,7 76,3 66,6 6,2
144,2 65,6 76,3 67,51 6,5
143,5 65,05 76,2 67,88 6,7
142,8 64,9 75,9 63,32 6,8
142,2 64,82 75,6 62,34 7,1
64,7 75,5 65,2 7,2
141,9 64,6 75,45 7,4
141,7 64,3 74,32 64,7 7,2
141,4 64,3 73,45 64,4 7,3

Годы числ. Общеобраз. Учреж.(тыс.) числ. Безраб.(тыс. чел.) прибышие выбывшие общ. Пл. жил. Помещений
103,8 13,4
96,55 1944,23 15,3
74,8 2076,3 16,4
73,21 2312,32 17,3
69,7
2224,54 18,7
70,2 2342,54 19,2
69,45 2644,32 19,3
68,1 2343,43 19,5
65,55 19,7
62,5 19,8
61,33
60,3 7999,5 20,2
58,9 7699,5 20,2
57,3 6423,7 20,5
56,67 5698,3 20,6
55,1 5959,2 20,9
53,43 5674,8 21,1
52,4 5262,8 21,3
52,12 5311,9 21,4
50,1 4588,5 21,5
49,98 4791,5 21,6
49,4 6372,8
48,76 5636,3 22,1

В самом начале посмотрим на график численности населения (млн. чел.) на территории РФ за период 1980 – 2011 гг.

Графика

На данном графике можно увидеть, что средняя численность населения в РФ за период 1980 – 2011 гг. составила примерно 143,46 млн. чел. с отклонением в 2,89. При этом видно, что численность населения в 142-144 млн. чел. повторилась наибольшее количество раз за весь рассмотренный период – 6 раз. А численность населения РФ в 148-150 млн. чел. была достигнута наименьшее количество лет, только в 2 из рассмотренного периода времени.


 

Далее, на следующих 4-х таблицах будет представлена общая информация об отдельных показателях из базы данных. А именно: число общеобразовательных учреждений (тыс.), число больничных учреждений, численность безработных и общая площадь жилых помещений по территории РФ.

Таблица №1

 

Численность общеобразовательных учреждений
  Значения
Стандартные атрибуты Положение
Метки <нет>
Тип Числовой
Формат F8.2
Измерение Количество
Роль Входная
M Валидные
Пропущенные
Среднее значение и дисперсия Cреднее 63,7354
Стандартное отклонение 13,90759
25-й процентиль 52,9150
50-й процентиль 60,8150
75-й процентиль 69,8500

В 1-ой таблице мы можем увидеть, что средняя численность общеобразовательных учреждений за рассмотренный период составляет 63,74 при стандартном отклонении в 13,91 при том, что при разбивке на квартили (25%-е, 50%-е и 75%-е процентили, которые разделяют наблюдения на четыре группы одинакового объема), нижний 25-й процентиль (значение количественной переменной, которое разделяет упорядоченные данные на группы таким образом, что определенный процент наблюдений имеет значения этой количественной переменной меньше значения процентиля, а другой процент наблюдений имеет значения этой количественной переменной больше значения процентиля) составил 52,92; а верхний 75-й составил 69,86.

 

 

Таблица №2

 

Численность больничных учреждений
  Значения
Стандартные атрибуты Положение
Метки <нет>
Тип Числовой
Формат F8.2
Измерение Количество
Роль Входная
M Валидные
Пропущенные
Среднее значение и дисперсия Cреднее 8,3583
Стандартное отклонение 2,18829
25-й процентиль 6,6000
50-й процентиль 7,2500
75-й процентиль 10,2000

Во 2-ой таблице мы можем увидеть, что среднее численность больничных учреждений по стране за рассмотренный промежуток времени составила 8,35 при стандартном отклонении в 2,19 при том, что при разбивке на квартили (4 части), нижний 25-й процентиль составил 6,60; а верхний 75-й составил 10,2.

Таблица №3

Численность безработных
  Значения
Стандартные атрибуты Положение
Метки <нет>
Тип Числовой
Формат F8.2
Измерение Количество
Роль Входная
M Валидные
Пропущенные
Среднее значение и дисперсия Cреднее 4679,3950
Стандартное отклонение 2118,99457
25-й процентиль 2342,9850
50-й процентиль 5287,3500
75-й процентиль 6166,0000

 

 

В 3-ей таблице видно, что средняя численность безработных в РФ за рассмотренное время составила 4679,40 чел. при стандартном отклонении в 2119 чел. Вместе с этим, 50-й процентиль составил 5287,35; при верхнем в 6166.

Таблица №4

Общая площадь жилых помещений
  Значения
Стандартные атрибуты Положение
Метки <нет>
Тип Числовой
Формат F8.2
Измерение Количество
Роль Входная
M Валидные
Пропущенные
Среднее значение и дисперсия Cреднее 19,5833
Стандартное отклонение 2,17209
25-й процентиль 18,9500
50-й процентиль 20,1000
75-й процентиль 21,2000

Во 4-ой таблице можно заметить, что средняя площадь жилых помещений по стране за рассмотренный промежуток времени составила 19,58 при стандартном отклонении в 2,17, при этом, при разбивке на квартили, нижний 25-й процентиль составил 18,95; а 50-й процентиль составил 21,20.

 


Теперь рассмотрим частоты.

Частоты

Статистики
  Население (млн. чел.) Численность мужчин Общая площадь жилых помещений родившиеся умершие Численность безработных
N Валидные
Пропущенные
Среднее 143,4583 76,4425 19,5833 1739105,1667 1927106,7500 4679,3950
Стд. ошибка среднего ,58986 ,27514 ,44338 78406,67705 82995,92479 432,53796
Медиана 143,1500 76,3000 20,1000 1690817,5000 2005304,0000 5287,3500
Мода 148,30 76,30 20,20 1266800,00a 886090,00a 1845,00a
Стд. отклонение 2,88970 1,34791 2,17209 384112,70241 406595,33294 2118,99457
Дисперсия 8,350 1,817 4,718 147542568149,015 165319764771,326 4490137,987
Размах 10,20 5,35 8,70 1515553,00 1479736,00 6798,00
Минимум 138,10 73,45 13,40 1266800,00 886090,00 1845,00
Максимум 148,30 78,80 22,10 2782353,00 2365826,00 8643,00
Сумма 3443,00 1834,62 470,00 41738524,00 46250562,00 112305,48

Как видно из вышеприведенной таблицы, в ней были рассмотрены 6 показателей из базы данных, а именно население (млн. чел.), численность мужчин (тыс. чел.), общая площадь жилых помещений, численность родившихся и умерших, а также численность безработных по стране. В таблице представлены следующие характеристики – N валидные – количество (правильных) ответов, N пропущенныеколичество неправильных или пропущенных ответов на данный вопрос, Среднее (арифметическое) – сумма всех значений деленное на их количество, Стд. ошибка среднегохарактеристика точности, стабильности величины. Чем меньше значение стандартной ошибки, тем стабильнее величина, Медиана – среднее значение распределения, Мода – наиболее часто встречаемое значение, Стд. отклонение(от среднего) – величина, характеризующая изменчивость (равняется квадратному корню из дисперсии), Дисперсиявспомогательная величина для стандартного отклонения, Процентили процент распределения значений. И, если посмотреть на данную таблицу, то можно сказать о том, что средняя численность населения в стране за весь рассмотренный период лет(1980 – 2011 гг.) составила 143,46 млн. чел., из них примерно 76, 44 мужчины. При этом, средняя численность родившихся в стране все же меньше средней численности умерших, а средняя численность безработных составила и 4679,40 человек. Самая большая стандартная ошибка среднего при этом составила 82995,92 по численности умерших, также велика она и в численности родившихся 78406,68. Мода, наиболее часто встречающиеся значение, оказалась самой высокой по показателю численности родившихся в стране, но при этом минимум также составил 1266800 чел. а вот максимум составил 2782353 чел. но этот показатель, как мы видим, встречается редко по моде. Медиана - значение, которое попадает в середину наблюдений, т.е. 50-й перцентиль при разбивке на квартили, самой наибольшей наоборот оказалась по численности умерших и составила 2005304 чел. за прошедший период времени при максимуме в 2365826 чел. и минимуме в 886090 чел.. Самая большая дисперсия, мера разброса вокруг среднего значения, составила 165319764771,326 по числу умерших в период рассмотренных лет а самая маленькая в 1,817 по численности мужского населения в стране. Размах, разность между наибольшим и наименьшим значениями числовой переменной; максимум минус минимум, больше всего оказался по численности родившихся, а меньше всего по численности мужчин в стране. Сумма или итог для всех значений по всем наблюдениям, имеющим непропущенные значения, самой высокой стала для числа умерших.


Далее перейдем к просмотру описательной статистики

Описательные

  N Минимум Максимум Сумма Среднее Стд. отклонение
Статистика Статистика Статистика Статистика Статистика Стд. ошибка Статистика
браки 897327,00 1795432,00 31279281,00 1303303,3750 53733,84189 263240,98911
разводы 30,54 69,19 1480,77 61,6988 2,07906 10,18528
числобольничныхучреждений 6,20 12,80 200,60 8,3583 ,44668 2,18829
числообщеобразовательныхучреждений 48,76 103,80 1529,65 63,7354 2,83888 13,90759
численностьбезработных 1845,00 8643,00 112305,48 4679,3950 432,53796 2118,99457
N валидных (целиком)            

 

По данным таблицы, наибольший минимум составляет по показателю число больничных учреждений 6,20 при максимуме 12,8, самый наибольший максимум по числу браков и составляет 1795432, при этом максимальное значение тут составило 897327, что тоже не очень мало. Если сравнить с показателем по разводам, то получится, что минимум и максимумы здесь не очень велики и составляют всего 30,54 и 69,19 соответственно. Что же касается числа безработных, то здесь сумма составила 112305,48 чел. при том что среднее составило 4679,3950, стандартная ошибка, мера того, как сильно может отличаться значение среднего от выборки к выборке, извлекаемое из одного и того же распределения; т.е. можно заключить, что два значения различаются, если отношение их разности к стандартному отклонению ( величине, характеризующей изменчивость (равняется квадратному корню из дисперсии)). меньше -2 или больше +2, составила 2118,99457.


Далее перейдем к графикам.

График №1

Изучим круговую диаграмму. На ней показано, что численность умерших и родившихся составляют приблизительно одинаковое соотношение между собой, но все же с перевесом в сторону умерших. Также видно, что число разводов по диаграмме составляет самую малую долю от всех остальных показателей и меньшую, чем число браков между людьми. При этом, как можно заметить из диаграммы, число прибывших в страну и выбывших из нее за рассмотренный период времени примерно равны, но с перевесом в сторону выбывших.

График №2

Следующий график представляет собой область, где по оси y расположена шкала населения РФ 0-150 млн. чел., а по оси x расположены 3 показателя, это общая численность населения и численность мужчин и женщин по стране (млн. чел.) за рассмотренный период времени (1980 – 2011 гг.), которые и представляют собой единую область. Как видно из графика, численность женщин превышает численность мужчин по стране. Таким образом, женщины составляют большую часть населения страны.

График №3

 

На следующем графике, представленном в виде линии, по оси x расположены показатели - число больничных учреждений и общая площадь жилых помещений, по оси y средние значения. Как показано на графике, линия представляет собой средние численности больничных учреждений, образовательных учреждений и площади жилых помещений по территории РФ за период 1980 – 2011 гг.


Рассмотрим одномерный дисперсионный анализ.

Одномерный дисперсионный анализ

Межгрупповые факторы
  N
продолжительностьжизнилет 30,54
37,88
42,93
52,53
62,34
63,32
64,40
64,52
64,70
64,85
64,95
65,00
65,20
65,23
65,27
65,30
65,34
66,60
67,51
67,61
67,88
68,75
68,93
69,19
числобольничныхучрежденийтыс 6,20
6,30
6,50
6,70
6,80
7,10
7,20
7,30
7,40
7,50
9,50
9,80
10,10
10,30
10,60
10,70
12,10
12,50
12,80
числообщеобразовательныхучрежденийтыс 48,76
49,40
49,98
50,10
52,12
52,40
53,43
55,10
56,67
57,30
58,90
60,30
61,33
62,50
65,55
68,10
69,45
69,70
70,00
70,20
73,21
74,80
96,55
103,80

 

В таблице межгрупповые факторы -Метка значения обозначает показатели (продолжительность жизни, численность больничных и численность общеобразовательных учреждений), по которым будет проводиться дисперсионный анализ; а N количество респондентов.

Оценка эффектов межгрупповых факторов
Зависимая переменная: населениемлнчел
Иcточник Сумма квадратов типа III ст.св. Средний квадрат F Знч.
Скорректированная модель 192,058a 8,350 . .
Свободный член 489436,500 489436,500 . .
продолжительностьжизнилет ,000 . . .
числобольничныхучрежденийтыс ,000 . . .
числообщеобразовательныхучрежденийтыс ,000 . . .
продолжительностьжизнилет * числобольничныхучрежденийтыс ,000 . . .
продолжительностьжизнилет * числообщеобразовательныхучрежденийтыс ,000 . . .
числобольничныхучрежденийтыс * числообщеобразовательныхучрежденийтыс ,000 . . .
продолжительностьжизнилет * числобольничныхучрежденийтыс * числообщеобразовательныхучрежденийтыс ,000 . . .
Ошибка ,000 .    
Всего 494119,100      
Скорректированный итог 192,058      
a. R квадрат = 1,000 (Скорректированный R квадрат = .)

 

Посмотрим на таблицу оценка эффектов межгрупповых факторовПонятно, что зависимая переменная – население млн. чел. по территории РФ. По таблице можно увидеть, что 1) сумма квадратов типа III (Метод вычисления сумм квадратов сумма квадратов отклонений от среднего значений, равна 494119,100 при 0-ой ошибке и скорректированном итоге и модели (R квадрат = 1,000) равном 192,058; при этом, свободный член равен 489436,500 2) ст.св., число уровней фактора минус 1 (вспомогательная величина),равна 24, при скорректированном итоге и модели = 23 и 1-ом свободном члене, 3) Средний квадрат - отношение суммы квадратов к числу степеней свободы (вспомогательная величина) – по скорректированной модели равен 8,350 и свободный член равен 489436,500.

Теперь перейдем к графикам по одномерному дисперсионному анализу. Графики были построены по зависимой переменной общая численность населения млн. чел. и второстепенным переменным продолжительность жизни, число больничных и число общеобразовательных учреждений.


Графики профилей

График №1

 

По графику можно увидеть отношение среднего общей численности населения РФ (138 – 150 млн. чел.) к продолжительности жизни (30,54 – 69,19 лет). Можно сказать, что средний максимум находится в точке выше 148 млн. чел. и равен 64,85 – 64,95 лет, а средний минимум находится в точке 138 млн. чел. и составляет 30,54 лет. Самая высокая продолжительность жизни равна 69,19 при 145 млн. чел. в среднем, а самая низкая 30,54 при 138 млн. чел..

 

График №2

По графику можно увидеть отношение среднего общей численности населения РФ (138 – 150 млн. чел.) к числу больничных учреждений (6,20 – 12,80). Можно сказать, что средний максимум находится в точке выше 147 и равен 6,50, а средний минимум находится в точке 138 млн. чел. и составляет 12,50. Самое высокое среднее число больничных учреждений находится равно 12,80 при численности населения в 138 млн. чел., а самое низкое 6,20 при 145 млн. чел..

 

 

График №3

 

По графику можно увидеть отношение среднего общей численности населения РФ (138 – 150 млн. чел.) к числу общеобразовательных учреждений (48,76 – 103,80). Можно сказать, что средний максимум находится в точке выше 148 и равен 60,30 – 61,33, а средний минимум находится в точке 138 млн. чел. и составляет 103,80. Самое высокое среднее число больничных учреждений находится равно 103,80 при численности населения в 138 млн. чел., а самое низкое 48,76 при 143 млн. чел..

 


 

Рассмотрим Т – критерий

T-критерий

 

Статистики для одновыборочного t-критерия
  N Среднее Стд. отклонение Стд. ошибка среднего
числобольничныхучрежденийтыс 8,3583 2,18829 ,44668
числообщеобразовательныхучрежденийтыс 63,7354 13,90759 2,83888
продолжительностьжизнилет 61,6987 10,18528 2,07906

По таблице можно сказать о том, что в ней рассмотрены 3 показателя, а конкретно продолжительность жизни, число больничных и общеобразовательных учреждений. N – число резидентов (всего 24). Среднее показывает среднее значение в каждом из показателей. Стандартное отклонение характеризует отклонение от среднего, стандартная ошибка среднего показывает меру того, как сильно может отличаться значение среднего от выборки к выборке.


 

Одновыборочный t-критерий
  Проверяемое значение = 0
t ст.св. Значимость (2-сторонняя) Разность средних 95% доверительный интервал разности средних
Нижняя граница Верхняя граница
числобольничныхучрежденийтыс 18,712 ,000 8,35833 7,4343 9,2824
числообщеобразовательныхучрежденийтыс 22,451 ,000 63,73542 57,8628 69,6081
продолжительностьжизнилет 29,676 ,000 61,69875 57,3979 65,9996

По данной таблице надо сказать, что переменная t представляет собой критерий различия средних(отличие критерия от 0 выражает различие среднего значения переменной с эталонной величиной), ст.св.– вспомогательная величина, Значимость (2-сторонняя)– статистическая значимость (не больше 0,05 считается значимым), 95% доверительный интервал разности среднихв случае t критерия относится к разности между средними значениями выборки.