Построение графика зависимости результирующего признака от факторного .

Постановка задачи.

Каждое экономическое, общественное и физическое явление находится во взаимодействии с другими явлениями. При изучении связей рассматриваемых явлений выделяют независимые признаки (факторные признаки) и результативные признаки . Факторные признаки влияют на результативные признаки.

Зависимости между признаками подразделяются на две категории – функциональные и корреляционные.

При функциональных связях каждому значению фактора соответствует вполне определенное значение результативного признака:

Примером функциональной связи служит закон Ома:

При корреляционной связи результативный признак зависит как от факторного признака , так и других факторов :

В экономических явлениях широко присутствуют корреляционные связи.

Так, на прибыльность банка влияют процентные ставки (факторный признак) и другие признаки – объемы операций, заработная плата сотрудников, затраты на оборудование и т.д. Влияние прочих факторов на результат может быть незначительным, умеренным или существенным.

Методологию изучения статистической взаимосвязи рассмотрим на конкретном примере.

Пример

По семи областям проведено статистическое исследование по двум признакам: расходы на покупку продовольственных товаров в общих расходах и среднедневная заработная плата одного работающего. Каждый признак представлен выборкой из семи значений с целью уменьшения количества расчетов. Исследование выполнено случайным образом и его результаты отображены в таблице 1.1.

Таблица 1.1

 

№ п/п Среднедневная заработная плата одного работающего, тыс. руб., X Расходы на покупку продовольственных товаров в общих расходах, %, Y
45,1 68,8
59,0 61,2
57,2 59,9
61,8 56,7
58,8 55,0
47,2 54,3
55,2 49,3

 

Требуетсяпровести регрессионный и корреляционный анализ по двум выборкам для нахождения уравнения регрессии между двумя признаками. Уравнение регрессии позволит в дальнейшем формировать прогноз на будущее.

Решение

Выбор вида математической функции можно осуществить тремя методами: графическим, аналитическим и экспериментальным.

Построение графика зависимости результирующего признака от факторного .

Суть этапа заключается в построении зависимости результирующего признака от факторного на корреляционном поле (Рис.1). Порядок обозначения выборок через и обычно следует из условия задачи. Через семь точек на корреляционном поле можно попытаться провести аппроксимирующую функцию. Однако для маленьких выборок (меньше десяти) зачастую трудно установить вид зависимости признака от . Первый этап (построение графика) предполагает решение задачи на качественном уровне. Перейдем к количественному решению задачи.

 

Рисунок 1.1 – Корреляционное поле зависимости от

 

I – Линейная модель.

Цель этапа – установить уравнение связи двух переменных Y и X. Выберем простейшее линейное уравнение.

Регрессионный анализ.

Линейное уравнение имеет вид y = a + bx. Для расчета коэффициентов а и b составим систему нормальных уравнений, полученных по методу наименьших квадратов-МНК:

По исходным данным задачи рассчитаем: и их значения внесем в таблицу 1.2.


 

              Таблица 1.2
      Линейная модель        
№п/п
45,10 68,80 3102,88 2034,01 4733,44 61,10 7,71 11,20
59,00 61,20 3610,80 3481,00 3745,44 56,23 4,97 8,12
57,20 59,90 3426,28 3271,84 3588,01 56,86 3,04 5,08
61,80 56,70 3504,06 3819,24 3214,89 55,25 1,45 2,56
58,80 55,00 3234,00 3457,44 3025,00 56,30 -1,30 2,36
47,20 54,30 2562,96 2227,84 2948,49 60,36 -6,06 11,16
55,20 49,30 2721,36 3047,04 2430,49 57,56 -8,26 16,75
                 
Сумма 384,30 405,20 22162,34 21338,41 23685,76 403,66 1,55 57,23
                 
Среднее значение 54,90 57,89 3166,05 3048,34 3383,68 - - 8,18
                 
5,86 5,74 - - - - - -
34,33 32,92 - - - - - -

 

Коэффициенты и найдем из системы уравнений, например, путем подстановки, либо из дисперсионного анализа по формулам:

где, - средние значения,

- среднее квадратическое отклонение

Уравнение линейной регрессии примет окончательный вид:

теоретические значения, в отличие от Y – фактических значений, заданных по условию задачи.

Теоретические значения будем получать из линейного уравнения путем подстановки фактических значений .

Экономический смысл коэффициента состоит в том, что с увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на .

Найдем среднюю ошибку аппроксимации .

Для нашей задачи выражено в процентах, поэтому:

Допустимый предел - не более 8-10%.

Таким образом, средняя ошибка аппроксимации почти вошла в допустимый предел.

Корреляционный анализ.

Цель этапа – рассчитать линейный коэффициент корреляции и установить силу связи между и .

Линейный коэффициент корреляции найдем по формуле

где, - среднее квадратическое отклонение по ,

- среднее квадратическое отклонение по ,

 

Значение , взятое по модулю, сравниваем со шкалой Чеддока (Приложение 1). Связь умеренная и обратная, поскольку r имеет отрицательное значение.

Определим коэффициент детерминации, который получим путем возведения коэффициента корреляции в квадрат.

Коэффициент детерминации

Коэффициент детерминации также указывает на влияние фактора на результат .

Вариация результата на объясняется вариацией фактора .

 

Оценка значимости уравнения регрессии.

Оценка значимости уравнения регрессии проводится с помощью F-критерия Фишера. Выдвигается гипотеза - фактор не оказывает влияния на результат . При этом коэффициент регрессии равен нулю, .

Процесс оценки нулевой гипотезы сводится к сравнению фактического и табличного значения критерия Фишера. Если , то нулевая гипотеза не отклоняется. Признается факт существования зависимости результата от так и для генеральных совокупностей Y и X.

Уравнение регрессии значимо.

Если , то нулевая гипотеза не отклоняется, но признается статистическая незначимость, ненадежность зависимости от . Уравнение регрессии незначимо, ненадежно. В этом случае требуется подбор другого уравнения регрессии.

Для линейной модели равно:

где – коэффициент корреляции,

– число показателей выборки.

вычисляют следующим образом:

1. Определяем К1, которое равно количеству факторов . В однофакторной модели , в двухфакторной . В нашей задаче модель однофакторная, поэтому .

2. Определяем , которое рассчитываем по формуле , где – число значений выборки, – количество факторов. Для однофакторной модели . Для рассматриваемой задачи

3. На пересечении столбца и находят по таблице Фишера с уровнем значимости (Приложение 2). Уровень значимости - это вероятность отвергнуть гипотезу .

Вывод:

Следовательно, уравнение регрессии незначимо, ненадежно. Требуется подбор другого уравнения, например, одного из нелинейных.

 

II – Нелинейная модель

Предположим теперь, что результирующий фактор от факторного признака изменяется нелинейным образом. В качестве нелинейных моделей используют функции: степенную, показательную, экспоненциальную, гиперболическую. Для малых выборок, когда картина зависимости от просматривается плохо, требуется проверка всех моделей, а затем выбор наилучшей.

Выберем гиперболическую модель для уменьшения количества расчетов.

Уравнение равносторонней гиперболы

Регрессионный анализ

Для определение параметров и этого уравнения используется система нормальных уравнений по критерию метода наименьших квадратов:

Чтобы определить параметры уравнения гиперболы, необходимо привести ее к линейному виду. Для этого сделаем замену переменной и получим систему уравнений:

По исходным данным рассчитаем и внесем их в таблицу 1.3.

 

                  таблица 1.3
Нелинейная модель
№п/п
45,10 68,80 0,02 1,53 0,000492 4733,44 61,82 48,71 10,14 119,12
59,00 61,20 0,02 1,04 0,000287 3745,44 56,31 23,90 7,99 10,98
57,20 59,90 0,02 1,05 0,000306 3588,01 56,87 9,16 5,05 4,06
61,80 56,70 0,02 0,92 0,000262 3214,89 55,50 1,44 2,11 1,41
58,80 55,00 0,02 0,94 0,000289 3025,00 56,37 1,88 2,49 8,33
47,20 54,30 0,02 1,15 0,000449 2948,49 60,78 41,99 11,93 12,86
55,20 49,30 0,02 0,89 0,000328 2430,49 57,54 67,93 16,72 73,71
                     
Сумма 384,30 405,20 0,13 7,51 0,002413 23685,76 405,20 195,01 56,45 230,47
                     
Сред знач 54,90 57,89 0,02 1,07 0,000345 3383,68   27,86 8,06 32,92
                     
δ 5,86 5,74 0,002134              
δ^2 34,33 32,92 0,000005              
                             

Примечание. Значения Z рассчитываем до 4-го знака после запятой.

 

Коэффициенты и определим по формулам:

 

где,

Уравнение гиперболы примет вид:

Здесь - теоретическое значение, - фактическое (по условию задачи) значение.

Качество гиперболической модели определяет средняя ошибка аппроксимации:

Качество построения модели оценивается как хорошее, если не превышает Ошибка аппроксимации входят в допустимый предел.

Корреляционный анализ

Сила связи между результативным признаком и факторным для нелинейной модели определяется индексом корреляции, в то время как у линейной модели – коэффициентом корреляции.

Индекс корреляции:

Связь между признаками и умеренная.

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака характеризует индекс детерминации

Вариация результата на объясняется вариацией фактора