Залежність споживання від доходів

Самостійна робота

з курсу «Економетрика»

Виконав:

студент 3 курсу

Будько Кирило Андрійович

Викладач:

к. ф-м. н. доцент

Комашко Олег Валентинович

Залежність споживання від доходів

У цій роботі була досліджена залежність витрат населення на придбання товарів та послуг від заробітної платні, прибутку та змішаного доходу, доходів від власності та одержаних трансфертів. Дані було взято з сайту державного комітету статистики, з 1-го кварталу 2006го по 31 2011го. Розрахунки здійснювалися за допомогою R та MS EXSEL.

Отже, припустивши, що зв’язок між наведеними показниками є лінійним, ми отримали наступну регресію:

vyt =-1486.5342 + 1.3777 zp + 0.2821 pr - 0.1835 doh + 0.4960 tr,

де vyt - витрати населення на придбання товарів та послуг, zp - заробітна платня, pr – прибуток та змішаний доход, doh - доход від власності, tr – трансферт.

Відповідний фрагмент коду:

Residuals:

Min 1Q Median 3Q Max

-11262.3 -2272.3 117.1 2608.5 10014.0

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1486.5342 4429.7041 -0.336 0.7411

zp 1.3777 0.2186 6.303 6.09e-06 ***

pr 0.2821 0.1471 1.917 0.0712 .

doh -0.1835 0.1979 -0.927 0.3660

tr 0.4960 0.1845 2.688 0.0150 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5178 on 18 degrees of freedom

Multiple R-squared: 0.992, Adjusted R-squared: 0.9902

F-statistic: 557.3 on 4 and 18 DF, p-value: < 2.2e-16

Коефіцієнт детермінації є близьким до 1, що свідчить про тісноту лінійного зв’язку. Значущими є коефіцієнти при заробітній платні (рівень надійності >99,9%), прибутку (>90%) та трансфертах (>95%). Регресія є адекватною, оскільки p-value є дуже малим.

Рис. 1 Залишки базової моделі

Рис. 2 Стандартизовані залишки та регресійна пряма базової моделі

Тепер перевіримо гіпотезу про значення коефіцієнтів. Перевіримо, чи можна вважати коефіцієнт при заробітній платні рівним 1. Порівняємо практичне значення статистики Стьюдента з теоретичним.

Фрагмент коду:

(1.3777-1)/0.2186 = 1.727813

qt(0.95,18) = 1.734064

, отже з 95% рівнем надійності можна стверджувати, що коефіцієнт при заробітній платні є рівним 1.

Тепер перевіримо гіпотезу про лінійні обмеження на коефіцієнти регресії. Перевіримо, чи можна вважати суму коефіцієнтів при заробітній платні, прибутку та змішаному доході рівною 2, застосовуючи критерій Вальда.

Фрагмент коду:

t=matrix(0,ncol = 5)

t[1,2]=1

t[1,3]=1

x=matrix(nrow=23,ncol=5)

for(i in 1:23)for(j in 2:5) {x[i,j]=sh1[i,j+1]}

x[,1]=1

b=matrix(nrow=1,ncol=5)

b[,1]=-1486.5342

b[,2]= 1.3777

b[,3]= 0.2821

b[,4]= -0.1835

b[,5]= 0.4960

fpr=(t(t%*%t(b)-2)%*%solve(t%*%solve(t(x)%*%x)%*%t(t))%*%(t%*%t(b)-2))*18/ sum(residuals(fm1)^2) = 5.191101

qf(0.05,1,18) = 0.004043292

t – матриця коефіцієнтів при обмеженнях, х – матриця значень змінних, b – матриця оцінок коефіцієнтів регресії. , тобто відповідну гіпотезу з 95% рівнем надійності прийняти не можна.

Перевіримо гіпотезу про стійкість моделі. Розіб’ємо спостереження на дві группи, з 1го кварталу 2006го по 4й 2008го (12 спостережень) та з 1го 2009го по 3й 2011го (11 спостережень). Визначимо, чи викликала криза суттєві зрушення у споживанні, та чи слід розбивати цю модель на дві.

Фрагмент коду:

vyt1=sh1[1:12,2]

vyt2=sh1[13:23,2]

zp1=sh1[1:12,3]

pr1=sh1[1:12,4]

doh1=sh1[1:12,5]

tr1=sh1[1:12,6]

zp2=sh1[13:23,3]

pr2=sh1[13:23,4]

doh2=sh1[13:23,5]

tr2=sh1[13:23,6]

fm01=lm(vyt1~zp1+pr1+doh1+tr1)

fm02=lm(vyt2~zp2+pr2+doh2+tr2)

summary(fm01)

lm(formula = vyt1 ~ zp1 + pr1 + doh1 + tr1)

Residuals:

Min 1Q Median 3Q Max

-3151.73 -886.58 -96.53 1363.20 3113.31

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -3398.0518 3323.9132 -1.022 0.34066

zp1 1.2100 0.2529 4.784 0.00200 **

pr1 0.1287 0.1248 1.031 0.33684

doh1 -0.1480 0.8798 -0.168 0.87116

tr1 0.7831 0.2154 3.636 0.00833 **

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2343 on 7 degrees of freedom

Multiple R-squared: 0.9975, Adjusted R-squared: 0.9961

F-statistic: 710.9 on 4 and 7 DF, p-value: 3.297e-09

summary(fm02)

lm(formula = vyt2 ~ zp2 + pr2 + doh2 + tr2)

Residuals:

Min 1Q Median 3Q Max

-10519 -4547 2011 5019 7881

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -2990.8815 26524.4902 -0.113 0.9139

zp2 1.3678 0.5578 2.452 0.0496 *

pr2 0.3568 0.3199 1.115 0.3074

doh2 -0.1925 0.3542 -0.543 0.6064

tr2 0.4918 0.6442 0.763 0.4742

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8123 on 6 degrees of freedom

Multiple R-squared: 0.968, Adjusted R-squared: 0.9466

F-statistic: 45.31 on 4 and 6 DF, p-value: 0.0001284

rss1=sum(residuals(fm01)^2)

rss2=sum(residuals(fm02)^2)

rss=sum(residuals(fm1)^2)

(rss-rss1-rss2)/5*13/(rss1+rss2) = 0.2895121

qf(0.95,5,13) = 3.025438

, отже з 95% рівнем надійності початкова модель є стійкою, і не потребує розбиття на дві.

Подивимося, чи впливає сезонність на витрати на споживання. Введемо 3 бінарні змінні, що відповідають кварталам, взявши 1й за базовий. Маємо:

fmz=lm(vyt~zp+pr+doh+tr+q2+q3+q4)

summary(fmz)

Residuals:

Min 1Q Median 3Q Max

-7376 -1388 648 2014 4932

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 9.003e+03 4.226e+03 2.131 0.050088 .

zp 1.087e+00 1.839e-01 5.912 2.85e-05 ***

pr 1.114e+00 2.629e-01 4.236 0.000719 ***

doh -3.128e-01 1.611e-01 -1.942 0.071198 .

tr 4.939e-01 1.354e-01 3.648 0.002381 **

q2 -7.772e+03 2.260e+03 -3.439 0.003656 **

q3 -2.260e+04 5.799e+03 -3.897 0.001429 **

q4 -8.572e+03 2.943e+03 -2.913 0.010707 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3736 on 15 degrees of freedom

Multiple R-squared: 0.9965, Adjusted R-squared: 0.9949

F-statistic: 614.4 on 7 and 15 DF, p-value: < 2.2e-16

Дана модель є адекватною, має більший коефіцієнт детермінації, ніж у базовій, а усі змінні у ній є значущими з рівнем надійності 90% і вище. Отже, доцільно говорити, що сезонність впливає на споживання.

Рис. 3 Залишки моделі з сезонністю

Рис. 4 Стандартизовані залишки та регресійна пряма моделі з сезонністю

Тепер перевіримо гіпотезу про наявність мультиколінеарності за допомогою критерію Фарра – Глаубера. Обрахувавши кореляційну матрицю змінних та логарифм її визначника, маємо відповідні значення практичної та теоретичної оцінок:

(22-(8+5)/6)*4.68 = 92.82

qchisq(0.95,6) = 12.59159

, отже, наявна мультиколінеарність, тобто високий рівень кореляції між регресорами. Причина цього в тому, що досліджувані показники мають подібні тренди, і змінюються як правило в одному напрямку. До того ж, кількість спостережень (23) не є значною.

Перевіримо, як зміниться базова модель, якщо з неї прибрати незначущу змінну доходів від власності.

fml=lm(vyt~ zp + pr + tr)

summary(fml)

Residuals:

Min 1Q Median 3Q Max

-10375.7 -2736.5 433.9 2947.7 10347.2

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 339.1386 3953.6259 0.086 0.9325

zp 1.3375 0.2134 6.267 5.12e-06 ***

pr 0.2894 0.1464 1.978 0.0627 .

tr 0.4943 0.1838 2.689 0.0145 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5159 on 19 degrees of freedom

Multiple R-squared: 0.9916, Adjusted R-squared: 0.9903

F-statistic: 748.2 on 3 and 19 DF, p-value: < 2.2e-16

(0.992-0.9916)/(1-0.992)*19 = 0.95

qf(0.05,1,19) = 0.004037369

, а отже, змінну, що відповідає за доход від власності, недоцільно прибирати з моделі, а її незначущість – результат мультиколінеарності.

Перевіримо наявність гетероскедастичності в базовій моделі за допомогою критерію Голфельда – Квондта. Відповідний фрагмент коду:

gqtest(fm1,fraction=0.15)

Goldfeld-Quandt test

data: fm1

GQ = 12.4976, df1 = 5, df2 = 4, p-value = 0.01489

Отже, з рівнем надійності більшим за 95% можна стверджувати про наявність гетероскедастичності.

Позбудемося від неї за допомогою критерію Уайта:

bptest(fm1,~ I(zp^2)+I(pr^2)+I(doh^2)+I(tr^2)+zp*pr+zp*doh+zp*tr+pr*doh+pr*tr+tr*doh)

studentized Breusch-Pagan test

data: fm1

BP = 17.8776, df = 14, p-value = 0.2124

Варто зазначити, що лише з рівнем надійності <80% гіпотеза про наявність гетероскедастичності за критерієм Уайта справджується.

vytf=vyt/abs(residuals(fm1))

zpf=zp/abs(residuals(fm1))

prf=pr/abs(residuals(fm1))

dohf=doh/abs(residuals(fm1))

trf=tr/abs(residuals(fm1))

fmf=lm(vytf~zpf+prf+dohf+trf)

summary(fmf)

Residuals:

Min 1Q Median 3Q Max

-1.8600 -0.9368 0.1350 0.9040 1.5722

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.08353 0.29930 -0.279 0.7834

zpf 1.29634 0.10171 12.746 1.90e-10 ***

prf 0.28973 0.05015 5.777 1.78e-05 ***

dohf -0.17229 0.09119 -1.889 0.0751 .

trf 0.56513 0.09567 5.907 1.36e-05 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.168 on 18 degrees of freedom

Multiple R-squared: 1, Adjusted R-squared: 1

F-statistic: 3.72e+05 on 4 and 18 DF, p-value: < 2.2e-16

bptest(fmf,~ I(zpf^2)+I(prf^2)+I(dohf^2)+I(trf^2)+zpf*prf+zpf*dohf+zpf*trf+prf*dohf+prf*trf+trf*dohf)

studentized Breusch-Pagan test

data: fmf

BP = 22.1533, df = 14, p-value = 0.07552

Отже, з >90% рівнем надійності ми позбулися від гетероскедастичності за критерієм Уайта. В отриманій моделі усі змінні є значущими, а коефіцієнт детермінації є рівним 1, що свідчить про лінійність зв’язку між отриманими змінними.

Рис. 5 Залишки моделі без гетероскедастичності

Рис. 6 Стандартизовані залишки та регресійна пряма моделі без гетероскедастичності

Тепер перевіримо модель на наявність автокореляції критерієм Дурбіна – Уотсона.

dwtest(fmf)

Durbin-Watson test

data: fmf

DW = 1.4838, p-value = 0.08989

alternative hypothesis: true autocorrelation is greater than 0

Отже, з >90% рівнем надійності автокореляція присутня.

Позбудемося від неї, припустивши, що маємо справу з AR(1) – процесом:

ro=sum(residuals(fmz)[2:23]*residuals(fmz)[1:22])/sum(residuals(fmz)[1:22]^2)

> vyta[1]=(1-ro)^(1/2)*vytf[1]

> zpa[1]=(1-ro)^(1/2)*zpf[1]

> pra[1]=(1-ro)^(1/2)*prf[1]

> doha[1]=(1-ro)^(1/2)*dohf[1]

> tra[1]=(1-ro)^(1/2)*trf[1]

> for (i in 2:23) {vyta[i]=vytf[i]-ro*vyta[i-1]}

> for (i in 2:23) {zpa[i]=zpf[i]-ro*zpa[i-1]}

> for (i in 2:23) {pra[i]=prf[i]-ro*pra[i-1]}

> for (i in 2:23) {doha[i]=dohf[i]-ro*doha[i-1]}

> for (i in 2:23) {tra[i]=trf[i]-ro*tra[i-1]}

> fma=lm(vyta~zpa+pra+doha+tra)

> summary(fma)

Residuals:

Min 1Q Median 3Q Max

-2.0618 -0.5750 0.1395 0.8945 1.4579

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.03733 0.26363 0.142 0.8890

zpa 1.27904 0.09493 13.473 7.66e-11 ***

pra 0.29649 0.04493 6.599 3.38e-06 ***

doha -0.20274 0.08148 -2.488 0.0229 *

tra 0.58309 0.08952 6.514 4.00e-06 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.093 on 18 degrees of freedom

Multiple R-squared: 1, Adjusted R-squared: 1

F-statistic: 3.937e+05 on 4 and 18 DF, p-value: < 2.2e-16

dwtest(fma)

Durbin-Watson test

data: fma

DW = 1.6542, p-value = 0.2564

alternative hypothesis: true autocorrelation is greater than 0

Отже, можна стверджувати, що ми позбулися від автокореляції, і у вихідній моделі збурення є незалежними.

Рис. 7 Залишки вихідної моделі

Рис. 8 Стандартизовані залишки та регресійна пряма вихідної моделі