Коэффициент корреляции Пирсона

Общие положения

· Коэффициент корреляции: ; причем ковариация случайных величин и равна (разность математического ожидания произведения случайных величин и произведения математических ожиданий каждой величины)

· Смысл:коэффициент корреляции показывает меру связи случайных величин;

· Область значений коэффициента (допустимые значения): [-1;1];

o отрицательные значения – отрицательная связь (монотонно убывающая);

o если коэффициент корреляции равен -1 или 1, то тогда величины и линейно связаны, то есть таким и , что

o для независимых случайных величин коэффициент корреляции (если он существует), равен нулю.

Коэффициент корреляции Пирсона

· Расчетная формула:

· Проверка равенства коэффициента нулю: есть ли основания полагать, что посчитанное нами число значимо отличается от 0.

o надо посчитать граничные точки и - , между которыми будет меняться нулевой коэффициент корреляции.

o (n – размер одной из выборок);

o смотрим по таблицам Стьюдента и считаем , потом смотрим, куда попал коэффициент Пирсона;

· Проблема:чувствительность к выбросам – нетипичным, резко выделяющимся наблюдениям.

· Пример в политологии: связь политических предпочтений с чем угодно – пол, возраст, вес. Например, за Путина голосовали толстые

15. Изучение связи качественных признаков: анализ таблиц сопряженности. Внешний вид таблицы сопряженности. Статистические средства анализа таблицы сопряженности: критерий ² К.Пирсона. Примеры применения в политологии. (прошлый год)

· Анализ таблиц сопряженности используется для выявления связи между двумя качественными признаками. У каждого из них есть конечное число «значений». (Например, для признака «пол» значения «мужской» и «женский»).

Таблица сопряженности:

A\B

Величины n в правом крайнем столбце – суммы значений n по строкам,
Величины n нижней строки таблицы – суммы по столбцам
В правом нижнем углу - общая сумма всех наблюдений, необходимая для подсчета вероятностей.

· Смысл всего анализа - сопоставить ожидаемые (теоретические) вероятности и наблюдаемые (практические).

· Алгоритм действий

1. Выдвигаем гипотезу о независимости признаков:

2. Вычисляем ожидаемые частоты по формуле

(произведение сумм по строкам и сумм по столбцам; ожидаемые потому что при условии выполнения гипотезы)

3. Вычисляем наблюдаемую вероятность по формуле:

4. Мерой согласия опытных данных с теорией будет критерий хи-квадрат. Число степеней свободы считается по формуле , то есть для матрицы два на два, будет одна степень свободы

5. Считаем величину, по следующей формуле:

6. Полученную сумму (получается, что для каждой клеточки считаем мегадробь, а потом их суммируем) сравниваем с верхней процентной точкой (есть специальные таблицы). Если полученное значение больше, то гипотеза отвергается и у наших признаков есть связь, они зависимы.

· Пример использования: есть ли связь между полом и голосованием за какого-то кандидата (в столбцы загоняем пол – мужской/женский, а кандидатов в строки – Путин, Медведев, Зюганов; в столбики забиваться будет количество людей, проголосовавших за одного из этих парней)

Вопрос №16.

Простая линейная регрессия: постановка задачи, графическая интерпретация. Метод наименьших квадратов и МНК-оценки коэффициентов модели. Коэффициент детерминации. Проверка гипотез о коэффициентах при предикторах и качестве модели. (Бочарова А)

Регрессия. 1862 г. Sir Francis Galton “Regression towards Mediocrity hereditary stature”.

Психометрика, биология, коэффициент корреляции.

i	yi	xi
	y1	x1
	y2	x2
	y3	x3
…	…	…
n	yn	xn

Задача парной регрессии – описание изменчивости y с помощью изменчивости x.

Y – отклик, эндогенная переменная.

X – предиктор, регрессор, ковариата, фактор, экзогенная переменная.

Линейная регрессия:

y_i = ₀ + ₁ * x_i + _i – уравнение парной линейной регрессии (простой линейной регрессии).

[Например, x – уровень урбанизации, y – поддержка партии КПРФ] по регионам РФ.

Точки – регионы РФ.

Описать взаимосвязь x и y в среднем.

Понять, чему в среднем будет равен y, если x равен конкретному числу.

Задача – построить прямую, которая будет лежать максимально близко к точке, т.е. наименьшие отклонения.

y_i = ₀ + ₁ * x_i + _i

|________|

y_i_скрышкой= ₀ + ₁ * x_i – все лежат на прямой, т.к. это уравнение прямой.

Это прогнозный отклик.

Мат. ожидание отклика при должном значении предиктора.

y_i с крышкой = E (y|x_i)

y_i = y_i с крышкой + e_i

e_i – ошибка, остаточный член, случайный член (графически это вертикальная палочка до прямой регрессии).

Наша цель – подобрать такие ₀ и ₁, чтобыпрямаялежала наиболее близко к точкам.

1821 – 1822гг. – МНК.

y_i = ₀ + ₁ * (x_i – x _ср.) + _i

Для того чтобы перенести ось в точку среднего значения x из точки (0;0).

Лаплас предложил использовать модули, чтобы отрицательные значения не гасили положительные.

НО: этот метод тогда не стал востребованным, поскольку не умели дифференцировать в точке минимуму = |x|.

Тогда К. Гаусс предложил брать квадраты.

= e_i² min

= (y_i – ₀ – ₁ (x_i – x _ср.))² min

₀, ₁

Ищем производную и приравниваемее к нулю, т.к. производная это тангенс угла наклона касательной к графику.

Решаем систему уравнений:

₀ = (– 2 (y_i – ₀ – ₁ (x_i – x _ср.))) = 0

₁ = (– 2 (y_i – ₀ – ₁ (x_i – x _ср.))) (x_i – x _ср.) = 0

Решаем уравнения по отдельности. Сначала первое.

₀ = (– 2 (y_i – ₀ – ₁(x_i – x _ср.))) = 0

Сокращаем на минус два.

y_i – n₀ – ₁ (x_i – x _ср.) = 0

Учитываем, что ₁ (x_i – x _ср.) = 0,

т.к. x _ср.= x_i /n,

x_i = nx_ср.

(x_i – x _ср.) = x_i – x_ср.n = x_ср.n – x_ср.n = 0

Тогда

y_i – n₀ = 0

₀^мнк с крышкой = y_i / n = у_ср.

МНК-оценка ₀ – наша оценка значения ₀с помощью МНК, МНК-оценка первого коэффициента модели.

МНК-оценка ₁

Решаем второе уравнение из системы.

₁ = (– 2 (y_i – ₀ – ₁ (x_i – x _ср.))) (x_i – x _ср.) = 0

Сокращаем на минус два.

((y_i – y _ср.) *(x_i – x _ср.) – ₁ (x_i – x _ср.)²) = 0

((y_i – y _ср.) *(x_i – x _ср.)) – ₁ (x_i – x _ср.)² = 0

₁^мнк с крышкой = ((y_i – y _ср.) *(x_i – x _ср.)) / (x_i – x _ср.)²

₁^мнк с крышкой = R * ( (y_i – y _ср.)² )^0,5 / ( (x_i – x _ср.)²)^0,5,

где R – коэффициент корреляции Пирсона.

Рассмотрим на примере.

Допустим,

₀^мнк с крышкой = 25

₁^мнк с крышкой = 0,7

yi = 25 + 0,7xi + exi

yi с крышкой = 25 + 0,7xi

Интерпретации МНК-оценок коэффициентов модели

Интерпретация ₁^мнк с крышкой.

С ростом x на единицу y в среднем при прочих равных условиях увеличивается на 0,7.

Интерпретация ₀^мнк с крышкой.

Если x = 0, то в среднем при прочих равных условиях y = 25.

Позволяет нам прогнозировать. И показать, насколько у зависим от x.

В классическом подходе мы рассматриваем x_i как неслучайную, детерминированную величину, а y_i как случайную.

За счет чего? За счет случайности e_i.

Предположения Гаусса – Маркова на e_i.

e_i – случайная величина, у которой E(e_i) = 0.

y_i = ₀+ ₁x_i + e_i,

где ₀+ ₁x_i – условное мат. ожидание. И для этого среднее ei должно быть равно 0!

e_i – случайная величина, у которой D(e_i) = ₁² = ₂²

Предположение о гомоскедастичности остатков.

Гетероскедастичность – с ростом (убыванием) x, разброс остатков растет (убывает).

– с уменьшением x, уменьшается разброс. Есть зависимость остатков от предиктора, это значит, что мы в модели учли не все.

Гомоскедастичность – нет зависимости.

Corr (ei; ej) = 0 для любого ij. Предположение об отсутствии АК.
Corr (ei; xi) = 0.

Нет корреляции остатка и предиктора (т.е. с ростом x растет сам остаток или с уменьшением – уменьшается).

И еще одно предположение отдельное (не входит в набор Гаусса-Маркова):

5*. Ei ~ N (0; ²). Это значит, что все значимое в модели мы учли.

Теорема Гаусса – Маркова.

Если выполняются четыре предположения, то МНК-оценки – наилучшие линейные несмещенные оценки.

Если мы предполагаем случайность величин оценок ₀^мнк с крышкой и ₁^мнк с крышкой, то они распределены нормально.

₀^мнк с крышкой ~ N (₀; ²/n)

₁^мнк с крышкой ~ N (₁; ²/ (x_i – x _ср.)²)

А ₀^мнк и ₁^мнк сами по себе константы и никакого распределения не имеют.

Насколько хороша модель?

Показателем качества модели является коэффициент детерминации.

[Может, сам x был неверно выбран? Т.е. не уровень урбанизации объясняет голосование за КПРФ, а что-то другое надо было брать].

Коэффициент детерминации – R² = квадрат коэффициента корреляции Пирсона между x и y.

F – критерий.

H0: достаточно константы (модель плоха).

VS H1: модель лучше константы.

Определяем уровень значимости. Пусть альфа = 0,05.

Вводим статистику критерия. И определяем распределение статистики при нулевой гипотезе.

F = R² / [(1 – R²) / (n – 2)] ~ F (1; n-2),

где n – число наблюдений.

Определяем доверительную зону (по таблице).

Рассчитываем наблюденное значение статистики.

Принимаем решение.

Критерий F: отвергать H0 в пользу H1 на уровне значимости 0,05, если наблюденное значение статистики F критерия не попало в доверительную зону.

Можно ли считать ₁^мнк с крышкой отличным от нуля?

y_i = ₀ + ₁ * x_i + _i

Формулируем нулевую гипотезу.

H0: ₁^мнк с крышкой = 0.

VS H1: ₁^мнк с крышкой 0.

Определяем уровень значимости. Пусть альфа = 0,05.

Вводим статистику критерия, определяем ее распределение при нулевой гипотезе:

t = [₁^мнк с крышкой / с.о. (₁)] ~ t (n – 2) при нулевой гипотезе,

где с.о. – это станд. ошибка, 2 станд. откл.

Определяем доверительную зону (по таблице).

Рассчитываем наблюденное значение статистики.

Принимаем решение.

Критерий е: отвергать H0 в пользу H1 на уровне значимости 0,05, если наблюденное значение статистики F критерия не попало в доверительную зону.

Доп. лекция по регрессии:

Условным мат. ожидание y при условии x называется мат. ожидание y при конкретном значении x.

E (Y| X=x) = yi P (X=yi|X=x)

E (Y| X) = ₀ + ₁x_i

Регрессия, по сути, представляет собой модель условного мат. ожидания.

y_i = E (Y| X) + e_i

(y_i – y _ср.) = ₀^* + ₁^*(x_i – x _ср.) + e_i

Регрессия не выявляет причинно-следственных связей, их задает сам исследователь при постановке задачи.

Разложение вариации.

Качество регрессии определяется тем, в какой мере отклонения y от своего у ср. определяются отклонениями x от своего x ср., т.е. тогда, когда доля вариации y, обусловленная вариацией x, высока.

Вариация y – оценка дисперсии y.

1/n (y_i – y _ср.)² = 1/n (y_i – y_i с крышкой)²+ 1/n (y_i с крышкой – y _ср.)²

Общ. сумм. кв. Остаточная сумма кв. Объясн. сумм. кв.

TSS RSS ESS

TSS = RSS + ESS

Критерий качества модели (коэф. детерминации).

Коэф. дет. – доля объясн. вар. отклика.

R² = ESS / TSS = (TSS – RSS) / TSS = 1 – RSS/TSS

RSS = (e_i)²

F-критерий (критерий Фишера).

H0: R² = 0

VS H1: R² > 0

Альфа = 0,05.

Статистика критерия:

F = (ESS/1) / [RSS/(n – 2)], что есть частный случай от (ESS/k) / [RSS/(n – k – 1)].

F ~ F (1, n – 2) при нулевой гипотезе.