Коэффициент корреляции Пирсона

Общие положения

· Коэффициент корреляции: ; причем ковариация случайных величин и равна (разность математического ожидания произведения случайных величин и произведения математических ожиданий каждой величины)

· Смысл:коэффициент корреляции показывает меру связи случайных величин;

· Область значений коэффициента (допустимые значения): [-1;1];

o отрицательные значения – отрицательная связь (монотонно убывающая);

o если коэффициент корреляции равен -1 или 1, то тогда величины и линейно связаны, то есть таким и , что

o для независимых случайных величин коэффициент корреляции (если он существует), равен нулю.

Коэффициент корреляции Пирсона

· Расчетная формула:

· Проверка равенства коэффициента нулю: есть ли основания полагать, что посчитанное нами число значимо отличается от 0.

o надо посчитать граничные точки и - , между которыми будет меняться нулевой коэффициент корреляции.

o (n – размер одной из выборок);

o смотрим по таблицам Стьюдента и считаем , потом смотрим, куда попал коэффициент Пирсона;

· Проблема:чувствительность к выбросам – нетипичным, резко выделяющимся наблюдениям.

· Пример в политологии: связь политических предпочтений с чем угодно – пол, возраст, вес. Например, за Путина голосовали толстые

 

15. Изучение связи качественных признаков: анализ таблиц сопряженности. Внешний вид таблицы сопряженности. Статистические средства анализа таблицы сопряженности: критерий 2 К.Пирсона. Примеры применения в политологии. (прошлый год)

· Анализ таблиц сопряженности используется для выявления связи между двумя качественными признаками. У каждого из них есть конечное число «значений». (Например, для признака «пол» значения «мужской» и «женский»).

Таблица сопряженности:

A\B  
 
  • Величины n в правом крайнем столбце – суммы значений n по строкам,
  • Величины n нижней строки таблицы – суммы по столбцам
  • В правом нижнем углу - общая сумма всех наблюдений, необходимая для подсчета вероятностей.

· Смысл всего анализа - сопоставить ожидаемые (теоретические) вероятности и наблюдаемые (практические).

· Алгоритм действий

1. Выдвигаем гипотезу о независимости признаков:

2. Вычисляем ожидаемые частоты по формуле

(произведение сумм по строкам и сумм по столбцам; ожидаемые потому что при условии выполнения гипотезы)

3. Вычисляем наблюдаемую вероятность по формуле:

4. Мерой согласия опытных данных с теорией будет критерий хи-квадрат. Число степеней свободы считается по формуле , то есть для матрицы два на два, будет одна степень свободы

 

5. Считаем величину, по следующей формуле:

 

 

6. Полученную сумму (получается, что для каждой клеточки считаем мегадробь, а потом их суммируем) сравниваем с верхней процентной точкой (есть специальные таблицы). Если полученное значение больше, то гипотеза отвергается и у наших признаков есть связь, они зависимы.

 

· Пример использования: есть ли связь между полом и голосованием за какого-то кандидата (в столбцы загоняем пол – мужской/женский, а кандидатов в строки – Путин, Медведев, Зюганов; в столбики забиваться будет количество людей, проголосовавших за одного из этих парней)

Вопрос №16.

Простая линейная регрессия: постановка задачи, графическая интерпретация. Метод наименьших квадратов и МНК-оценки коэффициентов модели. Коэффициент детерминации. Проверка гипотез о коэффициентах при предикторах и качестве модели. (Бочарова А)

Регрессия. 1862 г. Sir Francis Galton “Regression towards Mediocrity hereditary stature”.

Психометрика, биология, коэффициент корреляции.

i yi xi
y1 x1
y2 x2
y3 x3
n yn xn

Задача парной регрессии – описание изменчивости y с помощью изменчивости x.

Y – отклик, эндогенная переменная.

X – предиктор, регрессор, ковариата, фактор, экзогенная переменная.

 

Линейная регрессия:

yi = 0 + 1 * xi + i – уравнение парной линейной регрессии (простой линейной регрессии).

[Например, x – уровень урбанизации, y – поддержка партии КПРФ] по регионам РФ.

Точки – регионы РФ.

Описать взаимосвязь x и y в среднем.

Понять, чему в среднем будет равен y, если x равен конкретному числу.

Задача – построить прямую, которая будет лежать максимально близко к точке, т.е. наименьшие отклонения.

yi = 0 + 1 * xi + i

|________|

yi с крышкой= 0 + 1 * xi – все лежат на прямой, т.к. это уравнение прямой.

|

Это прогнозный отклик.

Мат. ожидание отклика при должном значении предиктора.

yi с крышкой = E (y|xi)

yi = yi с крышкой + ei

ei – ошибка, остаточный член, случайный член (графически это вертикальная палочка до прямой регрессии).

 

Наша цель – подобрать такие 0 и 1, чтобыпрямаялежала наиболее близко к точкам.

1821 – 1822гг. – МНК.

 

yi = 0 + 1 * (xi – x ср.) + i

Для того чтобы перенести ось в точку среднего значения x из точки (0;0).

 

Лаплас предложил использовать модули, чтобы отрицательные значения не гасили положительные.

НО: этот метод тогда не стал востребованным, поскольку не умели дифференцировать в точке минимуму = |x|.

Тогда К. Гаусс предложил брать квадраты.

= ei2 min

= (yi01 (xi – x ср.))2 min

0, 1

Ищем производную и приравниваемее к нулю, т.к. производная это тангенс угла наклона касательной к графику.

Решаем систему уравнений:

0 = (– 2 (yi01 (xi – x ср.))) = 0

1 = (– 2 (yi01 (xi – x ср.))) (xi – x ср.) = 0

 

Решаем уравнения по отдельности. Сначала первое.

0 = (– 2 (yi01(xi – x ср.))) = 0

Сокращаем на минус два.

yi – n01 (xi – x ср.) = 0

Учитываем, что 1 (xi – x ср.) = 0,

т.к. x ср. = xi /n,

xi = nx ср.

(xi – x ср.) = xi – x ср.n = x ср.n – x ср.n = 0

 

Тогда

yi – n0 = 0

  0 мнк с крышкой = yi / n = уср.  

 

 

МНК-оценка 0 – наша оценка значения 0 с помощью МНК, МНК-оценка первого коэффициента модели.

 

МНК-оценка 1

Решаем второе уравнение из системы.

1 = (– 2 (yi01 (xi – x ср.))) (xi – x ср.) = 0

Сокращаем на минус два.

((yi – y ср.) *(xi – x ср.) – 1 (xi – x ср.)2) = 0

((yi – y ср.) *(xi – x ср.)) – 1 (xi – x ср.)2 = 0

  1 мнк с крышкой = ((yi – y ср.) *(xi – x ср.)) / (xi – x ср.)2  

 

1 мнк с крышкой = R * ( (yi – y ср.)2 )0,5 / ( (xi – x ср.)2)0,5,

где R – коэффициент корреляции Пирсона.

 

Рассмотрим на примере.

Допустим,

0 мнк с крышкой = 25

1 мнк с крышкой = 0,7

yi = 25 + 0,7xi + exi

yi с крышкой = 25 + 0,7xi

 

Интерпретации МНК-оценок коэффициентов модели

Интерпретация 1 мнк с крышкой.

С ростом x на единицу y в среднем при прочих равных условиях увеличивается на 0,7.

Интерпретация 0 мнк с крышкой.

Если x = 0, то в среднем при прочих равных условиях y = 25.

Позволяет нам прогнозировать. И показать, насколько у зависим от x.

 

В классическом подходе мы рассматриваем xi как неслучайную, детерминированную величину, а yi как случайную.

За счет чего? За счет случайности ei.

 

Предположения Гаусса – Маркова на ei.

  1. ei – случайная величина, у которой E(ei) = 0.

yi = 0 + 1xi + ei,

где 0 + 1xi – условное мат. ожидание. И для этого среднее ei должно быть равно 0!

  1. ei – случайная величина, у которой D(ei) = 12 = 22

Предположение о гомоскедастичности остатков.

Гетероскедастичность – с ростом (убыванием) x, разброс остатков растет (убывает).

– с уменьшением x, уменьшается разброс. Есть зависимость остатков от предиктора, это значит, что мы в модели учли не все.

Гомоскедастичность – нет зависимости.

  1. Corr (ei; ej) = 0 для любого ij. Предположение об отсутствии АК.
  2. Corr (ei; xi) = 0.

Нет корреляции остатка и предиктора (т.е. с ростом x растет сам остаток или с уменьшением – уменьшается).

И еще одно предположение отдельное (не входит в набор Гаусса-Маркова):

5*. Ei ~ N (0; 2). Это значит, что все значимое в модели мы учли.

 

Теорема Гаусса – Маркова.

Если выполняются четыре предположения, то МНК-оценки – наилучшие линейные несмещенные оценки.

 

Если мы предполагаем случайность величин оценок 0 мнк с крышкой и 1 мнк с крышкой, то они распределены нормально.

0 мнк с крышкой ~ N (0; 2/n)

1 мнк с крышкой ~ N (1; 2/ (xi – x ср.)2)

А 0 мнк и 1 мнк сами по себе константы и никакого распределения не имеют.

 

Насколько хороша модель?

Показателем качества модели является коэффициент детерминации.

[Может, сам x был неверно выбран? Т.е. не уровень урбанизации объясняет голосование за КПРФ, а что-то другое надо было брать].

Коэффициент детерминации – R2 = квадрат коэффициента корреляции Пирсона между x и y.

 

F – критерий.

H0: достаточно константы (модель плоха).

VS H1: модель лучше константы.

Определяем уровень значимости. Пусть альфа = 0,05.

Вводим статистику критерия. И определяем распределение статистики при нулевой гипотезе.

F = R2 / [(1 – R2) / (n – 2)] ~ F (1; n-2),

где n – число наблюдений.

Определяем доверительную зону (по таблице).

Рассчитываем наблюденное значение статистики.

Принимаем решение.

Критерий F: отвергать H0 в пользу H1 на уровне значимости 0,05, если наблюденное значение статистики F критерия не попало в доверительную зону.

 

Можно ли считать 1 мнк с крышкой отличным от нуля?

yi = 0 + 1 * xi + i

Формулируем нулевую гипотезу.

H0: 1 мнк с крышкой = 0.

VS H1: 1 мнк с крышкой 0.

Определяем уровень значимости. Пусть альфа = 0,05.

Вводим статистику критерия, определяем ее распределение при нулевой гипотезе:

t = [1 мнк с крышкой / с.о. (1)] ~ t (n – 2) при нулевой гипотезе,

где с.о. – это станд. ошибка, 2 станд. откл.

Определяем доверительную зону (по таблице).

Рассчитываем наблюденное значение статистики.

Принимаем решение.

Критерий е: отвергать H0 в пользу H1 на уровне значимости 0,05, если наблюденное значение статистики F критерия не попало в доверительную зону.

 

 

Доп. лекция по регрессии:

Условным мат. ожидание y при условии x называется мат. ожидание y при конкретном значении x.

  E (Y| X=x) = yi P (X=yi|X=x)

E (Y| X) = 0 + 1xi

Регрессия, по сути, представляет собой модель условного мат. ожидания.

yi = E (Y| X) + ei

(yi – y ср.) = 0* + 1*(xi – x ср.) + ei

 

Регрессия не выявляет причинно-следственных связей, их задает сам исследователь при постановке задачи.

 

Разложение вариации.

Качество регрессии определяется тем, в какой мере отклонения y от своего у ср. определяются отклонениями x от своего x ср., т.е. тогда, когда доля вариации y, обусловленная вариацией x, высока.

Вариация y – оценка дисперсии y.

 

1/n (yi – y ср.)2 = 1/n (yi – yi с крышкой)2 + 1/n (yi с крышкой – y ср.)2

Общ. сумм. кв. Остаточная сумма кв. Объясн. сумм. кв.

TSS RSS ESS

TSS = RSS + ESS

 

Критерий качества модели (коэф. детерминации).

Коэф. дет. – доля объясн. вар. отклика.

R2 = ESS / TSS = (TSS – RSS) / TSS = 1 – RSS/TSS

RSS = (ei)2

 

F-критерий (критерий Фишера).

H0: R2 = 0

VS H1: R2 > 0

Альфа = 0,05.

Статистика критерия:

F = (ESS/1) / [RSS/(n – 2)], что есть частный случай от (ESS/k) / [RSS/(n – k – 1)].

F ~ F (1, n – 2) при нулевой гипотезе.