Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, могут ли учащиеся с высоким уровнем тревожности демонстрировать стабильные академические достижения, или связана ли продолжительность работы учителя в школе с размером его заработной платы, или с чем больше связан уровень умственного развития учащихся — с их успеваемостью по математике или по литературе и т.п.?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционнаясвязь — это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Чем ближе модуль коэффициента корреляции к единице, тем сильнее или глубже корреляционная взаимосвязь между двумя вариационными рядами. Модульное значение выше 0,8 характеризуют сильную взаимосвязь, в интервале 0,8-0,5 – выраженную взаимосвязь, 0,5-0,2 – слабую взаимосвязь, менее 0,2 (0,2 – 0) – отсутствие взаимосвязи.

Коэффициент корреляции для нормально распределенных наблюдений (коэффициент корреляции Пирсона) рассчитывается по формуле (2.1):

, (2.1)

где и – варианты сопоставляемых вариационных рядов, и – отклонение каждой варианты от своей средней арифметической ( и ).

В случае работы с данными, распределение которых отлично от нормального, необходимо пользоваться ранговыми методами – вычислять коэффициент корреляции Кендалла (для порядковых переменных) или, лучше, коэффициент корреляции Спирмена (непараметрический аналог коэффициента Пирсона для интервальных и порядковых переменных). Коэффициент Пирсона равен единице (или минус единице) тогда и только тогда, когда две переменные (х и у) связаны линейной зависимостью ( ). Коэффициент Спирмена (или Кендалла) равен 1, если две переменные связаны правилом: большему значению переменной х всегда соответствует большее значение переменной у. Чем ниже коэффициент корреляции, тем сильнее отклонение от этих правил.

Практическая часть

Задача 1

Нужно определить корреляционную связь между этими двумя выборками. Для этого в программу MedStat ввожу данные,как представлено на картинке:

Затем проверяю их на нормальность:

Переменная Var1 Критерий W Шапиро-Уилка проверки распределения на нормальность Объем выборки N=5, W=0,902, уровень значимости p=>0,1 Распределение не отличается от нормального на уровне значимости, p=>0,1

Переменная Var2 Критерий W Шапиро-Уилка проверки распределения на нормальность Объем выборки N=5, W=0,943, уровень значимости p=>0,1 Распределение не отличается от нормального на уровне значимости, p=>0,1

Как видно на скрине – данные не отличаются от нормальных. Соответственно, нужно вычислить коэфициент Пирсона(линейная корелляция):

Представим графически вариационный ряд:

Вывод: Существует линейная корреляционная связь, R<0 (R= -0,931) , на уровне значимости p=0,022. Это говорит о том, что количество посещений аптеки прямолинейно зависит от температуры воздуха.

Задача 2. Решение:

1. Используем программу MedStat для вычисления P эффективности прививок:

2. Оценить эффективность препарата можно с помощью расчёта рисков:

3) Определение доверительного интервала. Угловое преобразование Фишера.

Вывод: по полученным данным и по графику видно, что уровни летальности больных с острой кишечной непроходимостью в больнице А больше на 2%, чем во второй больнице. Отсюда вывод: эффективность лечения в больнице Б лучше чем в больнице А