Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, могут ли учащиеся с высоким уровнем тревожности демонстрировать стабильные академичес­кие достижения, или связана ли продолжительность работы учителя в школе с размером его заработной платы, или с чем больше связан уровень умственного развития учащихся — с их успеваемостью по математике или по литературе и т.п.?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционнаясвязь — это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Чем ближе модуль коэффициента корреляции к единице, тем сильнее или глубже корреляционная взаимосвязь между двумя вариационными рядами. Модульное значение выше 0,8 характеризуют сильную взаимосвязь, в интервале 0,8-0,5 – выраженную взаимосвязь, 0,5-0,2 – слабую взаимосвязь, менее 0,2 (0,2 – 0) – отсутствие взаимосвязи.

Коэффициент корреляции для нормально распределенных наблюдений (коэффициент корреляции Пирсона) рассчитывается по формуле (2.1):

, (2.1)

где и – варианты сопоставляемых вариационных рядов, и – отклонение каждой варианты от своей средней арифметической ( и ).

В случае работы с данными, распределение которых отлично от нормального, необходимо пользоваться ранговыми методами – вычислять коэффициент корреляции Кендалла (для порядковых переменных) или, лучше, коэффициент корреляции Спирмена (непараметрический аналог коэффициента Пирсона для интервальных и порядковых переменных). Коэффициент Пирсона равен единице (или минус единице) тогда и только тогда, когда две переменные (х и у) связаны линейной зависимостью ( ). Коэффициент Спирмена (или Кендалла) равен 1, если две переменные связаны правилом: большему значению переменной х всегда соответствует большее значение переменной у. Чем ниже коэффициент корреляции, тем сильнее отклонение от этих правил.

Практическая часть

Задача 1

Нужно определить корреляционную связь между этими двумя выборками. Для этого в программу MedStat ввожу данные,как представлено на картинке:

Затем проверяю их на нормальность:

 

Змінна Var1 Критерій W Шапіро-Уілка перевірки розподілу на нормальність Об"єм вибірки N=21, W=0,936, рівень значущості p=>0,1 Розподіл не відрізняється від нормального на рівні значущості p=>0,1
Змінна Var2 Критерій W Шапіро-Уілка перевірки розподілу на нормальність Об"єм вибірки N=21, W=0,970, рівень значущості p=>0,1 Розподіл не відрізняється від нормального на рівні значущості p=>0,1

 

Как видно на скрине – данные не отличаются от нормальных. Соответственно, нужно вычислить коэфициент Пирсона(линейная корелляция):

Проверка значимости линейной корреляционной связи для двух выборок. Коэффициент корреляции Пирсона.

Переменные: Var1, Var2.

Объем выборки: N=21.

R=0,455, число степеней свободы k=19.

Существует линейная корреляционная связь, R>0 (R= 0,455) , на уровне значимости p=0,038.

Соответственно имеем линейную зависимость наших выборок. Представим в виде графического поля:

Вывод: Существует линейная корреляционная связь, R>0 (R= 0,455) , на уровне значимости p=0,038. Графическую зависимость представили в виде схемы.

 

Задание 2.

Изучалось влияние трех связующих веществ на технологические особенности покрытых таблеток. Таблетки получали по единой технологической схеме и подвергали контролю на стирание. Данные представлены в таблице.

 

Вещество Крахмальный клейстер Оксипропил-целлюлоза Натрия карбокси- метилцеллюлоза
Номер опыта
6.70 3.83 3.19
5.70 8.21 15.27
9.70 7.43 4.32
4.11 3.43 13.07
13.25 9.03 12.81
7.49 4.14 7.22
9.30 6.42 6.70
13.98 6.64 9.47
7.59 1.47 6.05
7.33 4.17 9.15
7.96 5.88 8.73
6.95 7.67  
3.82 3.45  
8.33 4.53  

 

Сравнить степень истираемости таблеток для вновь разработанных веществ (оксипропил-целлюлоза и натрия карбокси-метилцеллюлоза) со степенью истираемости таблеток, покрытых стандартным покрытием (крахмальный клейстер).

 

Решение

Составим таблицу данных:

В ходе вычислений, были получены результаты:

Переменная Var1

Критерий W Шапиро-Уилка проверки распределения на нормальность

Объем выборки N=11, W=0,958, уровень значимости p=>0,1

Распределение не отличается от нормального на уровне значимости, p=>0,1

 

Переменная Var3

Критерий W Шапиро-Уилка проверки распределения на нормальность

Объем выборки N=14, W=0,967, уровень значимости p=>0,1

Распределение не отличается от нормального на уровне значимости, p=>0,1

Доверительный интервал для среднего в случае нормального распределения.

Доверительные интервалы представляют оценку в некоторой перспективе и позволяют избежать необходимости указывать одно и то же число как точное значение, в то время как фактически в биологии это число точным никогда и не является.

При интерпретации ДИ исследователь формулирует следующие вопросы:

Широкий ДИ указывает на менее точную оценку, узкий - на более точную оценку.

 

График для среднего нормального распределения.

Верхние и нижние пределы показывают, будут ли результаты клинически (биологически) значимы.

Можно проверить, попадает ли вероятное значение для параметра популяции в пределыДИ. Если да, то результаты согласуются с этим вероятным значением. Если нет, то маловероятно (для 95%ДИшанс меньше 5%), что параметр имеет это значение.

Вывод:

В результате исследования были сравнены степень истираемости таблеток для вновь разработанных веществ (оксипропил-целлюлоза и натрия карбокси-метилцеллюлоза) со степенью истираемости таблеток, покрытых стандартным покрытием. На основании результатов делаем вывод, что наибольшую истираемость получил 1 препарат, наименьшую второй.