Понятие о регрессионном анализе.

Регрессия определяет математическую зависимость между зависимой переменной (отклик) и одной или более независимыми переменными (предикторами).

Регрессионный анализ с помощью коэффициента регрессии позволяет количественно прогно­зировать изменения одной переменной при изменении другой. Для описания связи могут использоваться различные математические функции:

■ линейная

■ экспоненциальная

■ логистическая

Простая линейная регрессия или множественная регрессия могут применяться для непрерывных признаков, например, давление, вес.

Логистическая регрессия применима в тех случаях, когда зависимые признаки являются бинарными (например, умер/жив, выздоровел/не выздоровел).

Линейная регрессия

Математическое уравнение, которое оценивает линию простой линейной регрессии:

Y=a+bx.

х - называется предиктором – независимой или объ­ясняющей переменной.

Для данной величины х, Y — значение переменной у (называемой зависимой, выходной переменной, или переменной отклика), которое расположено на линии оценки. Это есть значение, которое мы ожидаем для у (в среднем), если мы знаем величину х, и называется она «предсказанное значение у» (рис. 5).

а — свободный член (пересечение) линии оценки; это значение Y, когда х=0.

b - угловой коэффициент или градиент оценённой линии; он представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем х на одну единицу (рис. 5).

Например: при увеличе­нии температуры тела человека на 1oС, частота пульса увеличи­вается в среднем на 10 ударов в минуту.

b называют коэффициентом регрессии

Рисунок 5 Линия линейной регрессии, показывающая пересе­чение а и угловой коэффициент b (величину возрастания Y при увеличении х на одну единицу)

Математически решение уравнения линей­ной регрессии сводится к вычислению параметров а и b таким образом, чтобы точки исходных данных корреляционного поля как можно ближе лежали к прямой регрессии.

Статистическое использование слова «регрессия» исхо­дит из явления, известного как регрессия к среднему, приписываемого сэру Френсису Гальтону (1889). Он показал, что, хотя высокие отцы имеют тенден­цию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).

Мы наблюдаем регрессию к среднему при скрининге и клинических исследованиях, когда подгруппа пациентов может быть выбрана для лечения потому, что их уровни определённой переменной, скажем, холе­стерина, крайне высоки (или низки). Если это изме­рение через некоторое время повторяется, средняя величина второго считывания для подгруппы обычно меньше, чем при первом считывании, имея тенден­цию (т.е. регрессируя) к среднему, подобранному по возрасту и полу в популяции, независимо от лечения, которое они могут получить. Пациенты, набранные в клиническое исследование на основе высокого уровня холестерина при их первом осмотре, таким образом, вероятно, покажут в среднем падение уровня холесте­рина при втором осмотре, даже если в этот период они не лечились.

Часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

Насколько хорошо линия регрессии согласуется с данными, можно судить, рассчитав коэффициент R (обычно выражен­ный в процентах и называемый коэффициентом детерминации), который равняется квадрату коэффициента корреляции (r2). Он представляет собой долю или процент дисперсии у, который можно объяснить связью с х, т.е. долю вариации признака-результата, сложившуюся под влиянием независимого признака. Может принимать значения в диапазоне от 0 до 1, или соответственно от 0 до 100%. Разность (100% - R) представляет собой процент дисперсии у, который нельзя объяснить этим взаимодействием.

Пример

Соотношение между ростом (измеренным в см) и систолическим артериальным давлением (САД, измеренным в мм рт. ст.) у детей. Мы провели ана­лиз парной линейной регрессии зависимости САД от роста (рис. 6). Имеется существенное линейное соот­ношение между ростом и САД.

 

 

 

Рисунок 6 Двухмерный график, показывающий соотношение между систолическим артериальным давлением и ростом. Изображена оценённая линия регрессии, систолическое артериальное давление.

Уравнение линии оценён­ной регрессии имеет следующий вид:

САД=46,28+0,48 х рост.

В этом примере свободный член не представля­ет интереса (рост, равный нулю, явно вне диапазона величин, наблюдаемых в исследовании). Однако мы можем интерпретировать угловой коэффициент; предсказано, что у этих детей САД увеличивается в среднем на 0,48 мм рт.ст. при увеличении роста на один сантиметр

Мы можем применить уравнение регрессии для предсказания САД, которое мы ожидаем у ребёнка при данном росте. Например, ребёнок ростом 115 см имеет предсказанное САД, равное 46,28+(0,48х115)=101,48 мм рт. ст., ребёнок ростом 130 имеет предсказанное САД, 46,28+(0,48х130)=108,68 мм рт. ст.

При расчете коэффициента корреляции, установлено, что он равен 0,55, что указывает на прямую корреляционную связь средней силы. В этом случае коэффициент детерминации r2 =0,552=0,3. Таким образом, можно сказать, что доля влияния роста на уровень артериального давления у детей не превышает 30%, соответственно на долю других факторов приходится 70% влияния.

 

Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в связи присутствует более одной независимой переменной, тогда нам необходимо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит так:

y = a + bx1+b2x2 +.... + bnхn

Можно интересоваться результатом влияния несколь­ких независимых переменных х1 х2, .., хn на переменную отклика у. Если мы полагаем, что эти х могут быть взаимозависимы, то не должны смотреть по отдельно­сти на эффект изменения значения одного х на у, но должны одновременно принимать во внимание величи­ны всех других х.

Пример

Поскольку между ростом и массой тела ребёнка существует сильная зависимость, можно поинтересоваться, изменяется ли также соотно­шение между ростом и систолическим артериальным давлением, если принять во внимание также и массу тела ребёнка и его пол. Множественная линейная регрессия позволяет изучить совместный эффект этих нескольких независимых переменных на у.

Уравнение множественной регрессии в этом случае может иметь такой вид:

САД=79,44 –(0,03 х рост)+ (1,18 х вес) + (4,23 х пол)*

* - (для признака пол используют значения 0 – мальчик, 1 - девочка)

Согласно этому уравнению, девочка, рост которой 115 см и масса тела 37 кг, будет иметь прогнозируемое САД:

САД = 79,44 – (0,03 х 115) + (1,18 х 37) + (4,23 х 1) = 123,88 мм.рт.ст.

 

Логистическая регрессия очень похожа на линейную; её применяют, когда есть интересующий нас бинарный исход (т.е. наличие/отсутствие симптома или субъекта, который имеет/не имеет заболевания) и ряд предикторов. Из уравнения логистической регрессии можно определить, какие предикторы влияют на исход, и, используя значения предикторов пациента, оценить вероятность того, что он/она будет иметь определён­ный исход. Например: возникнут или нет осложнения, будет лечение эффективным или не будет.

Начинают создания бинарной перемен­ной, чтобы представить эти два исхода (например, «имеет болезнь»=1, «не имеет болезни»=0). Однако мы не можем применить эти два значения как зависимую переменную в анализе линейной регрессии, посколь­ку предположение нормальности нарушено, и мы не можем интерпретировать предсказанные величины, которые не равны нулю или единице. Фактически, вместо этого мы берём вероятность того, что субъект классифицируется в ближайшую категорию (т.е. «имеет болезнь») зависимой переменной, и чтобы преодолеть математические трудности, применяют логистическое, преобразование, в уравнении регрессии.— натуральный логарифм отношения вероятности «болезни» (p) к вероятности «нет болезни»(1-p).

Интегративный процесс, называемый методом максимального правдоподобия, а не обычная регрессия (так как мы не можем применить процедуру линейной регрессии) создаёт из данных выборки оценку уравнения логистической регрессии

logit (p) = a + bx1+b2x2 +.... + bnхn

. logit (р) — оценка значения истинной вероятности того, что пациент с индивидуальным набором зна­чений для х1 ... хn имеет заболевание;

• а — оценка константы (свободный член, пересече­ние);

• b1, b2, ... , bn — оценки коэффициентов логистической регрессии.


9. Тестовые задания по теме:


1. ТЕРМИН «КОРРЕЛЯЦИЯ» В СТАТИСТИКЕ ПОНИМАЮТ КАК:

а) связь, зависимость

б) отношение, соотношение

в) функцию, уравнение

г) коэффициент

Правильный ответ а

2. СВЯЗЬ МЕЖДУ ПРИЗНАКАМИ МОЖНО СЧИТАТЬ СРЕДНЕЙ ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ:

а) r=0,13

б) r=0,45

в) r=0,71

г) r=1,0

Правильный ответ б

 

3.КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ R = - 0,82 ГОВОРИТ О ТОМ, ЧТО КОРРЕЛЯЦИОННАЯ СВЯЗЬ:

а) прямая, средней силы

б) обратная, слабая

в) прямая, сильная

г) обратная, сильная

Правильный ответ г

4. ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ В ДИАПАЗОНЕ ОТ 0 ДО 0,3 СИЛА СВЯЗИ ОЦЕНИВАЕТСЯ, КАК:

а) слабая

б) средняя

в) сильная

г) полная

Правильный ответ а

5. СВЯЗЬ МЕЖДУ ПРИЗНАКАМИ МОЖНО СЧИТАТЬ СИЛЬНОЙ ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ:

а) r= - 0,25

б) r=0,62

в) r= - 0,95

г) r= 0,55

Правильный ответ в

6. ЗАВИСИМОСТЬ, ПРИ КОТОРОЙ УВЕЛИЧЕНИЕ ИЛИ УМЕНЬШЕНИЕ ЗНАЧЕНИЯ ОДНОГО ПРИЗНАКА ВЕДЕТ К УВЕЛИЧЕНИЮ ИЛИ УМЕНЬШЕНИЮ – ВТОРОГО, ХАРАКТЕРИЗУЕТ СЛЕДУЮЩИЙ ВИД СВЯЗИ:

а) прямая

б) обратная

в) полная

г) неполная

Правильный ответ а

7.ЗАВИСИМОСТЬ, ПРИ КОТОРОЙ УВЕЛИЧЕНИЕ ОДНОГО ПРИЗНАКА ДАЕТ УМЕНЬШЕНИЕ ВТОРОГО ХАРАКТЕРИЗУЕТ СЛЕДУЮЩИЙ ВИД КОРРЕЛЯЦИОННОЙ СВЯЗИ:

а) прямая

б) обратная

в) полная

г) неполная

Правильный ответ б

8.КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА ОПРЕДЕЛЯЕТ:

а) статистическую значимость различий между переменными

б) степень разнообразия признака в совокупности

в) силу и направление связи между зависимой и независимой переменными

г) долю дисперсии результативного признака объясняемую влиянием независимых переменных

Правильный ответ в

9.УСЛОВИЕМ ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ПИРСОНА ЯВЛЯЕТСЯ:

а) распределение переменных неизвестно

б) нормальное распределение по крайней мере, одной из двух переменных

в) по крайней мере, одна из двух переменных измеряется в ранговой шкале

г) отсутствует нормальное распределение переменных

Правильный ответ б

10.РАНГОВЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ СПИРМЭНА РАССЧИТЫВАЕТСЯ, КОГДА:

а) присутствует нормальное распределение переменных

б) необходимо оценить связь между качественными и количественными признаками

в) необходимо определить статистическую значимость различий между переменными

г) необходимо оценить степень разнообразия признака в совокупности

Правильный ответ б

11. ЗАВИСИМОСТЬ, КОГДА КАЖДОМУ ЗНАЧЕНИЮ ОДНОГО ПРИЗНАКА СООТВЕТСТВУЕТ ТОЧНОЕ ЗНАЧЕНИЕ ДРУГОГО, НАЗЫВАЕТСЯ:

а) прямой

б) обратной

в) корреляционной

г) функциональной

Правильный ответ г

12. ЗАВИСИМОСТЬ, КОГДА ПРИ ИЗМЕНЕНИИ ВЕЛИЧИНЫ ОДНОГО ПРИЗНАКА ИЗМЕНЯЕТСЯ ТЕНДЕНЦИЯ (ХАРАКТЕР) РАСПРЕДЕЛЕНИЯ ЗНАЧЕНИЙ ДРУГОГО ПРИЗНАКА, НАЗЫВАЕТСЯ:

а) прямой

б) обратной

в) корреляционной

г) функциональной

Правильный ответ в

13. ДЛЯ ИЗОБРАЖЕНИЯ КОРРЕЛЯЦИОННОЙ ЗАВИСИМОСТИ ИСПОЛЬЗУЕТСЯ ГРАФИК:

а) линейный

б) график рассеяния точек

в) радиальный

г) динамический

Правильный ответ б

14.ЕСЛИ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ РАВЕН 1, ТО СВЯЗЬ ЯВЛЯЕТСЯ:

а) сильной, прямой

б) сильной обратной

в) средней, прямой

г) полной (функциональной), прямой

Правильный ответ г

15. СВЯЗЬ МЕЖДУ Y И X МОЖНО ПРИЗНАТЬ БОЛЕЕ СУЩЕСТВЕННОЙ ПРИ СЛЕДУЮЩЕМ ЗНАЧЕНИИ ЛИНЕЙНОГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ:

а) r= 0,35

б) r= 0,15

в) r= -0,57

г) r=0,46

Правильный ответ в

16. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ИСПОЛЬЗУЕТСЯ ДЛЯ ИЗУЧЕНИЯ:

а) взаимосвязи явлений

б) развития явления во времени

в) структуры явлений

г) статистической значимости различий между явлениями

Правильный ответ а

17. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ:

а) от 0 до 1

б) от -1 до 0

в) от -1 до 1

г) любые положительные

Правильный ответ в

 

18. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ:

а) от 0 до 1

б) от -1 до 0

в) от -1 до 1

г) любые положительные

Правильный ответ а

19. В РЕЗУЛЬТАТЕ ПРОВЕДЕНИЯ РЕГРЕССИОННОГО АНАЛИЗА ПОЛУЧАЮТ УРАВНЕНИЕ, ОПИСЫВАЮЩЕЕ ... ПОКАЗАТЕЛЕЙ:

а) взаимосвязь

б) соотношение

в) структуру

г) темпы роста

Правильный ответ а

 

20. ЛИНЕЙНАЯ СВЯЗЬ МЕЖДУ ФАКТОРАМИ ИССЛЕДУЕТСЯ С ПОМОЩЬЮ УРАВНЕНИЯ РЕГРЕССИИ:

а)

б)

в)

г)

Правильный ответ а

21. ПАРАМЕТР b (b= 0,016) ЛИНЕЙНОГО УРАВНЕНИЯ РЕГРЕССИИ ПОКАЗЫВАЕТ, ЧТО:

а) с увеличением признака "х" на 1 признак "у" увеличивается на 0,678

б) с увеличением признака "х" на 1 признак "у" увеличивается на 0,016

в) с увеличением признака "х" на 1 признак "у" уменьшается на 0,678

г) с увеличением признака "х" на 1 признак "у" уменьшается на 0,016

Правильный ответ б

22.НЕЗАВИСИМАЯ ПЕРЕМЕННАЯ В УРАВНЕНИИ РЕГРЕССИИ НАЗЫВАЕТСЯ:

а) вариантой

б) уровнем

в) предиктором

г) переменной отклика

Правильный ответ в

23.ЗАВИСИМАЯ ПЕРЕМЕННАЯ В УРАВНЕНИИ РЕГРЕССИИ НАЗЫВАЕТСЯ:

а) вариантой

б) уровнем

в) предиктором

г) переменной отклика

Правильный ответ г

24.ДЛЯ ПРОГНОЗИРОВАНИЯ ИЗМЕНЕНИЯ БИНАРНЫХ ПРИЗНАКОВ ПРИМЕНЯЕТСЯ СЛЕДУЮЩИЙ ВИД РЕГРЕССИИ:

а) линейная

б) экспоненциальная

в) полиноминальная

г) логиситческая

Правильный ответ г

25.ДЛЯ ОЦЕНКИ КОРРЕЛЯЦИОННОЙ СВЯЗИ МЕЖДУ КАЧЕСТВЕННЫМИ ПРИЗНАКАМИ ПРИМЕНЯЕТСЯ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ:

а) Пирсона

б) Спирмена

в) Кендела

г) Чупрова

Правильный ответ б

26. ДОЛЮ ВАРИАЦИИ ПРИЗНАКА-РЕЗУЛЬТАТА, СЛОЖИВШУЮСЯ ПОД ВЛИЯНИЕМ НЕЗАВИСИМОГО ПРИЗНАКА ОБЪЯСНЯЕТ КОЭФФИЦИЕНТ:

а) корреляции Пирсона

б) корреляции Спирмэна

в) детерминации

г) вариации

Правильный ответ в

27. ДЛЯ ИЗУЧЕНИЯ СВЯЗИ, В КОТОРОЙ ПРИСУТСТВУЕТ БОЛЕЕ ОДНОЙ НЕЗАВИСИМОЙ ПЕРЕМЕННОЙ ИСПОЛЬЗУЕТСЯ:

а) линейная регрессия

б) множественная регрессия

в) ранговая корреляция Спирмэна

г) расчет темпа прироста

Правильный ответ б

28.ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ СПИРМЭНА НЕОБХОДИМО:

а) расположить переменные в порядке возрастания

б) расположить переменные в порядке убывания

в) возвести переменные в квадрат

г) присвоить переменным в порядке возрастания последовательные ранги (номера 1, 2, 3, .., n)

Правильный ответ г

29.ЗАВИСИМОСТЬ ВЕСА ОТ РОСТА ЧЕЛОВЕКА (РОСТО-ВЕСОВОЙ ИНДЕКС) ОПИСЫВАЕТСЯ ПРИ ПОМОЩИ:

а) логистической регрессии

б) множественной регрессии

в) экспоненциальной регрессии

г) линейной регрессии

Правильный ответ г

30. ЗАВИСИМОСТЬ ПОЛОЖИТЕЛЬНОГО ИЛИ ОТРИЦАТЕЛЬНОГО РЕЗУЛЬТАТА ЛЕЧЕНИЯ ОТ РЯДА ФАКТОРОВ ОПИСЫВАЕТСЯ ПРИ ПОМОЩИ::

а) логистической регрессии

б) множественной регрессии

в) экспоненциальной регрессии

г) линейной регрессии

Правильный ответ а

 

31. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ИЗМЕРЯЕТСЯ В:

а) процентах

б) тех же единицах, что и изучаемый признак

в) промилле

г) не имеет единиц измерения

Правильный ответ г

 

32. ИЗ НИЖЕПЕРЕЧИСЛЕННЫХ ВЕЛИЧИН ДЛЯ ОПРЕДЕЛЕНИЯ РАЗМЕРА ОДНОГО ПРИЗНАКА ПРИ ИЗМЕНЕНИИ ДРУГОГО НА ЕДИНИЦУ ИЗМЕРЕНИЯ ПРИМЕНЯЕТСЯ:

а) среднеквадратическое отклонение;

б) коэффициент корреляции;

в) коэффициент регрессии;

г) коэффициент вариации.

Правильный ответ в