Корреляционный и регрессионный анализы.

Основные понятия:

3.1. Статистическая зависимость ее отличие от функциональной зависимости.

В медико-биологических исследованиях в большинстве случаев между переменными величинами существуют зависимости такого вида, когда каждому значению одной переменной (Х) соответствует не какое-то одно определенное, а множество значений другой переменной(Y), причем нельзя сказать заранее, какое именно значение примет зависимая величина Y. Такая зависимость получила название статистической (или стохастической, вероятностной). Наиболее часто появление такой зависимости объясняется действием на результирующую переменную не только контролируемого фактора или контролируемых факторов (в данном случае таким контролируемым фактором является переменная Х), а и многочисленных неконтролируемых случайных факторов:

X Y1, Y2, … ,Yn

Например, если Х- количество вводимого объекту препарата, то его концентрация в крови Y в произвольный момент времени статистически зависит от величины Х, т.к. определяется не только количеством вводимого препарата, но и многими другими случайными факторами (масса тела пациента, скорость выведения вещества из организма, и т.д.)

Простейшим визуальным способом выявить наличие взаимосвязи между количественными переменными является построение диаграммы рассеяния (scatterplot). Это график, на котором по горизонтальной оси (X) откладывается одна переменная, по вертикальной (Y) другая. Каждому объекту на диаграмме соответствует точка, координаты которой равняются значениям пары выбранных для анализа переменных.

 

Пример. Диаграмма рассеяния (scatterplot), представляющая зависимость между численностью рабочих на фармацевтическом предприятии и доходом предприятий

(при одной и той же численности персонала прибыльность предприятий различна)

Понять особенность статистической зависимости проще, если сравнить её с хорошо знакомой из курса математики функциональной зависимостью – зависимостью вида, когда каждому возможному значению случайной величины Х соответствует одно возможное значение случайной величины Y . Например, длина окружности связана с радиусом окружности функциональной зависимостью вида Y=2πX.

X Y

В простейшем случае линейной зависимости, чем больше значения одного признака, тем больше значения другого, и чем меньше значения одного признака, тем меньше значения другого.

График, представляющий линейную функциональную зависимость.

3.2. Корреляционная зависимость:

Линии регрессии.

Допустим, что существует стохастическая зависимость случайной переменной Y от Х. Зафиксируем некоторое значение х переменной Х. Переменная Y, в силу ее случайной зависимости от Х, может принять любое значение из некоторого множества, причем какое именно – заранее не известно. Поэтому, прежде всего, стараются выяснить, изменяется или нет при изменении Х математическое ожидание Y.

X

Если при изменении X математические ожидания М(Y) изменяются, то говорят, что имеет место корреляционная[1] зависимость величины Y от Х.

Примерами корреляционных зависимостей являются рассмотренная выше статистическая зависимость между дозой лекарственного препарата и его содержанием в крови, зависимость между ростом человека и его массой, порядковым номером рождения и мотивацией достижений.

Интересно, существует ли корреляционная зависимость между массой человека и его IQ?

Функция же f(х)=М(Y), описывающая изменение математического ожидания случайной переменной Y при изменении значений переменной Х, называется функцией регрессии Y на Х, а ее график – линией регрессии.

Термин «регрессия» ввёл в математическую статистику Френсис Гальтон. Гальтон был двоюродным братом Чарльза Дарвина по их деду — Эразмусу (Эразму) Дарвину. Семья Гальтон была известной и весьма успешной в сфере изготовления оружия и банкирском деле, в то время как Дарвины отличались в медицине и науке. После выхода книги Происхождение видов своего двоюродного брата Чарльза ДарвинаФренсис Гальтон стал биологом. В 1869 вышла книга «Наследственный гений» — венец научной работы Гальтона (В книге проанализирован обширный материал по «выдающимся людям». В рассуждениях он подошел к пониманию феномена нормального распределения признаков в человеческой популяции).

Сэр Фрэнсис Гальтон (англ. Francis Galton; 16 февраля 1822 — 17 января 1911) — английский исследователь, географ, антрополог и психолог; основатель дифференциальной психологии и психометрики.

Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему. Гальтон показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех отцов в популяции.

Если f(х) – линейная функция, то корреляционную зависимость можно описать с помощью уравнения вида

 

М(Y/х) =Bх+A, (2)

 

где А и В – некоторые параметры, а М(Y/х) – условное математическое ожидание наблюдавшихся значений Y, соответствующих Х=х.

Пусть в нашем распоряжении имеется лишь выборка ограниченного объема. Поэтому в этом случае речь может идти об оценке (приближенном выражении) функции регрессии.

В качестве оценок математических ожиданий принимают условные средние, которые находят по данным наблюдений (по выборке). Условным средним ух называют среднее арифметическое наблюдавшихся значений Y, соответствующих Х=х.

Условное математическое ожидание М(Y/х) является функцией от х, следовательно, его оценка, т.е. условное среднее ух, также функция от х; обозначив эту функцию через φ (х), получим уравнение ух = φ(х). Это уравнение называют выборочным уравнением регрессии; функцию φ (х) называют выборочной регрессией, а ее график – выборочной линией регрессии.

Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели.Если функция φ(х) линейная, то выборочное уравнение линейной регрессии Y на Х имеет вид:

 

yx=𝞺xy x + a (по аналогии с уравнением (2)),

 

где 𝞺xyвыборочный коэффициент линейной регрессии Y на X, . yxусловное среднее значение y для соответствующих Х=х.

Попробуем провести линию регрессии через облако точек на диаграмме рассеяния.