Теоретический материал. Пусть некоторый объект характеризуется двумя признаками
Пусть некоторый объект характеризуется двумя признаками. Между признаками Х и Y могут существовать различные виды зависимостей.
Функциональная зависимость, когда каждому значению признака X соответствует единственное значение признака Y. Зависимость задается в виде функции
.
Статистическая зависимость, когда каждому значению признака X соответствует статистическое распределение признака Y. Зависимость задается в виде корреляционной таблицы.
Корреляционная зависимость - это частный случай статистической зависимости, когда каждому значению признака X соответствует среднее значение признака Y:
и связь между ними достаточно хорошо описывается функцией
, называемой уравнением регрессии Y по X. Аналогично каждому значению Y соответствует среднее значение признака. X:
и эта зависимость описывается в виде функции
, называемой уравнением регрессии X по Y.
Корреляционная зависимость задается уравнением регрессии.
Две основные задачи теории корреляции:
1) Оценить силу (тесноту) связи между признаками Х и Y;
2) Найти вид (форму) этой связи в виде уравнения регрессии.
Наиболее простой и употребляемый вид связи - линейная связь. Она задается уравнением линейной регрессии
и изображается на графике в виде прямой регрессии.
Пример
По данным корреляционной таблицы найти условные средние
и
. Оценить тесноту линейной связи между признаками
и
и составить уравнения линейной регрессии
по
и
по
. Оценить силу связи между признаками с помощью корреляционного отношения.

Решение: В таблице, данной по условию задачи, приведены полученные в результате выборочных наблюдений значения признака X (верхняя горизонтальная строка) и признака Y (первый вертикальный столбец). Каждой паре значений (X;Y) соответствует частота
, стоящая на пересечении соответствующих строки и столбца. Частота
показывает, сколько раз наблюдается каждая пара значений.
Например: пара значений
наблюдалась 8 раз, пара значений
наблюдалась 40 раз и т.д.
Пустые клетки означают, что соответствующие им пары значений не наблюдались.
В нижней итоговой строке данной таблицы напротив каждого значения признака X проставляется соответствующая ему частота
, равная сумме всех частот столбца и указывающая, сколько раз всего наблюдается данное значение X. Аналогично в последнем итоговом столбце напротив каждого значения Y записывают соответствующую ему частоту
, равную сумме частот по строке и указывающую, сколько раз всего наблюдалось данное значение Y. Очевидно, что суммы всех частот для
и для
должны быть равны между собой и показывать объем выборки (количество наблюдаемых пар):

Объем выборки
представляется в последней клетке таблицы.
В таблице каждому значению X соответствует статистическое распределение признака У.
Например, для
:

Отсюда находим среднее значение Y при условии, что Х = 30, или условную среднюю:

Аналогично каждому значению Y соответствует статистическое распределение по X.
Например, для
:

Отсюда находим среднюю условную:

Не выписывая далее статистических распределений, а, беря их непосредственно из данной корреляционной таблицы, найдем все условные средние по формулам:
,
,
;
;
;
;
;
;
;
;
;
.
Оценка тесноты линейной связи между признаками X и Y производится с помощью коэффициента линейной корреляции
:
.
Коэффициент
может принимать значения от -1 до +1, то есть:
или
.
Знак
указывает на вид связи: прямая или обратная. Абсолютная величина
указывает на силу (тесноту) связи.

При
связь прямая, то есть с ростом X растет Y.
При
связь обратная, то есть с ростом X убывает Y.
Для нахождения
вычислим указанные общие средние:
а также средние квадратические отклонения
и
. Вычисления удобно поместить в таблицах 2 и 3, куда вписываем также найденные ранее условные средние. 
Контроль:
.
В рассматриваемой задаче эта сумма в обеих таблицах равна 234560. Равенство может оказаться приближенным, что связано с приближенными вычислениями условных средних
и
.
С помощью таблиц 2 и 3 находим общие средние, средние квадратов, среднюю произведения и средние квадратические отклонения:
;
;
;
;
;
;
;
Отсюда коэффициент корреляции равен:
;
Так как
, то связь обратная, то есть с ростом X убывает Y.
Так как
, то по таблице 1 определяем, что линейная связь высокая.
Находим линейное уравнение регрессии У по X:



Аналогично находим линейное уравнение регрессии Х по Y:



Данные уравнения устанавливает связь между признаками X и Y, и позволяют найти среднее значение признака
для каждого значения X и аналогично среднее значение признака
для каждого значения Y.
Если линейная связь слабая, то это не исключает наличия между признаками Х и Y нелинейной (криволинейной) связи. Оценка тесноты любой связи между признаками (линейной и нелинейной) производится с помощью корреляционных отношений Y по Х и Х по Y:
;
.
Дисперсии
, называемые внутригрупповыми, определены ранее. Их можно было также посчитать по формулам:


Они характеризуют разброс фактических значений от общих средних.
Все величины
называются межгрупповыми дисперсиями и вычисляются по формулам:


Они характеризуют разброс условных средних от общей средней. В данной задаче:
.
.
Находим:
;
.
Тогда корреляционные отношения равны:


Замечание. Следует отметить, что корреляционное отношение всегда принимает значение от 0 до 1, причем оно не меньше, чем коэффициент корреляции, взятый по модулю, то есть
.
В нашем примере: 0 < 0.72 < 0.82 < 1; 0 < 0.72 < 0.72 < 1.
Ответ. Корреляционная связь между признаками высокая, ее можно описать линейными уравнениями:
;
.