Элементы теории корреляции

График восстановленной функциональной зависимости y(x) по результатам измерений называется кривой регрессии. Для проверки согласия построенной кривой регрессии с результатами эксперимента обычно вводят следующие числовые характеристики:

- коэффициент корреляции (линейная зависимость);

- корреляционное отношение;

- коэффициент детерминированности.

При этом результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке этой таблицы приводятся численности тех пар (x, y) , компоненты которых попадают в соответствующие интервалы группировки по каждой переменной. Предполагая длины интервалов группировки (по каждой переменной) равными между собой, выбирают центры (соответственно ) этих интервалов и числа в качестве основы для расчетов.

Коэффициент корреляции является мерой линейной связи между зависимыми случайными величинами. Он показывает, насколько хорошо в среднем может быть представлена одна из величин в виде линейной функции от другой.

Коэффициент корреляции вычисляется по формуле:

, (8)

 

где и – среднее арифметическое значение соответственно по x и y.

Коэффициент корреляции между случайными величинами по абсолютной величине не превосходит 1. Чем ближе к 1, тем теснее линейная связь между x и y.

В случае нелинейной корреляционной связи условные средние значения располагаются около кривой линии. В этом случае в качестве характеристики силы связи рекомендуется использовать корреляционное отношение, интерпретация которого не зависит от вида исследуемой зависимости.

Корреляционное отношение вычисляется по формуле:

, (9)

где а числитель характеризует рассеяние условных средних около безусловного среднего .

Всегда . Равенство соответствует некоррелированным случайным величинам; равенство выполняется тогда и только тогда, когда имеется точная функциональная связь между y и x. В случае линейной зависимости y от x корреляционное отношение совпадает с квадратом коэффициента корреляции. Величина используется в качестве индикатора отклонения регрессии от линейной зависимости.

Корреляционное отношение является мерой корреляционной связи y с x в какой угодно форме, но не может дать представления о степени приближенности эмпирических данных к специальной форме.

Чтобы выяснить насколько точно построенная кривая отражает эмпирические данные, вводится еще одна характеристика – коэффициент детерминированности.

Для его описания рассмотрим следующие величины. - Полная сумма квадратов, где среднее значение . Можно доказать следующее равенство :

Первое слагаемое равно и называется остаточной суммой квадратов. Оно характеризует отклонение экспериментальных от теоретически полученных данных.

Второе слагаемое равно и называется регрессионной суммой квадратов. Оно характеризует разброс данных.

Очевидно, что справедливо следующее равенство

Коэффициент детерминированности определяется по формуле:

(10)

Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента детерминированности , который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y.

Коэффициент детерминированности всегда не превосходит корреляционное отношение. В случае, когда выполняется равенство то можно считать, что построенная эмпирическая формула наиболее точно отражает эмпирические данные.