Теоретический материал. Пусть некоторый объект характеризуется двумя признаками

Пусть некоторый объект характеризуется двумя признаками. Между признаками Х и Y могут существовать различные виды зависимостей.

Функциональная зависимость, когда каждому значению признака X соответствует единственное значение признака Y. Зависимость задается в виде функции .

Статистическая зависимость, когда каждому значению признака X соответствует статистическое распределение признака Y. Зависимость задается в виде корреляционной таблицы.

Корреляционная зависимость - это частный случай статистической зависимости, когда каждому значению признака X соответствует среднее значение признака Y: и связь между ними достаточно хорошо описывается функцией , называемой уравнением регрессии Y по X. Аналогично каждому значению Y соответствует среднее значение признака. X: и эта зависимость описывается в виде функции , называемой уравнением регрессии X по Y.

Корреляционная зависимость задается уравнением регрессии.

Две основные задачи теории корреляции:

1) Оценить силу (тесноту) связи между признаками Х и Y;

2) Найти вид (форму) этой связи в виде уравнения регрессии.

Наиболее простой и употребляемый вид связи - линейная связь. Она задается уравнением линейной регрессии и изображается на графике в виде прямой регрессии.

Пример

По данным корреляционной таблицы найти условные средние и . Оценить тесноту линейной связи между признаками и и составить уравнения линейной регрессии по и по . Оценить силу связи между признаками с помощью корреляционного отношения.

Решение: В таблице, данной по условию задачи, приведены полученные в результате выборочных наблюдений значения признака X (верхняя горизонтальная строка) и признака Y (первый вертикальный столбец). Каждой паре значений (X;Y) соответствует частота , стоящая на пересечении соответствующих строки и столбца. Частота показывает, сколько раз наблюдается каждая пара значений.

Например: пара значений наблюдалась 8 раз, пара значений наблюдалась 40 раз и т.д.

Пустые клетки означают, что соответствующие им пары значений не наблюдались.

В нижней итоговой строке данной таблицы напротив каждого значения признака X проставляется соответствующая ему частота , равная сумме всех частот столбца и указывающая, сколько раз всего наблюдается данное значение X. Аналогично в последнем итоговом столбце напротив каждого значения Y записывают соответствующую ему частоту , равную сумме частот по строке и указывающую, сколько раз всего наблюдалось данное значение Y. Очевидно, что суммы всех частот для и для должны быть равны между собой и показывать объем выборки (количество наблюдаемых пар):

Объем выборки представляется в последней клетке таблицы.

В таблице каждому значению X соответствует статистическое распределение признака У.

Например, для :

Отсюда находим среднее значение Y при условии, что Х = 30, или условную среднюю:

Аналогично каждому значению Y соответствует статистическое распределение по X.

Например, для :

Отсюда находим среднюю условную:

Не выписывая далее статистических распределений, а, беря их непосредственно из данной корреляционной таблицы, найдем все условные средние по формулам: , ,

;

;

;

;

;

;

;

;

;

.

Оценка тесноты линейной связи между признаками X и Y производится с помощью коэффициента линейной корреляции :

.

Коэффициент может принимать значения от -1 до +1, то есть: или .

Знак указывает на вид связи: прямая или обратная. Абсолютная величина указывает на силу (тесноту) связи.

При связь прямая, то есть с ростом X растет Y.

При связь обратная, то есть с ростом X убывает Y.

Для нахождения вычислим указанные общие средние: а также средние квадратические отклонения и . Вычисления удобно поместить в таблицах 2 и 3, куда вписываем также найденные ранее условные средние.

Контроль: .

В рассматриваемой задаче эта сумма в обеих таблицах равна 234560. Равенство может оказаться приближенным, что связано с приближенными вычислениями условных средних и .

С помощью таблиц 2 и 3 находим общие средние, средние квадратов, среднюю произведения и средние квадратические отклонения:

;

;

;

;

;

;

;

Отсюда коэффициент корреляции равен:

;

Так как , то связь обратная, то есть с ростом X убывает Y.

Так как , то по таблице 1 определяем, что линейная связь высокая.

Находим линейное уравнение регрессии У по X:

Аналогично находим линейное уравнение регрессии Х по Y:

Данные уравнения устанавливает связь между признаками X и Y, и позволяют найти среднее значение признака для каждого значения X и аналогично среднее значение признака для каждого значения Y.

Если линейная связь слабая, то это не исключает наличия между признаками Х и Y нелинейной (криволинейной) связи. Оценка тесноты любой связи между признаками (линейной и нелинейной) производится с помощью корреляционных отношений Y по Х и Х по Y:

; .

Дисперсии , называемые внутригрупповыми, определены ранее. Их можно было также посчитать по формулам:

Они характеризуют разброс фактических значений от общих средних.

Все величины называются межгрупповыми дисперсиями и вычисляются по формулам:

Они характеризуют разброс условных средних от общей средней. В данной задаче:

.

.

Находим: ; .

Тогда корреляционные отношения равны:

Замечание. Следует отметить, что корреляционное отношение всегда принимает значение от 0 до 1, причем оно не меньше, чем коэффициент корреляции, взятый по модулю, то есть .

В нашем примере: 0 < 0.72 < 0.82 < 1; 0 < 0.72 < 0.72 < 1.

Ответ. Корреляционная связь между признаками высокая, ее можно описать линейными уравнениями: ; .