Парная корреляция и парная линейная регрессия

Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы. В основу таблицы положена группировка двух изучаемых во взаимосвязи признаков –XиY. Частотыfijпоказывают количество соответствующих сочетанийXиY. Еслиfijрасположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетанияfijдопустимо утверждать о связи междуXиY. При этом, еслиfijконцентрируются около одной из двух диагоналей, имеет место прямая или обратная линейная связь.

Уровни признака X Уровни признака Y
Y1 Y2 Ym Итого
X1 f11 f12 f1m
X2 f21 f22 f2m
Xk fk1 fk2 fkm
Всего n

Рисунок 7.1. Схема корреляционной таблицы

Наглядным отображением корреляционной таблицы служит корреляционное поле. Оно представляет график, где на оси абсцисс откладываются значения X, по оси ординат – Y, а точками показывается сочетание первичных наблюдений X и Y. По расположению точек, их концентрации в определенном направлении можно судить о наличии и форме связи.

В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения – одно по X, другое поY. Рассчитаем для каждогоXiсреднее значениеYи дляYj среднее значениеX.

; i = 1, 2, …, k ; j = 1, 2, …, m.

Последовательность точек на графике иллюстрирует зависимость среднего значения результативного признакаYот факторногоX; соединяя точки линиями, получаемэмпирическую линию регрессии, наглядно показывающую, как изменяетсяYпо мере измененияX. Аналогичным образом, последовательность точек на графике иллюстрирует зависимость среднего значения факторного признакаXот результативногоY; соединяя точки линиями, также получаемэмпирическую линию регрессии, наглядно показывающую, как изменяетсяXпо мере измененияY.Таким образом, на одном графическом поле можно расположить две линии регрессии

Понятие о множественной регрессии и корреляции. Меры тесноты связей в многофакторной системе.

Множественная корреляция

Если имеется система статистических показателей: Y,X1, X2, …, Xm, то представляет интерес оценка корреляции междувсеми парамипоказателей этой системы. Все парные коэффициенты корреляции могут быть представлены в одной квадратной матрицеRразмерностью (m+1)×(m+1), котораяназывается матрицей парных линейных коэффициентов корреляции. На основе матрицейR, можно определить так называемые коэффициенты множественной линейной корреляциипризнаков и коэффициентыпарной линейной частной корреляции.

Коэффициент множественной линейной корреляции оценивает степень линейной связи одного из признаков системы с совокупностью прочих признаков этой же системы.В общем случае для измерения множественной линейной корреляции определяются параметры множественного уравнения регрессии и теоретические уровни признака-результата (например,Y). На основе фактических и рассчитанных по уравнению (теоретических) значений признакаYвычисляется коэффициент множественной корреляцииRy:

где s2– общая (фактическая) дисперсия уровней результативного признака (дисперсияY);σ2факт. – факторная дисперсия или дисперсия теоретических значений признака результата относительно среднего уровня;σ2ост.– остаточная дисперсия, характеризующая вариациюYза счет факторов, не учтенных уравнением регрессии. Известно, что общая дисперсия признака результатаY складывается из факторной и остаточной составляющих.

Коэффициент множественной корреляции изменяется от 0 до 1. Чем ближе RYк 1, тем более сильная связь междуYи множествомX. Если коэффициентRYнезначителен по величине (как правило,RY 0,3), то можно утверждать, что или не все важнейшие факторы взаимосвязи учтены, или выбрана неподходящая форма уравнения. В последнем случае пересматривается список переменных модели и возможно, её вид.

Для нелинейной множественной связи рассчитывают индекс корреляции. Методика его вычисления аналогична, но взаимодействие факторов и функция регрессии рассматриваются как нелинейные. Индекс корреляции изменяется в пределах от 0 до 1. КвадратRравен так называемомукоэффициенту детерминации(DилиR2). Он показывает, какая часть вариации зависимого признака объясняется включенными в модель факторов.

Показатели множественной корреляции рассчитываются по приведенной выше схеме не часто. Если признак-результат Yвключен в общую систему признаков, то на основе общей матрицы парных линейных коэффициентовRможно получитьвсю совокупностькоэффициентов множественной корреляции, так как любой из признаков этой системы может, в принципе, претендовать на роль признака-результата. Коэффициент множественной корреляции, оценивающий степень линейной зависимости любого признакаjот всех прочих в этой системе, определяется по формуле

где (m+1) – число всех признаков в системе; |R| –определитель матрицыR парных линейных коэффициентов корреляции;Rii – алгебраическое дополнение элемента (jj) для этой же матрицы.