Теснота связи и величина коэффициента корреляции

Коэффициент корреляции rxy Теснота связи
+ 0,91-1,0 Очень сильная
+ 0,81-0,9 Весьма сильная
+ 0,65-0,8 Сильная
+ 0,45-0,64 Умеренная
+ 0,25-0,44 Слабая
До + 0,25 Очень слабая
«+» - прямая зависимость «-» - обратная зависимость  

 

T-статистика Стьюдента

Для того чтобы оценить наличие связи между двумя переменными, также можно использовать t-статистику Стьюдента, которая оценивает отношение величины линейного коэффициента корреляции к среднему квадратическому отклонению и рассчитывается по формуле

.

Полученную величину tрасч сравнивают с табличным значением t-критерия Стьюдента с n-2 степенями свободы. Если tрасч > tтабл, то практически невероятно, что найденное значение обусловлено только случайными совпадениями величин X и Y d в выборке из генеральной совокупности, т.е. существует зависимость между X и Y. И наоборот, если tрасч < tтабл , то величины X и Y независимы.

 

Регрессионный анализ

Цель регрессионного анализа – определить количественные связи между зависимыми случайными величинами. Одна из этих величин полагается зависимой и называется откликом, другие – независимые, называются факторами. Для установления степени зависимости между откликом и факторами используются вычисляемые величины ковариации и коэффициент корреляции. Если коэффициент корреляции по абсолютной величине близок к единице, то для построения зависимости используется линейная модель. Для других случаев используются более сложные нелинейные модели.

Уравнение линейной регрессии имеет вид:

Y=a1X1 + a2X2 + …+ akXk, где а1, а2… аk – параметры, подлежащие определению методом наименьших квадратов (МНК). В среде MS Excel для этого используется встроенная функция ЛИНЕЙН и инструмент Регрессия из Пакета анализа.

 

Задание 1. Исследование связей между двумя исследуемыми признаками.

Условие задачи. По 20 туристическим фирмам были установлены затраты на рекламную кампанию и количество туристов, воспользовавшихся после ее проведения услугами каждой фирмы. Определить коэффициент корреляции между исследуемыми признаками.

Ход выполнения:

Откройте новую книгу MS Excel и создайте таблицу согласно рис. 6.1:

Рис.6.1.

Рассчитайте в ячейке С23 коэффициент корреляции, используя функцию КОРРЕЛ из категории Статистические.

Синтаксис функции:

КОРРЕЛ (массив1 ; массив 2):

где массив1 – ссылка на диапазон ячеек первой выборки (X);

массив2 – ссылка на диапазон ячеек второй выборки (Y).

В нашей задаче формула будет иметь вид: =КОРРЕЛ(B2:B21;C2:C21).

Сделайте вывод о тесноте связи между затратами на рекламу и количеством привлеченных туристов.

Оцените значимость коэффициента корреляции. С этой целью рассматриваются две гипотезы. Основная Н0: rxy=0 и альтернативная Н1: rxy≠0. Для проверки гипотезы Н0 рассчитайте t-статистику Стьюдента по формуле, указанной выше в ячейке С24. В нашем случае число степеней свободы ν = n-2=20-2 = 18 и формула будет следующей: =C23*КОРЕНЬ(20-2)/КОРЕНЬ(1-(C23*C23)).

Сравните полученное значение с критическим значением tν,α распределения Стьюдента. (При ν =18 и доверительной вероятности α = 0,05, tν,α, табл = 1,734). Сделайте вывод о наличии связи между исследуемыми величинами.

 

Задание 2. Построение регрессионной модели.

1-й способ. Функция ЛИНЕЙН.

В первом способе для получения коэффициентов а и b линейного уравнения регрессии Y=а*X+b, описывающего зависимость количества привлеченных туристов от затрат на рекламу воспользуемся статистической функцией ЛИНЕЙН. Для этого выделите две ячейки C26:D26 и выполните вставку функции ЛИНЕЙН с аргументами согласно рис.6.2.

Здесь Известные_значения_y – диапазон значений Количество туристов, Известные_значения_x – диапазон значений Затраты на рекламу. Нажмите комбинацию клавиш SHIFT+CTRL+ENTER.

Рис. 6.2. Аргументы функции ЛИНЕЙН

 

В ячейку D27 введите уравнение Y= a*X+b (вместо a и b подставьте полученные коэффициенты линейной регрессии).