ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ. УРАВНЕНИЕ ПРЯМОЙ РЕГРЕССИИ У НА Х ПО СГРУППИРОВАННЫМ ДАННЫМ.

 

Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины от одной или нескольких других величин.

Статистическая зависимость – это зависимость, при которой изменение одной величины влечет изменение распределения другой.

Корреляционная зависимость – это статистическая зависимость, при которой изменение одной из величин влечет изменение среднего значения другой.

 

При большом числе наблюдений одно и то же значение Х может встретиться nx раз, а одно и то же значение У – ny раз, тогда одна и та же пара (Х, У) может встретиться nxy раз. В этом случае данные группируют, т.е. подсчитывают частоты nx, ny, nxy.

Все сгруппированные данные записывают в виде таблицы, которая называется корреляционной, в первой строке и первом столбце которой перечисляются наблюдаемые значения признаков Х и У. На пересечении строк и столбцов находятся nxy наблюдаемых пар значений признаков. В последней строке и последнем столбце записаны суммы частот столбцов и строк, т.е. nx и ny. В крайней нижней правой клетке помещена сумма всех частот n – общее число всех наблюдений (аналог объема выборки).

!

Например, рассмотрим корреляционную таблицу вида:

У Х ny
-
-
- -
nx n=60

Здесь, например, пара (30, 4) наблюдалась 7 раз, а само значение признака Х=30 наблюдалось всего 13 раз и т.д.

Регрессией У на Х, т. е. условным математическим ожиданием случайной величины У относительно случайной величины Х, называется функция вида М(У/Х) = f(х).

Оценкой этой функции является выборочное уравнение регрессии: =f*(x), причем на практике чаще используются уравнения линейной регрессии.

Выборочное уравнение прямой линии регрессии Y на Х по

сгруппированным данным имеет вид:

где - условная средняя; и - выборочные средние признаков Х и Y; sх и sу – выборочные средние квадратические отклонения; rB – выборочный коэффициент корреляции.

Если данные наблюдений над признаками Х и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам u и v: ui = , vj = , где С1 и С2 – ложные нули (С1 – значение признака Х с наибольшей частотой, С2 – значение признака Y с наибольшей частотой), h1 – шаг варианты Х, h2 – шаг варианты Y. Тогда выборочный коэффициент корреляции вычисляют по формуле: rB = .

Величины , , su, sv можно найти методом произведений, а при малом числе данных – по определению, а именно , ,

su = , sv = , где , . После чего можно найти величины, входящие в уравнение регрессии, по формулам: , , sх = suh1, sy = svh2.

Метод нахождения

Для этого составляют корреляционную таблицу в условных вариантах, после чего составляют специальную таблицу:

1. В каждой клетке, в которой nuv ¹ 0, в правом верхнем углу записывают произведение nuv на u.

2. Складывают все числа, помещенные в этих правых верхних углах и их суммы записывают в столбец U.

3. Умножают варианту v на U по строкам и записывают результаты в последнем столбце vU.

4. Суммируют элементы последнего столбца. Полученная сумма и равна .

5. Для контроля аналогичные вычисления производят по столбцам (в левых нижних углах клеток, в которых nuv ¹ 0).

Пример 5. Найти по данным корреляционной таблицы:

Y X ny
- - - - -
- - -
- - -
- - -
- - - -
nx n=100

Решение: составим корреляционную таблицу в условных вариантах (в качестве ложных нулей лучше взять х4=33, т.е. С1=33, и у3=175, т.е. С2=175):

V U nv
-3 -2 -1
-2 - - - - -
-1 - - -
- - -
- - -
- - - -
nu n=100

Теперь, по этой таблице составим еще одну – расчетную для вычисления :

U V -3 -2 -1 U= vU
  -2   -2 -2           -2  
  -1   -3 -1 -4 -2 -5 -5       -12  
      -6 -12     -18  
        -1    
             
V=   -1 -4 -4   48
  uV 48 конт- роль

 

Итак, в правых нижних углах получили 48, значит = 48.

Ответ: = 48.

 

 

Пример 6. Найти выборочное уравнение прямой линии регрессии Y на Х по данной корреляционной таблице:

 

 

Y X ny
- - - - -
- - -
- - -
- - -
- - - -
nx n=100

 

Решение: составим корреляционную таблицу в условных вариантах (в качестве ложных нулей лучше взять х4=33, т.е. С1=33, и у3=175, т.е. С2=175):

V U nv
-3 -2 -1
-2 - - - - -
-1 - - -
- - -
- - -
- - - -
nu n=100

 

1. Вычислим теперь , , su, sv:

= = -0,13;

= =0,22;

= =0,81;

= =0,6, значит,

su = = =0,89; sv = = =0,74.

Найдем выборочный коэффициент корреляции rB = , где = 48 (см. пример 35); = -0,13; =0,22; su = 0,89; sv = 0,74. Тогда

rB = =0,73.

2. С1=33, h1=23 – 18=5; C2=175, h2=150 – 125=25.

Значит, можно вычислить , , sх , sy:

= -0,13×5+33= 32,35; =0,22×25+175=180,5;

sх = suh1 = 0,89×5=4,45; sy = svh2 = 0,74×25=18,5.

Подставим полученные значения в уравнение прямой линии регрессии Þ Þ =3,03х +82,48 – искомое уравнение.

Ответ: =3,03х +82,48.