Тема 9. Статистические методы измерения связей

Основные понятия и категории

Все социально-экономические явления взаимосвязаны. Связь между ними имеет причинно-следственный характер. Признаки, которые характеризуют причины и условия связи, называются факторными х, а те, которые характеризуют последствия связи, – результативными y. Между признаками x и y возникают разные по природе и характеру связи, в частности: функциональные и стохастические. При функциональной связи каждому значению признака х отвечает одно четко определенное значение y. Этасвязь проявляется однозначно в каждом конкретном случае. При стохастической связи каждому значению признака х отвечает определенное множество значений y, которые образовывают так называемое условное распределение. Как закон эта связь проявляется только в массе случаев и характеризуется изменением условных распределений y. Если заменить условное распределение средней величиной y, то образуется разновидность стохастической связи – корреляционная. В случаекорреляционного связи каждому значению признака х отвечаетсреднее значение результативного признака y,.

Примером стохастической и в частности корреляционной связи является распределение проданных на бирже недвижимости однокомнатных квартир по их стоимости y и размеру общей площади х (табл. 9.1).

Каждой группе по факторному признаку отвечает свое распределение y, которое отличается от других групп и от безусловного итоговогораспределения. Следовательно, наблюдается стохастическая связь между признаками.

Таблица 9.1

Размер общей площади, м2 х Количество квартир со стоимостью, тыс. грн. Средняя стоимость квартиры, тыс. грн.,
9–11 11–13 13–15 15–17 17–19 Всего, fj
До 25   10,8
25–30 13,2
30–35 15,2
35 и больше 18,0
В целом ЗО 13,0

 

Условные распределения можно заменить средними значениями результативного признака, которые вычисляются как средняя арифметическая взвешенная.

Постепенное изменение средних от одной группы к другой свидетельствует о наличии корреляционной связи между признаками.

Характеристикой корреляционного связи является линия регрессии, которая рассматривается в двух моделях: аналитической группировки и регрессионного анализа. В модели аналитической группировки – это эмпирическая линия регрессии, которая образовывается из групповых средних значений результативного признака ,для каждого значения (интервала) хj.

Эффекты воздействия х на yопределяются как отношение приростов средних групповых значений , где .По данным табл. 9.1 приросты во всех группах одинаковые – 5 м2, а средняя стоимость проданных квартир увеличивается по группам таким образом: =13,2-10,8=2,4 тыс. грн.; =2,0; =2,8. Следовательно, с увеличением размера общей площади квартир на 1 м2 их стоимость в среднем растет соответственно на: = 2,4 : 5 =0,48 тыс. грн. и на 0,4 и 0,56.

Оценка плотности связи основывается на правиле сложения дисперсий. В модели аналитической группировки мерой плотности связи есть отношение межгрупповой дисперсии к общей, которое называют корреляционным отношением:

,

где: общая дисперсия, которая измеряет вариацию результативного признака y,обусловленную воздействием всех возможных факторов; межгрупповая дисперсия измеряет вариацию результативного признака yза счет воздействия только группировочного признака х. Корреляционное отношение колеблется от 0 до 1, а если выразить в процентах, то от 0 до 100%. При отсутствии связи =0, а при условии функциональной – =1. Чем большее приближается к единице, тем более плотная связь.

По данным табл. 9.1 общая дисперсия стоимости проданных квартир составляет:

=

=(102 • 30+122 • 25+142 • 20+162 • 15+182 • 10):100-132= =176-169=7.

В табл. 9.2 приведена аналитическая группировка проданных квартир, которая описывает зависимость их стоимости от общей площади. Там же дан расчет межгрупповой дисперсии.

Таблица 9.2

Общая площадь квартиры, м2, Количество квартир, Средняя стоимость квартиры, тыс. грн.,
До 25 10,8 - 2,2 193,6
25–30 13,2 0,2 1,2
30–35 15,2 2,2 116,2
35 и больше 18,0 5,0 150,0
В целом 13,0 X 461,0

Корреляционное отношение составляет:

,

следовательно, вариация стоимости проданных квартир на 66% объясняется вариацией их общей площади и на 34% – вариацией других факторов. Т.е. связь между признаками достаточно плотная.

Однако плотная связь может возникнуть случайно, поэтому необходимо проверить ее тесноту, т.е. доказать неслучайность связи. Проверка тесноты связи – это сравнение фактического значения с его критическим значением для определенного уровня тесноты ичисла степеней свободы k1=m-1 и k2=n-m, гдеmчисло групп; nобъем совокупности. Если , то связь признается существенной. Критические значения корреляционного отношения для =0,05 приведены в Приложении 4.

В нашем примере k1=4–1=3, k2=100–4=96. Из-за отсутствия в таблице критических значений k2=96 используем ближайшее (k2=100), тогда (3, 100)=0,075.

Поскольку =0,659>0,075, то связь признается существенной с вероятностью 0,95.

В модели регрессивного анализа характеристикой корреляционного связи является теоретическая линия регрессии, которая описывается функцией Y=f(x), которая называется уравнением регрессии. В зависимости от характера связи используют:

линейные уравнения Y=a+bx, когда с изменением хпризнак yизменяется более-менее равномерно;

нелинейные уравнения, когда изменение взаимосвязанных признаков происходит неравномерно (с ускорением, замедлением или с переменным направлением связи), в частности: степенной Y=axb, гиперболическое Y=a+b/x, параболическое Y=a+bx+cx2и тому подобное.

Чаще применяются линейные уравнения или приведенные к линейному виду. В линейном уравнении параметр b коэффициентрегрессии указывает, на сколько единиц в среднем изменится yс изменением хна единицу. Он имеет единицу измерения результативного признака. В случае прямой связи bвеличина положительная, а при обратной – отрицательная. Параметр aсвободный член уравнения регрессии, т.е. это значение Y при x=0. Если xне приобретает нулевые значения, то данный параметр имеет только расчетное назначение. Параметры определяются методом наименьших квадратов, согласно которому сумма квадратов отклонений эмпирических значений y от теоретических Y минимальная . В соответствии с условием минимизации параметры линейного уравнения регрессии вычисляются на основании системы нормальных уравнений:

Отсюда

Для расчета параметров уравнения параболы второго порядка методом наименьших квадратов система нормальных уравнений имеет следующий вид:

Пример. Расчет параметров линейного уравнения регрессии рассматривается на примере связи между суточной стоимостью туристических путевок в одном из турагентств и длительностью отдыха (дней).

Таблица 9.3.

Номер путевки Длительность отдыха, дней Суточная стоимость путевки, грн. xy x2 Y (y-Y)2 y2
78 91,6 185,0
52,5 6,2
82,9 146,4
35,1 126,0
52,5 0,2
26,4 0,2
82,9 4,4
48,1 3,6
Всего 472,0 372,0

 

Величины, на основании которых вычисляются параметры, равняются: =100; =472; =4972; =1464; n=8; =100:8=12,5; =472:8=59. Следовательно, параметры составляют:

грн.,

а=59–(–4,34) • 12,5=113,25.

Тогда уравнение регрессии имеет вид: Y=113,25–4,34x, т.е. с увеличением длительности отдыха на один день суточная стоимость туристической путевки дешевеет в среднем на 4,34 грн.

Коэффициент регрессии в небольших по объему совокупностях подвержен случайным колебаниям. Поэтому осуществляется проверка его существенности при помощи t-критерия (Стьюдента):

где b – коэффициент регрессии; – собственно стандартная погрешность, которая рассчитывается по формуле

где соответственно остаточная и факторная дисперсии; n объем совокупности.

По данным таблицы 9.3 =26,75, =46,5, n =8, тогда

грн., а ,

что значительно превышает критическое значение t0.95(6)=2,54.

Таким образом, с вероятностью 0,95 воздействие длительности отдыха на суточную стоимость путевок признается существенным. Для коэффициента регрессии определяются также доверительные границы . С вероятностью 0,95 доверительные границы коэффициента регрессии составляют: - 4,34±2,54 • 0,54 или -4,34±1,37 грн.

Характеристикой относительного изменения yза счет хесть коэффициент эластичности

который показывает, на сколько процентов в среднем меняется результативный признак с изменением факторного на 1%. По данным табл. 9.3,

следовательно, с увеличением длительности отдыха на 1% суточная стоимость путевок уменьшается в среднем на 0,9%.

На основании уравнения регрессии определяются теоретические значения Y, т.е. значение результативного признака при условии воздействия только фактора х при неизменном уровне других факторов. В приведенном примере Y – это ожидаемая стоимость путевок за счет воздействия только длительности отдыха. Так, для х=5 дней суточная стоимость путевки будет составлять Y=113,2–54,34 • 5=91,6 грн., что несколько отклоняется от эмпирического значения.

Отклонение эмпирических значений yот теоретических Y называют остаточными. Они характеризуют воздействие на результативный признак всех других факторов, кроме х. Средний размер этих отклонений определяет остаточная дисперсия

Вариацию y, обусловленную воздействием только фактора х,измеряет факторная дисперсия:

Доля факторной дисперсии в общей характеризует плотность связи и называется коэффициентом детерминации:

Он имеет такой же смысл, интерпретацию и цифровые границы, как и . По данным табл. 9.3

следовательно, по правилу сложения дисперсий

или по другой формуле:

Тогда R2=503:549,5=0,915, т.е. 91,5% вариации суточной стоимости путевок линейно связано с вариацией длительности отдыха, а 8,5% вариации приходится на остальные факторы. Поэтому связь очень плотная.

Плотность связи оценивается также индексом корреляции , однако интерпретируется только R2. Для линейной связи используется линейный коэффициент корреляции (Пирсона) r:

который принимает значения в границах ±1, поэтому характеризует не только плотность, но и направление связи. Положительное значение свидетельствует о прямой связи, а отрицательное – об обратной.

По приведенному примеру,

Следовательно, связь между суточной стоимостью турпутевок и сроком отдыха есть плотной и обратной. Абсолютное значение r равно индексу корреляции:

Однако для интерпретации r необходимо перейти R2=r2.

Проверка существенности связи осуществляется таким же образом, как и в модели аналитической группировки, путем сравнения Отличия касаются только определения k1 и k2, в которых mчисло параметров уравнения регрессии. В нашем примере k1=2–1=1, а k2=8–2=6, критическое значение (1,6) = 0,5 значительно меньше фактического R2=0,915.

Связь между суточной стоимостью путевок и длительностью отдыха признается существенной с вероятностью 0,95.

Проверка существенности связи в обеих моделях может осуществляться также по критерию Фишера, который функционально связан с R2 и :

поэтому процедура проверки и выводы идентичны.

Для оценки плотности связи между признаками порядковой (ранговой) шкалы используют коэффициент ранговой корреляции , который по содержанию идентичный линейному коэффициенту корреляции. Наиболее распространена формула Спирмена

где djотклонения рангов факторного (Rx)и результативного (Ry) признаков; nколичество рангов.

Коэффициент ранговой корреляции меняется в границах от -1 до +1, т.е. одновременно оценивает плотность связи и указывает ее направление.

Пример. По данным табл. 9.4 оценим плотность связи между уровнем эффективности экономики и надежностью делового партнерства для семи стран Восточной Европы. Поскольку информация представлена в форме интегральных показателей (балльной оценки), необходимо провести ранжирование стран. Наименьшему значению интегрального показателя представляется ранг 1, наибольшему – ранг n=7. Сумма квадратов отклонений рангов составляет

а коэффициент ранговой корреляции:

 

Таблица 9.4

Страна Интегральные показатели Ранги показателей Отклонение рангов, dj  
эффективности экономики (mах=10) надежности делового партнерства (mах=100) Rx Ry
А 5,9 54,9 - 1
В 7,1 54,8
С 4,2 45,3 - 1
3,4 36,9 - 1
К 4,9 35,8
М 2,7 26,4 - 1
Р 2,9 24,8
Всего X X X X

 

Значение коэффициента ранговой корреляции свидетельствует о наличии прямой и достаточно заметной связи между указанными параметрами риска иностранного инвестирования экономики. По приложению 6 критическое значение коэффициента ранговой корреляции для =0,05 и n=7 составляет (7)=0,71, что значительно меньше фактического. Следовательно, существенность связи доказана с вероятностью 0,95.

Анализ взаимосвязей между атрибутивными признаками проводится на основании таблиц взаимной сопряженности (взаимозависимости), которые описывают комбинационные распределения совокупностей по двум признакам – факторному х ирезультативному y. Приналичии стохастической связи условные распределения меняются от группы к группе. Оценка плотности стохастической связи основывается на отклонениях частот (долей) условных распределений от безусловного, т.е. на отклонениях фактических частот fi j от теоретических Fi j, пропорциональных итоговым частотам безусловного распределения:

где fi 0 итоговые частоты по признаку х; f0 j – итоговые частоты по признаку y; nобъем совокупности.

Очевидно, что

Абсолютную величину отклонений (fi j – Fi j) характеризует квадратичная сопряженность Пирсона :

 

При отсутствии стохастической связи =0. Для заключения о существенности связи фактическое значение сравнивается с критическим для заданной вероятности 1- и числа степеней свободы k=(mx–1)(my–1), где mx и my соответственно количество групп по признакам x и y.Критические значения приведены в Приложении 3.

Относительной мерой плотности стохастической связи служат коэффициенты взаимной сопряженности С, которые по содержанию идентичны коэффициентам корреляции. Если mx=my,используют коэффициент сопряженности Чупрова:

если mx≠my, преимущество отдают коэффициенту сопряженности Крамера:

где mmin – минимальное количество групп по признаку x или y.

Значения коэффициента С колеблются в границах от 0 до 1.

Пример. В табл. 9.5 приведено комбинационное распределение респондентов по возрасту и склонности к риску. К группе рисковых отнесены респонденты, которые намереваются приобрести ценные бумаги, невзирая на риск, осторожные не представляют риска без гарантий, нерисковые избегают риска вообще. Концентрация частот вокруг диагонали из верхнего левого угла в правый нижний свидетельствует о наличии стохастической связи.

Таблица 9.5

Возраст, лет Тип инвестора Всего
рисковый осторожный нерисковый
До 30
30–50
50 и старше
Всего

 

Фактическое значение составляет

,

что значительно превышает критическое (4) = 9,49. Следовательно, существенность связи между возрастом респондентов и их склонностью к риску доказана с вероятностью 0,95.

Поскольку mx=my=3,для оценки плотности связи используем коэффициент взаимной сопряженности Чупрова:

т.е. связь между признаками умеренная.

В случае, когда mx=my=2, расчет коэффициента взаимной сопряженности упрощается:

В статистической литературе коэффициент С для 4-клеточной таблицы называют коэффициентом контингенции (ассоциации). Очевидно, .

Для анализа такого типа таблиц используют также отношение перекрестных произведений или отношение шансов:

Отношение шансов характеризует меру относительного риска фактора хна результат y.

Пример. По данным табл. 9.6 оценим плотность связи между восприятием рекламы и приобретением рекламируемого товара, а также результативность рекламы.

Таблица 9.6

Восприятие рекламы Количество респондентов Всего
приобрели товар не приобрели товара
Запомнили рекламу Не запомнили рекламу
Всего

 

Коэффициент контингенции свидетельствует о наличии стохастической связи

Фактическое значение =80•0,2542=5,16, что превышает критическое значение (1)=3,84. Следовательно, существенность связи доказана.

Отношение шансов составляет

т.е. шансы реализовать рекламируемый товар в 5,5 раза больше по сравнению с нерекламируемым.

Методы анализа таблиц взаимной сопряженности можно использовать и для количественных признаков, как например комбинационное распределение табл. 9.1, однако следует заметить, что меры плотности корреляционного связи – коэффициент детерминации и корреляционное отношения – более мощные.