Методы выявления корреляционных зависимостей
Для выявления наличия и характера корреляционной связи в статистике используется ряд методов:
– рассмотрение параллельных данных;
– метод аналитических группировок и корреляционных таблиц;
– графический метод;
– расчет коэффициентов корреляции. Показатели степени тесноты связи дают возможность охарактеризовать зависимость вариации результативного признака от вариации признака-фактора. В известной мере они дополняют и развивают уже отмеченные приемы обнаружения связи.
Различают непараметрические и параметрические показатели оценки тесноты связи.
Непараметрические показатели используют для оценки тесноты связи между качественными признаками. Например, зависимость между сферой деятельности человека и его удовлетворенность своей заработной платой. К ним относятся:
1) коэффициент ассоциации (Ка) может применяться в качестве оценки тесноты связи между альтернативными качественными признаками. Для определения Ка строятся таблицы четырех полей:
а | b | a+b |
c | d | c+d |
a+c | b+d | a+b+ c+d |
Этот коэффициент вычисляется по формуле:
, (6.1)
где а, b, с и d - численность каждой из четырех полей.
Близость Ка к единице свидетельствует о тесной связи (при +1 - к прямой, при -1 - к обратной).
2) коэффициент контингенции (показатель сходства - Кк) используется, для тех же случаев, что и Ка, и в таком же порядке, но рассчитывается по формуле:
(6.2)
Связь считается достаточно значительной и подтвержденной, если > 0,5 или > 0,3.
3) коэффициенты взаимной сопряженности Пирсона и Чупрова (С, К) используется, если каждый из качественных признаков состоит более чем из двух групп:
коэффициент Пирсона С = ; (6.3)
коэффициент Чупрова К = (6.4)
где φ2 - показатель взаимной сопряженности, который определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот, соответствующего столбца и строки.
или (6.5)
K1 - число значений (групп) первого признака;
K2 - число значений (групп) второго признака.
Чем ближе величина С и K к 1, тем теснее связь.
4) в анализе социально-экономических явлений часто приходится прибегать к различным условным оценкам с помощью рангов, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи. Ранжирование - это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения.
Ранг - это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты Спирмена и Кендалла (τ ). Эти коэффициенты могут быть использованы для определения тесноты связи как между количественными, так и между качественными признаками.
Параметрические показатели используют для оценки тесноты связи между количественными признаками. Например, зависимость между возрастом оборудования и затратами на его ремонт. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. К ним относятся:
1) линейный коэффициент корреляции:
, (6.6)
где – среднее арифметическое произведений индивидуальных значений факторного и результативного признаков;
– среднее арифметическое индивидуальных значений факторного и результативного признаков соответственно;
σх и σу – среднее квадратическое отклонение факторного и результативного признаков соответственно.
Линейный коэффициент корреляции при прямолинейной форме связи дает возможность судить в будущем о соответствии полученной экономико-статистической модели экономическому процессу или явлению.
Линейный коэффициент корреляции изменяется при прямой связи от 0 до +1, а при обратной связи – от 0 до -1. Чем теснее связь между признаками, тем ближе к единице будет значение линейного коэффициента корреляции и наоборот. Для качественной оценки тесноты связи используется таблица Чэддока (таблица 6.1).
Таблица 6.1 – Шкала Чэддока
Значение коэффициента корреляции | 0,1 – 0,3 | 0,3 – 0,5 | 0,5 – 0,7 | 0,7 – 0,9 | 0,9 – 0,99 |
Характеристика тесноты связи | слабая | умеренная | заметная (средняя) | высокая | весьма высокая |
3) корреляционное отношение. При наличии криволинейной связи линейный коэффициент корреляции недооценивает тесноту связи и в некоторых случаях дает неверное представление о степени тесноты связи. Для оценки тесноты связи в случае криволинейной зависимости используется корреляционное отношение:
, (6.7)
где δ2 – межгрупповая дисперсия (дисперсия факторного признака). Исчисляется она на основе данных аналитической группировки по формуле:
, (6.8)
где – групповая средняя результативного признака; – общая средняя результативного признака; f - число единиц в каждой группе.
Регрессионный анализ
Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком), обусловлено влиянием одной или нескольких независимых величин (факторов).
По характеру расположения точек в корреляционном поле можно сделать вывод о форме связи, т.е. каким уравнением можно выразить тенденцию развития изучаемого процесса. Соединив точки прямыми линиями, получим эмпирическую линию связи, показывающую, что взаимосвязи систематически нарушаются влиянием прочих факторов.
Необходимо определить теоретическую линию связи, которая характеризовала бы форму зависимости признаков.
Самым сложным в практическом применении теории корреляции являются определение характера связи между признаками и правильный выбор уравнения связи.
Зависимости между признаками выражаются следующими уравнениями:
– прямой ;
– гиперболы ;
– логарифмической ;
– параболы 2-го порядка и др.
Нахождение параметров теоретической линии связи равносильно выравниванию эмпирических данных. На сегодняшний день процесс получения уравнения регрессии значительно облегчается возможность применения пакетов программ Excel и STATISTICA. С их помощью можно построить несколько вариантов уравнений регрессии и затем выбрать самую адекватную.
Полученное уравнение регрессии представляет собой пример статистического моделирования реального экономического процесса, выраженного средствами математических формул.
В тех случаях, когда установлено, что связь между признаками заметная, высокая или весьма высокая, теоретические уравнения связи приобретают практическое значение и могут быть использованы в плановых и нормативных расчетах. Таким образом, основной смысл регрессионного анализа состоит в том, чтобы по полученному уравнению регрессии найти теоретические уровни, которые могут служить планируемыми прогнозируемыми показателями на предстоящий период.
Приемлемость и ценность полученной модели определяются тем, с какой степенью достоверности или точности она применяется для аппроксимирования экономического процесса и в действительности отражает этот процесс. Если специальные критерии значимости отвечают необходимым требованиям, то уравнение регрессии будет являться экономико-математической моделью и пригодно к практическому применению.