Измерение тесноты связей между качественными (атрибутивными) признаками

В статистике очень широко используют непараметрические методы оценки связи (методы взаимной сопряженности), которые позволяют изучить связь между качественными признаками.

Методы взаимной сопряжённости:

Коэффициент взаимной сопряжённости А.А. Чупрова

- применяется для измерения тесноты связи между варьированием двух атрибутивных признаков, когда это варьирование образует несколько (три и более) групп и определяется по формуле:

КЧ = или КЧ = где

- хи-квадрат;

fi , fj – эмпирические частоты в i–той строке j– ого столбца;

m – число групп по каждому признаку;

п – количество наблюдений.

Он изменяется от 0 до 1, но уже при значении 0,3 можно говорить о тесной связи между вариацией изучаемых качественных признаков.

Вторая формула применяется в случае, если количество наблюдений невелико.

Коэффициент взаимной сопряжённости Пирсона

КП = , где

n - число наблюдений.

Изменяется от 0 до 1. Чем он ближе к единице, тем теснее связь между атрибутивными признаками.

Коэффициент ассоциации

группы подгруппы всего
А а b a+b
Б с d c+d
итого a+c b+d  

 

Ка = , где

a, в, с, d – частоты «таблицы четырёх полей».

Изменяется от-1 до+1. Чем ближе этот показатель к 1 или -1, тем сильнее связаны между собой изучаемые признаки. Если коэффициент ассоциации не ниже 0,3, можно говорить о наличии существенной связи между признаками.

Коэффициент контингенции

КК =

Его применяют в том случае, когда хотя бы одно значение из четырёх показателей в «таблице четырёх полей» отсутствует.

По абсолютной величине коэффициент контингенции всегда меньше коэффициента ассоциации.

Он изменяется от –1 до +1. Чем ближе к 1 или-1, тем сильнее связаны между собой изучаемые признаки.

Бисериальный коэффициент корреляции

- он позволяет изучить связь между качественным альтернативным и количественным варьирующим признаками и определяется по формуле:

, где

- средние значения признака в группах;

- среднее квадратическое отклонение фактических значений признака от среднего уровня;

р – доля первой группы в совокупности;

q – доля второй группы;

Z – табличные значения Z– распределения в зависимости от р.

Сущность метода параллельных рядов заключается в сопоставлении между собой значений факторного и результативного признаков. Для этого значения факторных признаков располагают в возрастающем или убывающем порядке. Параллельно записывают значения результативных признаков. Путём сопоставления расположенных таким образом рядов значений выявляют существование связи и её направление.

На основе сравнения параллельных рядов могут быть применены элементарные показатели, характеризующие направление и тесноту связи: коэффициент Фехнера, Спирмена, множественный коэффициент ранговой корреляции.

Коэффициент Фехнера (коэффициент корреляции знаков) -он основан на степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от соответствующих средних величин. Для расчёта этого показателя исчисляют средние значения факторного и результативного признаков (по арифметической простой), а затем проставляют знаки отклонений для значений взаимосвязанных пар признаков (если фактическое значение признака больше средней величины, то ставится знак «+», если меньше то знак «-»).

Коэффициент Фехнера определяется по формуле:

КФ = , где

С - количество совпадений знаков;

Н – количество несовпадений знаков.

Коэффициент Фехнера может принимать любые значения в пределах [-1; 1]. Если КФ = 1, то это значит знаки всех отклонений совпадают; если знаки всех отклонений будут различны, то КФ = 0.

Если КФ = -1, то это даёт возможность предположить наличие обратной связи.

Этот показатель позволяет уловить направление связи, но не учитывать точно её величину.

Коэффициент Спирмена (коэффициент корреляции рангов)

Этот показатель применяют для анализа связи двух значений (Х, У). Он учитывает согласованность рангов, то есть номеров, которые занимают единицы совокупности по каждому из этих признаков и определяется по формуле:

, где

Σd2 =(У–Х)2 – квадрат разности рангов У и Х;

п – число ранжированных единиц.

Коэффициент Спирмена изменяется от +1 (полная корреляция рангов, в этом случае Σd = 0) до –1 (полная обратная корреляция рангов, в этом случае ). При , корреляция рангов отсутствует.

Значимость коэффициента корреляции рангов Спирмена проверяется на основе t–критерия Стьюдента по следующей формуле:

Значение коэффициента корреляции считается статистически существенным, если ( ).

Множественный коэффициент ранговой корреляции (коэффициент конкордации)

- используется для оценки тесноты связи между несколькими признаками (3 и более) при использовании ранговой корреляции и определяется по формуле:

, где

m- число факторов, между которыми изучается связь;

п – число ранжированных единиц;

S – сумма квадратов отклонений рангов

S = ;

rij – ранг i–того фактора у j–той единицы.

Он изменяется в пределах от 0 до 1 и характеризует степень тесноты связи, но уже при значении 0,5 можно говорить о тесной связи между вариацией изучаемых признаков.

Значимость коэффициента конкордации проверяется на основе - критерия Пирсона:

Если фактическое значение больше табличного значения, при вероятности =0,05 (0,01; 0,10) и числе степеней свободы υ= п-1, то это подтверждает значимость коэффициента конкордации.

Связь между признаками можно наглядно увидеть, если построить график, отложив на оси абсцисс значения факторного признака (Х), а на оси ординат значения результативного признака. Нанеся на графике точки, соответствующие значениям Х и У, можно получить корреляционное поле, где по характеру расположения точек можно судить о направлении и силе связи. Если точки беспорядочно разбросаны по всему полю, это говорит о том, что зависимости между двумя признаками нет. Если они будут концентрироваться вокруг оси, идущей от нижнего левого угла в верхний правый, то имеется прямая зависимость между варьирующими признаками. Если точки будут концентрироваться вокруг оси, идущей от верхнего левого угла в нижний правый, то имеется обратная зависимость.