Частотная модель парных связей. Таблицы сопряженности.

Статистическая связь между двумя признаками изучается с помощью таблиц сопряженности. Если мы хотим поместить в таблицу сопряженности количественный признак, его необходимо преобразовать в «качественный» вид с помощью группировки в интервалы (типологический). Таблица сопряженности предназначена для изучения совместного частотного распределения двух качественных признаков. Построив таблицы сопряженности, мы можем ответить на вопросы:

- как 1 признак распределяется относительно другого (меняется ли частотное распределение одного признака);

- есть ли статистическая связь между изучаемыми признаками;

- чему равна мера (коэффициент) связи (имеет смысл тогда, когда статистическая связь присутствует).

Таблица сопряженности состоит из нескольких структурных элементов:

- строка и столбец заголовка (верхняя строка и крайний левый столбец содержат значения признаков, для которых строится таблица сопряженности);

- внутренние ячейки (образовываются при пересечении строк и столбцов и содержат информацию о совместных частотных распределениях первого и второго признака);

- маргинальная строка и маргинальный столбец (нижняя строка и крайний правый столбец содержат одномерное частотное распределение изучаемых признаков);

- ячейка, образованная при пересечении маргинальной строки и маргинального столбца и содержащая информацию об объёме выборочной совокупности.

Общий вид таблицы сопряженности:

 

II I пр пр X1 X2 …X3 Xc  
Y1 f1i f12 …f1j f1c fi0
Y2 f2i f22 …f2j f2c f20
… Yj … fi1 … fi2 … …fij… … … fic … …fi0… …
Yr fri fr2 …fir frc …fr0
  f01 f02 …f0j f0c f00

xi – значение признака;

c = column – столбец;

r = row – строка.

В общем виде для любого значения i = j = число объектов удовлетворяет условиям i-той строки и j-того столбца равно fij.

Каждая внутренняя ячейка таблицы сопряженности может содержать 4 частоты:

1) абсолютная – число объектов, удовлетворяющих условию i-той строки j-того столбца fij;

2) относительная – удовлетворяющая условию строки * 100% ;

3) относительная – удовлетворяющая условию столбца * 100%;

4) относительная – рассчитанная от объёма выборочной совокупности (дающая 100% по строке – относительная частота по строке) * 100%.

Замечание: при построении таблицы сопряженности рекомендуется переменную, имеющую малое значение признака, располагать по столбцам, а переменную, имеющую большее число значений, располагать по строкам.

Используя относительные частоты, мы можем ответить на вопрос, как один признак распределяется относительно другого. Используя абсолютные частоты, мы можем ответить на вопрос, существует ли статистическая связь между двумя изучаемыми признаками. Наличие связи мы проверяем с помощью статистических гипотез. Как правило, в таблице сопряженности один признак является группирующим, а второй является смысловым. В зависимости от того, по строке или по столбцу располагается группирующий признак, мы используем относительные частоты, удовлетворяющие условиям строки или столбца.

 

Проверка гипотезы о наличии связи в таблице сопряженности

Для того чтобы определить наличие статистической связи между двумя качественными переменными, необходимо проверить статистическую гипотезу. Перед формулировкой гипотезы нужно построить наряду с эмпирической таблицей сопряженности теоретическую таблицу сопряженности. Теоретическая таблица сопряженности – такая таблица, в которой полностью отсутствует статистическая связь. Частота во внутренних клетках в теоретических таблицах сопряженности обозначается eij = .

Н0 говорит о том, что связь таблицы сопряженности отсутствует, Н1 – связь присутствует.

Н0: fij = eij для всех i =

j =

H1: fij ≠ eij для всех i =

j =

Формула критерия х2 проверки гипотезы о наличии связи таблицы сопряженности:

.

В основе построения статистического критерия лежит теоретическое распределение х2:

х2кр = х21 – α;df df = (r – 1)(c – 1)

При проверке гипотезы изначально α берут равным 0,01.

Если на это уровне значимости подтверждается Н1, проверку останавливаем: это искомый результат. Если на уровне значимости подтверждается Н0, α меняют на равное 0,05. (Есть окончательный вывод о таблице сопряженности).

 

Меры (коэффициенты) связи для таблицы сопряженности

Определив наличие связи в таблице сопряженности, необходимо также рассчитать формальные показатели этой связи. В роли таких показателей выступают коэффициенты (меры связи). Все коэффициенты связи для таблицы сопряженности рассчитываются на основе статистики, вычисленной по формуле критерия:

1) коэффициент Пирсона (контингенции):

Свойства:

- если значение стремится к 0, то между изучаемыми признаками связь отсутствует;

- если значение равно 1, то между изучаемыми признаками присутствует полная статистическая связь;

 

2) коэффициент Чупрова для квадратных таблиц сопряженности:

Свойства:

- если значение стремится к 0, то между изучаемыми признаками связь отсутствует;

- если значение равно 1, то между изучаемыми признаками присутствует полная статистическая связь;

- промежуточные значения не интерпретируются;

 

3) коэффициент Крамера:

 

Свойства:

- если значение стремится к 0, то между изучаемыми признаками связь отсутствует;

- если значение равно 1, то между изучаемыми признаками присутствует полная статистическая связь;

- промежуточные значения не интерпретируются.

 

Локальные таблицы сопряженности. Таблица сопряженности размером 2х2

Таблица сопряженности размером 2х2 строятся для двух дихотомических признаков. Таблицы 2х2 непосредственно для 2-х дихотомических признаков, а могут выделяться из любой исходной таблицы сопряженности. В общем виде таблицу 2х2 представляют:

II I пр пр  
a b a + b
c d c + d
  a + c b + d a + b + c + d

 

Для них вводятся понятия прямой положительной и обратной отрицательной связи. Прямая связь – связь, при которой признаки чаще появляются совместно либо отсутствуют совместно. Прямая положительная связь – если большие частоты фиксируются по главной диагонали. Диагональ, проходящая через ячейки совместного присутствия и совместного отсутствия признака называется главной диагональю таблицы сопряженности. Обратная отрицательная связь – такая, при которой признаки чаще появляются врозь, чем совместно; по главной диагонали фиксируются меньшие частоты.

Для определения связи в таблицы сопряженности 2х2 вводятся коэффициенты связи. Коэффициент Пирсона:

Свойства:

- изменяется в интервале [-1;1];

- равен 1, если все ненулевые частоты располагаются по диагонали – прямая полная связь;

- равен -1, если по главной диагонали располагаются нулевые частоты – полная отрицательная связь.

Применяется в таблице сопряженности размером 2х2, у которых распределения в маргинальном столбце и строке примерно одинаковое. Коэффициент Юла:

Свойства:

- изменяется в интервале [-1;1];

- равен 1, если: а) с = 0; б) b = 0 – полная положительная связь;

- равен -1, если а) а = 0; б) d = 0 – полная отрицательная связь.

Применяется в случае, если значение в маргинальной строке и столбце сильно различаются.