Анализ взаимосвязи признаков

Анализ поведения изучаемых признаков относительно друг друга необходим для поиска ответов на вопросы:

- влияет ли один признак на значение другого признака;

- существует ли статистическая связь между двумя признаками;

- можно ли, зная значение одного признака, сделать вывод о значении другого признака.

Замечание: в курсе прикладной статистики мы будем рассматривать только взаимодействие двух признаков.

Статистическая связь двух признаков – такое соотношение между ними, при котором изменение значения одного признака меняет распределение другого признака. Существуют десятки моделей статистической связи. Многообразие моделей объясняется тем, что существует множество подходов к определению того, как именно меняется распределение признака при изменении значения другого признака. Основные модели статистической связи:

- частотная модель (анализ таблиц сопряженности) – для анализа связи 2-х качественных признаков;

- корреляционная модель связи (корреляционный анализ) – для анализа связи 2-х количественных признаков либо качественных признаков, измеренных с помощью порядковой шкалы;

- функциональная модель (регрессионный анализ) – для анализа 2-х количественных признаков;

- модель с определением дисперсии (дисперсионный анализ) – для анализа связи качественных и количественных признаков.

Выбор той или иной модели определяется не только измерительной шкалой, но и характером исследуемой связи.

По характеру статистические связи классифицируются:

1) по направленности:

- ненаправленные – связи, при которых нельзя сказать, что увеличение значения одного признака приводит к увеличению (уменьшению) другого признака;

- прямые (положительные) – такие связи, при которых увеличение значения одного признака к увеличению значения другого; уменьшение значения одного признака к уменьшению значения другого;

- обратные (отрицательные) – такие связи, при которых увеличение значения одного признака ведет к уменьшению значения другого;

2) по степени влияния изучения признаков друг на друга:

- корреляционные – такие связи, в которых признаки «равноправны» - нельзя сказать (задачей не ставится), какой признак является причиной, какой – следствием;

- причинно-следственные – такие связи, при которых один признак может быть описан как причина, а другой – как следствие. Однако причинно-следственные связи нужно обосновать – осуществляется на двух уровнях:

- теоретический (логический) – необходимо доказать, что именно эта причина порождает данное следствие;

- формальный – принимая решения, необходимо доказать выполнение трех принципов причинности (каузальность):

- причина должна во времени предшествовать следствию;

- причина и следствие должны коррелировать между собой;

- должно быть доказано, что не существует других переменных, которые могут повлиять на связь между причиной и следствием;

3) по измерение связи подраздел на:

- функциональные – связи, которые могут быть описаны точной математической формулой y = f(x);

- статистические – её можно выразить функционально, с точностью до некоторого приближения. Точки не лежат на первой линии, а представляют собой некоторое облако точек.

Понятие меры связи – рассчитываемый специальный коэффициент, величина которого

указывает силу связи между двумя переменными. Для каждой модели связи существует свой 1 или несколько коэффициентов связи. Общие свойства мер связи:

- изменение в интервалах от 0 до 1 для ненаправленных связей и в интервалах от -1 до 1 для направленных;

- значение МС = 0 может свидетельствовать:

1) об отсутствии статистической связи между переменными;

2) о том, что выбрана модель связи, не соответствующая характеру связи:

- значение МС, приближенное к 1, свидетельствует о наличии сильной ненаправленной или сильной положительной связи. Значение МС, близкое к -1, свидетельствует о наличии сильной отрицательной связи;

- значение МС, = -1 или 1 свидетельствует о наличии полной статистической связи в терминах выбранной модели.