Дискриминантный анализ как метод многомерной классификаций с обучением
Дискриминантный анализ (вероятностный метод) включает в себя статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками. Решается задача отнесения n объектов к одному из р классов в k-мерном пространстве. Под классом понимают ген.совокупность, описываемую функцией плотности f(x) или полиномом вер-ти в случае дискретных признаков х. наблюдение
будет отнесено к тому классу, в рамках кот. оно выглядит более правдоподобно. Этот принцип может корректироваться с учётом удельных весов классов и особенностей функций потерь. Для реализации такого подхода необходимо знание ф-ций
, задающих законы распределения вер-ти в соотв. классах. Обычно на практике
неизвестен и мы можем найти только оценки параметров распред. по выборкам
, кот называются обучающими.
Очевидно, что методы классификаций следует выбирать по условию min потерь или вер-ти неправильной классификации объектов. - потери от ошибочного отнесения объекта m-ого класса к классу l. При l=m
=0. Пусть в процессе классификации среди n подлежащих дискриминации
объектов класса m ошибочно отнесены к L. Тогда общие потери
.
Тогда удельная хар-ка потерь при
=
Предел понимается в смысле сходимости по вероятности относительных частот к вер-ти
, а также
(вер. Извлечения объекта класса m из n наблюдений).
- априорная вер. или удельный вес класса m.
определяет средн. потери от неправильной классификации объектов m-ого класса
средн.удельные потери от неправильной классификации всех n. Обычно предполагают:
. Тогда min средн.удельных потерь С будет эквивалентна стремлению max вер-ти правильной классификации объектов =
.
=
. Предполагается
. В этой связи при построении процедур классификации можно говорить не о потерях, а о вер-ти неправильной классификации =
. Поэтому
=
Плотность распределения вероятности
Решающее правило или дискриминантная ф-ция S(x) – ф-ция, которая может принимать только положительные значения . Те наблюдения х, для которых она принимает значение L, будем относить к L-ому классу
. Очевидно, что
- область в к-мерном пространстве возможных значений признаков. S(x) строится таким образом, чтобы подобласти
этого пространства были взаимонепересекающимися и охватывали все n наблюдений. Таким образом решающее правило может быть задано в виде разбиения
. Решающее правило S(x) – оптимальное байесовское, если оно сопровождается min потерями С среди др. процедур классификации.
Если , то
. Max взвешенная правдоподобность наблюдения
, в качестве весов выступают априорные вер-ти
.
Параметрический дискриминантный анализ в случае нормального распределения внутри классов. Число классов p=2.
Правило классификации заключается в следующем: наблюдение относят к классу , если
,
,
.
Имеется 2 совокупности X и Y. Тогда множество возможных реализаций СВ X и Y можно разделить на 2 области гиперплоскостью , где
вектор значений показателей для наблюдения, подлежащего дискриминации.
- дискриминационная функция.
- вектор значений коэффициентов дискр. функции. Дискр. функция U позволяет перейти от к-мерного пространства к одномерному. Т.о. 2 области пространства можно задать неравенствами:
. Наблюдение относят к X, если U>=c. Задача дискриминации сводится к определению коэффициентов дискр. функции
и const C. Предположим, что известны априорные вер-ти
(вер.того,что набл.
классу Х),
. Пусть известен ущерб от ошибочного отнесения С(Y/X), С(X/Y). Неизвестны параметры ген. совокупности
и
. В этом случае дискриминация осуществляется с помощью обобщённой Байесовской процедуры классификации. Для этого по обучающим выборкам находим оценки параметров ген.совокупности.
,
,
, где
- несмещённые оценки ков.матриц, полученных по выборкам объёмом n1 и n2. Оценка вектора параметров дискриминантной функции
,
. Найдём n1 значений этой ф-ции для первой обуч.выбор.
,
. Для n2 аналогично.
. Если
и С(Y/X)=C(X/Y),
.
, то z0 относится к Х, иначе к Y.
параметрический дискриминантный анализ в случае нормального распределения внутри классов. Число классов р>2.
Процедура дискриминации для p>2 нормально распр. классов.
Пусть имеется р ген.совокупностей с параметрами
и
, обучающие выборки объёмом
(
). По выборке объёмом
найдена оценка
. По выборке объёмом
найдена
, тогда оценку плотности
можно представить в виде
.
-определитель ков.матр.
.
- несмещ.оценка ков.матр.получ.по выборке объёмом
.
X=(x1,x2…xk)T вектор текущих значений переменной
Сред X=(средx1,средx2…средxk)T вектор средних обр.выборки
Предположим . Логарифм отношения правдоподобия будет иметь вид
. Отсюда получим
.
Преобразуем левую часть
=
=
Преобразуем выражение, стоящее в квадратных скобках, после преобразования получили
Тогда правило дискриминантной функции можно сформулировать так, если для всех , где
выполняется неравенство
, то наблюдение х следует отнести к классу с индексом L.
содержание Конец