Дискриминантный анализ как метод многомерной классификаций с обучением

Дискриминантный анализ (вероятностный метод) включает в себя статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками. Решается задача отнесения n объектов к одному из р классов в k-мерном пространстве. Под классом понимают ген.совокупность, описываемую функцией плотности f(x) или полиномом вер-ти в случае дискретных признаков х. наблюдение будет отнесено к тому классу, в рамках кот. оно выглядит более правдоподобно. Этот принцип может корректироваться с учётом удельных весов классов и особенностей функций потерь. Для реализации такого подхода необходимо знание ф-ций , задающих законы распределения вер-ти в соотв. классах. Обычно на практике неизвестен и мы можем найти только оценки параметров распред. по выборкам , кот называются обучающими.

Очевидно, что методы классификаций следует выбирать по условию min потерь или вер-ти неправильной классификации объектов. - потери от ошибочного отнесения объекта m-ого класса к классу l. При l=m =0. Пусть в процессе классификации среди n подлежащих дискриминации объектов класса m ошибочно отнесены к L. Тогда общие потери .

Тогда удельная хар-ка потерь при

=

Предел понимается в смысле сходимости по вероятности относительных частот к вер-ти , а также (вер. Извлечения объекта класса m из n наблюдений). - априорная вер. или удельный вес класса m. определяет средн. потери от неправильной классификации объектов m-ого класса средн.удельные потери от неправильной классификации всех n. Обычно предполагают: . Тогда min средн.удельных потерь С будет эквивалентна стремлению max вер-ти правильной классификации объектов = . = . Предполагается . В этой связи при построении процедур классификации можно говорить не о потерях, а о вер-ти неправильной классификации = . Поэтому =

Плотность распределения вероятности

Решающее правило или дискриминантная ф-ция S(x) – ф-ция, которая может принимать только положительные значения . Те наблюдения х, для которых она принимает значение L, будем относить к L-ому классу . Очевидно, что - область в к-мерном пространстве возможных значений признаков. S(x) строится таким образом, чтобы подобласти этого пространства были взаимонепересекающимися и охватывали все n наблюдений. Таким образом решающее правило может быть задано в виде разбиения . Решающее правило S(x) – оптимальное байесовское, если оно сопровождается min потерями С среди др. процедур классификации.

Если , то . Max взвешенная правдоподобность наблюдения , в качестве весов выступают априорные вер-ти .

Параметрический дискриминантный анализ в случае нормального распределения внутри классов. Число классов p=2.

Правило классификации заключается в следующем: наблюдение относят к классу , если , , .

Имеется 2 совокупности X и Y. Тогда множество возможных реализаций СВ X и Y можно разделить на 2 области гиперплоскостью , где вектор значений показателей для наблюдения, подлежащего дискриминации. - дискриминационная функция. - вектор значений коэффициентов дискр. функции. Дискр. функция U позволяет перейти от к-мерного пространства к одномерному. Т.о. 2 области пространства можно задать неравенствами: . Наблюдение относят к X, если U>=c. Задача дискриминации сводится к определению коэффициентов дискр. функции и const C. Предположим, что известны априорные вер-ти (вер.того,что набл. классу Х), . Пусть известен ущерб от ошибочного отнесения С(Y/X), С(X/Y). Неизвестны параметры ген. совокупности и . В этом случае дискриминация осуществляется с помощью обобщённой Байесовской процедуры классификации. Для этого по обучающим выборкам находим оценки параметров ген.совокупности. , , , где - несмещённые оценки ков.матриц, полученных по выборкам объёмом n1 и n2. Оценка вектора параметров дискриминантной функции , . Найдём n1 значений этой ф-ции для первой обуч.выбор. , . Для n2 аналогично. . Если и С(Y/X)=C(X/Y), . , то z0 относится к Х, иначе к Y.

параметрический дискриминантный анализ в случае нормального распределения внутри классов. Число классов р>2.

Процедура дискриминации для p>2 нормально распр. классов.

Пусть имеется р ген.совокупностей с параметрами и , обучающие выборки объёмом ( ). По выборке объёмом найдена оценка . По выборке объёмом найдена , тогда оценку плотности можно представить в виде . -определитель ков.матр. . - несмещ.оценка ков.матр.получ.по выборке объёмом .

X=(x1,x2…xk)T вектор текущих значений переменной

Сред X=(средx1,средx2…средxk)T вектор средних обр.выборки

Предположим . Логарифм отношения правдоподобия будет иметь вид . Отсюда получим .

Преобразуем левую часть

=

=

Преобразуем выражение, стоящее в квадратных скобках, после преобразования получили

Тогда правило дискриминантной функции можно сформулировать так, если для всех , где выполняется неравенство , то наблюдение х следует отнести к классу с индексом L.

содержание Конец