Последовательности этапов решения задач классификации с использованием алгоритмов вычисления оценок

 

Оценки ( ) и (S) поданных за класс (u = 1,2,…, l) по фиксированному опорному множеству или системе опорных множеств соответственно.

Дадим интерпретацию рассмотренных этапов задания алгоритма (Г-модели) применительно к задаче классификации.

Пусть заданы объекты двух классов:

первого , ,…, и

второго , ,…, .

Каждый из объектов характеризуется набором значений u бинарных признаков. Требуется отнести предъявленную строку S длины u к одному из классов.

Зададим длину опорного множества , равную K и выделим все наборы столбцов длины K (предполагается, что всё множество объектов с u признаками сведено в таблицу Tmn2 ).

Берем первый по порядку набор, составленный из столбцов с номерами 1,2,…,k. В предъявленной строке S и строках , ,…, и , ,…, выделим только первые k столбцов (это возможно, т.к. перестановка столбцов в исходной таблице не приводит к потери информативности заданных описаний).

Полученные после такой операции строки обозначим через , ,…, и , ,…, ; .

Обозначим через число строк из , ,…, совпадающие с , через - число строк из , ,…, , тоже совпавшие с .

Построим величины и для всех наборов , ,…, длины k (эти величины соответствуют оценкам ( ) и ( )).

Тогда оценки

(S) =

и

(S) =

полученные по всем наборам длины k, естественно назвать числом голосов, поданных строкой S соответственно за первый и второй классы.

Отнесение строки S к одному из классов можно провести одним из рассмотренных ранее решающих правил. Кроме того, следует учитывать удельное число голосов. Например, величины и называют удельным числом голосов, поданных за первый и второй классы строкой S.

Если > , то строку S можно отнести к первому классу. При = = 0 – алгоритм отказывается от классификации строки S. Если же число объектов в обоих классах совпадает, то нет необходимости привлекать при отнесении (классификации) удельное число голосов.

В случае, если решающее правило ориентировано на использование параметров и ,

= (S) - (S);

= (S) / (S); то значение и можно выбрать в процессе обучения (на контрольном материале) следующим образом:

- фиксируются некоторые значения и .

- производится прогноз на контрольном материале.

- за каждый неправильный прогноз и отказ от распознавания начисляются штрафные очки (например, 2 и 1).

- подсчитывается общее число штрафных очков.

- осматривается окрестность и и каждый раз подсчитывается сумма штрафных очков.

- осуществляется переход в точку с минимальным числом штрафных очков и т.д. до нахождения оптимальных и .

Пример:

Пусть задана таблица объектов (m = 6; n 6; l = 2).

объекты класса

 

объекты класса

- строка S

В качестве голосующих наборов рассмотрим наборы столбцов <1,2>, <3,4>, <5,6>. Две строки будем считать похожими, если они совпадают.

Оставим в таблице сначала столбцы 1и 2, затем 3 и 4 и, наконец, 5 и 6. Получаем, что число совпадений со строками первого класса равно 1, второго 2, т.е. = 1; = 2. Аналогично = 2; = 1; = 1; = 0.

Следовательно, (S) = 4; (S) = 3.

Если решающее правило относит строку по простому большинству голосов, то в данном примере строка будет относиться к классу , т.к. (S) > (S). При = 1 строка S также будет отнесена к классу ; т.к. ( (S) - (S)) = 1 = удельное число голосов, поскольку = .