Кластерный анализ как метод многомерной классификации

В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а поэтому и основой всей дальнейшей работы с собранной информацией. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Рассмотрим следующую задачу. Пусть исследуется совокупность n объектов, каждый из которых характеризуется по k замеренным на нем признакам Х. Требуется разбить эту совокупность на однородные в некотором смысле группы (классы). При этом практически отсутствует априорная информация о характере распределения измерений Х внутри классов. Полученные в результате разбиения группы обычно называются кластерами, методы их нахождения – кластерным анализом.

Обычной формой представления исходных данных в задачах кластерного анализа служит прямоугольная таблица:

каждая строка которой представляет результат измерений k рассматриваемых признаков на одном из обследованных объектов. В конкретных ситуациях может представлять интерес как группировка объектов, так и группировка признаков. В тех случаях, когда разница между двумя этими задачами не существенна, например при описании некоторых алгоритмов, мы будем пользоваться только термином “объект”, включая в это понятие и “признак”.

Матрица Х не является единственным способом представления данных в задачах кластерного анализа. Иногда исходная информация задана в виде квадратной матрицы

R=(rij), i,j=1, 2, ..., k, элемент rij , который определяет степень близости i-го объекта к j-му.

Большинство алгоритмов кластерного анализа полностью исходит из матрицы расстояний (или близостей), либо требует вычисления отдельных ее элементов, поэтому если данные представлены в форме Х, то первым этапом решения задачи поиска кластеров будет выбор способа вычисления расстояний, или близости, между объектами или признаками.

Обычное Евклидово расстояние где хie - величина е-ой компоненты у i-го (j-го) объекта (е=1,2,...,к, i,j=1,2,...,n)

Использование этого расстояния оправдано в следующих случаях:

а) наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение с ковариационной матрицей вида σ2Ек, т.е. компоненты Х взаимно независимы и имеют одну и ту же дисперсию, где Ек - единичная матрица;

б) компоненты вектора наблюдений Х однородны по физическому смыслу и одинаково важны для классификации;

в) признаковое пространство совпадает с геометрическим пространством.

“Взвешенное” Евклидово пространство применяется в тех случаях, когда каждой компоненте xl вектора наблюдений X удается приписать некоторый “вес” ωl, пропорционально степени важности признака в задаче классификации. Обычно принимают 0≤ωe≤1, где e=1,2,...k.

Хеммингово расстояниеИспользуется как мера различия объектов, задаваемых дихотомическими признаками. Это расстояние определяется по формуле и равно числу несовпадений значений соответствующих признаков в рассматриваемых i-м и j-м объектах.

В ряде процедур классификации (кластер-процедур) используют понятия расстояния между группами объектов и меры близости двух групп объектов.

Пусть si- i-я группа (класс, кластер), состоящая из ni объектов; - среднее арифметическое векторных наблюдений si группы, т.е. "центр тяжести" i-й группы; ρ(sl,sm) - расстояние между группами sl и sm. - расстояние, измеряемое по принципу “ближайшего соседа”

Наиболее употребительными расстояниями и мерами близости между классами объектов являются:

- расстояние, измеряемого по принципу “дальнего соседа”

- расстояние, измеряемое по “центрам тяжести” групп

- расстояние, измеряемое по принципу “средней связи”, определяется как среднее арифметическое всех попарных расстояний между представителями рассматриваемых групп

Академиком А.Н.Колмогоровым было предложено “обобщенное расстояние” между классами, которое включает в себя в качестве частных случаев все рассмотренные выше виды расстояний.

,где ; - расстояния между классами se, sm и sq;

- α, β, δ и γ - числовые коэффициенты, значения которых определяют специфику процедуры, ее алгоритм.



57578.php">Далее ⇒