Визуальное интерактивное дешифрирование 4 страница

где m - среднее по множеству X, а С - ковариационная матрица размерности n x n, элементы которой определяются как

Ковариационная матрица - это, собственно, та же матрица разброса образов в классе относительно центра распределения m (6.13). Элементы этой матрицы отражают взаимосвязь между координатами векторов из множества X. Если для системы координат измерений - базиса пространства X - выполняется условие ортогональности, то есть скалярные произведения (Xi,Xj)=0, i=l,...,n, j=l,...,n, это означает статистическую независимость параметров Xj, j=l,...,n. В этом случае С будет диагональной матрицей с элементами σ ij=(σi²), которые представляют собой дисперсии множества по параметрам Хi Для описания распределения вместо матрицы С тогда достаточно иметь n значений координат вектора σ.

В интерактивных системах обработки многозональных изображений, в частности, для выбора эталонных участков при обучении классификаторов, ортогональное преобразование признакового пространства иногда используется с целью визуализации тех классов объектов, которые не различаются в исходной системе координат пространства признаков, хотя и могут быть разделены автоматическими методами классификации (рис.7.1).

Диапазоны значений признаков X1 и х₂ для классов А и В, изображенных на рис .7.1, перекрываются, поэтому при визуальном анализе изображения, когда определенные цвета присваиваются определенным интервалам, нам не удастся различить эти классы в исходной системе координат, хотя ясно, что для них можно построить разделяющую функцию (в данном примере совпадающую с осью координат f1). В этом случае преобразование признакового пространства к системе координат f1,f2 позволит нам «увидеть» объекты, принадлежащие к этим классам, так как они различаются по признаку f₂.

Анализ многомерных статистических данных с использованием преобразования системы координат исходных параметров к новому ортогональному базису обычно называют анализом главных компонент.

Мы уже говорили о том, что взаимосвязь между координатами измерений отражают элементы матрицы внутригруппового рассеяния или, иначе, ковариационной матрицы. При анализе главных компонент иногда используют непосредственно ковариационную матрицу (7.1), но в наиболее общем случае - корреляционную матрицу. Рассмотрим, что представляет собой эта матрица, более подробно.

Рис.7.1. Разделение классов путем преобразования к главным компонентам

Корреляционная мера и корреляционная матрица.Корреляционная мера сходства двух векторов аи b определяется как косинус угла между этими векторами:

где (а,Ь) - скалярное произведение векторов, ||-|| - норма (длина) вектора.

Ясно, что величина ρ будет принимать значения на отрезке [-1,1], при этом она будет положительна при одинаковых знаках соответствующих координат векторов аи b и отрицательна при противоположных. При конечном числе образов N эта величина есть ни что иное, как выборочный коэффициент корреляции по наборам из i=l,...,N реализаций случайных величин ε_i и ε_к.

При значении меры корреляции ρjk, близкой по модулю к 1, в некоторых случаях можно практически без потери информации использовать при распознавании только один из признаков Xiили Xj. Тем не менее, перед этим все-таки целесообразно проверить, какие классы разделяются по этому признаку и не является ли наличие данного измерения принципиально важным для нашей конкретной задачи.

Матрица R={p_jk}, j=l,...,n, k=l,...,n размерности n x n называется корреляционной матрицей.Из определения коэффициента корреляции ясно, что корреляционная матрица R - симметрическая положительно полуопределенная, с диагональными элементами pjj =1, j=l,...,n.

Наиболее удобным формализованным способом расчета корреляции между признаками-измерениями по выборке образов является использование так называемой стандартизованной матрицы данных [5]. Эта схема удобна и при расчете корреляции между атрибутивными описаниями объектов в ГИС, например, при решении некоторых задач картографической генерализации.

Стандартизованная матрица данных.Пусть у нас имеется N образов, представляющих собой векторы в n-мерном пространстве измеряемых признаков - реализаций n-мерной случайной величины ξ. Представим полученные данные в виде матрицы размерности n x N.

Заметим, что каждый столбец матрицы - это вектор в пространстве размерности N, где N -число наблюдений (образов). В таком N-мерном пространстве задачу выделения наиболее информативных признаков (снижения размерности) можно рассматривать как задачу кластеризации по корреляционной мере сходства.

Для решения этой задачи приведем матрицу данных Х° к стандартизованному виду. 1. Рассчитаем выборочные средние по каждой компоненте (столбцу) j=l,...,n:

2. Вычислим выборочную дисперсию по каждой компоненте:

Дисперсия, рассчитанная по (7.3), является смещенной оценкой с точки зрения математической статистики, но здесь она рассматривается скорее как среднее внутригрупповое расстояние, подобно тому, как это делалось в алгоритмах кластеризации.

Элементы стандартизованной матрицы данных Х={хij} вычисляются по формуле:

Стандартизованную матрицу данных X иначе называют нормированной матрицей.В результате проведенных операций мы перемещаем начало координат пространства признаков в точку с координатами m_l...,m_n и нормируем шкалу по каждой координате на значение а. Полученная таким образом стандартизованная матрица данных обладает следующими свойствами.

Мера корреляции (7.2) между двумя измеряемыми параметрами j и к, представленными вектор-столбцами матрицы X, тогда принимает вид:

Заметим, что ρ_jk=σ_ij/(σ_iσ_j), где σ_ij - выборочная ковариация между случайными величинами ξ_j и ξ_к. Именно поэтому при выполнении ортогонального преобразования к главным компонентам иногда пользуются не корреляционной, а ковариационной матрицей (7.1). Тем не менее, не следует путать эти два понятия.

Задачи корреляционного и факторного анализа возникли значительно раньше методологии распознавании образов. Чаще всего они встречаются в естественнонаучных исследованиях при выявлении факторов (параметров, характеристик), наиболее существенно влияющих на тот или иной процесс, или их комбинаций. Отсюда и название факторный анализ. В геоинформационных технологиях факторный анализ может применяться при картографической генерализации и при создании так называемых синтетических карт, когда производится классификация таксономических единиц карты на несколько градаций по целому комплексу показателей.

Именно потому, что факторный анализ имеет своей основной целью снижение размерности множества данных, мы рассмотрим эту задачу в наиболее общем виде, где ортогональность новых параметров является всего лишь дополнительным условием.

Далее формулы для извращенцев в Зеленой методичке на страницах 45-48.

21. Процедуры обработки изображений при интерактивном визуальном анализе. Контрастное растяжение и свертка с маской (фильтрация). Простейшие примеры сверток.

Для визуального анализа обычно применяются процедуры поднятия контраста (растягивание ненулевого интервала значений яркости на весь динамический диапазон). При анализе многозональных изображений применяется RGB-синтез в удобной для анализа цветовой палитре, а также анализ главных компонент,который мы рассмотрим в соответствующем разделе. Описание основных методов улучшения качества изображений можно найти в [10,11,19,23], а также в разделе «Enhancement» руководства пользователя по пакету ERDAS Imagine. Процедуры улучшения визуального восприятия могут, однако, отрицательно повлиять на качество распознавания, если они хоть каким-то образом связаны с пересчетом значений яркости на исходном изображении. Выполняя подобные преобразования цифрового изображения, всегда необходимо проверять, не изменяет ли оно те свойства объектов исследования, которые будут использоваться в системе распознавания