Статистические методы анализа информации. 2 страница

Необходимо определить наличие линейных корреляционных связей между пропускной способностью и остальными факторами. Предполагается, что выборки по всем вариантам подчиняются нормальному закону. Проверку гипотезы о значимости оценок коэффициентов корреляции произвести с уровнем значимости a, равным 0,1.

Решение. Стандартизация исходной матрицы начинается с вычисления выборочной средней m1, несмещенной оценки дисперсии m2 и среднеквадратического отклонения s по каждой варианте, табл.4.2.

Таблица 4.2

Оценка параметра распределения Варианта  
Х1   X2   X3 X4   X5  
m 1 26,47 41,68 21,87 16,12 24,74
m 2 29,10 36,47 26,37 0,52 1,88
s 5,39 6.04 5,13 0,72 1,37

 

В результате перехода к величинам формируется стандартизованная матрица исходных данных, табл. 4.3.

Таблица 4.3

№ пп Пропускная способность Соотношение сигнал/шум, Остаточное затухание, на частоте, Гц
канала, кбит/с дБ
  U1 U2 U3 U4 U5
–0,02 0,05 –0,82 –0,10 –1,38
0,28 0,36 –0,92 –0,90 –1,09
0,25 0,19 –1,26 2,03 –0,14
0,96 0,93 –0,68 1,10 1,35
–0,55 –0,49 –0,69 –0,64 1,08
–1,01 –1,09 –0,79 1,21 2,03
–1,77 –1,59 –0,09 0,90 0,74
2,06 2,08 0,89 –0,61 –1,20
–1,42 –1,49 –0,90 –0,28 –0,97
–0,13 –0,19 1,67 –1,15 0,31
1,31 1,34 –0,03 –0,71 0,47
0,32 0,36 1,26 –0,58 –0,13
0,42 0,39 1,66 1,03 –0,21
–0,35 –0,37 –0,04 –1,21 –0,68
–0,36 –0,48 0,76 –0,10 –0,19

Оценки коэффициентов корреляции (k = 2, 3, 4) представлены в табл. 4.4. В этой же таблице приведены значения статистик критерия Стьюдента для вычисленных оценок коэффициентов корреляции при n = 15.

 

Таблица 4.4

  X2 X3 X4 X5
r 1 j 0,93 0,25 – 0,13 – 0,22
t 9,12 0,93 0,47 0,81

 

Критическое значение tкр (n–2; a ) = tкр (13; 0,1) = 1,77. Статистика критерия больше критического значения только для r 12. Это означает, что только для указанного коэффициента оценка значима (коэффициент корреляции генеральной совокупности не равен нулю), а остальные коэффициенты следует признать равными нулю.

Корреляционная зависимость не обязательно устанавливается только для двух величин, с ее помощью можно анализировать связи между несколькими вариантами (множественная корреляция). А кроме линейной существуют и другие виды корреляции.

Регрессионный анализ. Постановка задачи. Одной из типовых задач обработки многомерных ЭД является определение количественной зависимости показателей качества объекта от значений его параметров и характеристик внешней среды. Примером такой постановки задачи является установление зависимости между временем обработки запросов к базе данных и интенсивностью входного потока. Время обработки зависит от многих факторов, в том числе от размещения искомой информации на внешних носителях, сложности запроса. Следовательно, время обработки конкретного запроса можно считать случайной величиной. Но вместе с тем, при увеличении интенсивности потока запросов следует ожидать возрастания его среднего значения, т.е. считать, что время обработки и интенсивность потока запросов связаны корреляционной зависимостью.

Постановка задачи регрессионного анализа формулируется следующим образом. Имеется совокупность результатов наблюдений вида (4.1). В этой совокупности один столбец соответствует показателю, для которого необходимо установить функциональную зависимость с параметрами объекта и среды, представленными остальными столбцами. Будем обозначать показатель через y* и считать, что ему соответствует первый столбец матрицы наблюдений. Остальные т–1 (m > 1) столбцов соответствуют параметрам (факторам) х2, х3, …, хт .

Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y* = f(x2 , x3 , …, xт), которая наилучшим образом описывает имеющиеся экспериментальные данные. Допущения:

- количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;

- обрабатываемые ЭД содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;

- матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.

Функция f(x2 , x3 , …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин "регрессия" (regression (лат.) – отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода, и в настоящее время не отражает всей сущности метода, но продолжает применяться.

Решение задачи регрессионного анализа целесообразно разбить на несколько этапов:

- предварительная обработка ЭД;

- выбор вида уравнений регрессии;

- вычисление коэффициентов уравнения регрессии;

- проверка адекватности построенной функции результатам наблюдений.

Предварительная обработка включает стандартизацию матрицы ЭД, расчет коэффициентов корреляции, проверку их значимости и исключение из рассмотрения незначимых параметров (эти преобразования были рассмотрены в рамках корреляционного анализа). В результате преобразований будут получены стандартизованная матрица наблюдений U (через y будем обозначать стандартизованную величину y*) и корреляционная матрица r .

Стандартизованной матрице U можно сопоставить одну из следующих геометрических интерпретаций:

в m-мерном пространстве оси соответствуют отдельным параметрам и показателю. Каждая строка матрицы представляет вектор в этом пространстве, а вся матрица – совокупность n векторов в пространстве параметров;

в n-мерном пространстве оси соответствуют результатам отдельных наблюдений. Каждый столбец матрицы – вектор в пространстве наблюдений. Все вектора в этом пространстве имеют одинаковую длину, равную . Тогда угол между двумя векторами характеризует взаимосвязь соответствующих величин. И чем меньше угол, тем теснее связь (тем больше коэффициент корреляции).

В корреляционной матрице особую роль играют элементы левого столбца – они характеризуют наличие или отсутствие линейной зависимости между соответствующим параметром ui (i =2, 3, …, т) и показателем объекта y. Проверка значимости позволяет выявить такие параметры, которые следует исключить из рассмотрения при формировании линейной функциональной зависимости, и тем самым упростить последующую обработку.

Выбор вида уравнения регрессии. Задача определения функциональной зависимости, наилучшим образом описывающей ЭД, связана с преодолением ряда принципиальных трудностей. В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде

y = f(u1, u2, ...up) + e

(4.5)

где f – заранее не известная функция, подлежащая определению;

e - ошибка аппроксимации ЭД.

Указанное уравнение принято называть выборочным уравнением регрессии y на u. Это уравнение характеризует зависимость между вариацией показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет роли факторов в создании показателя.

Еще одна особенность касается оценки степени влияния каждого фактора на показатель. Регрессионное уравнение не обеспечивает оценку раздельного влияния каждого фактора на показатель, такая оценка возможна лишь в случае, когда все другие факторы не связаны с изучаемым. Если изучаемый фактор связан с другими, влияющими на показатель, то будет получена смешанная характеристика влияния фактора. Эта характеристика содержит как непосредственное влияние фактора, так и опосредованное влияние, оказанное через связь с другими факторами и их влиянием на показатель.

В регрессионное уравнение не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими факторами. Не включают в уравнение и факторы, функционально связанные друг с другом (для них коэффициент корреляции равен 1). Включение таких факторов приводит к вырождению системы уравнений для оценок коэффициентов регрессии и к неопределенности решения.

Функция f должна подбираться так, чтобы ошибка e в некотором смысле была минимальна. Существует бесконечное множество функций, описывающих ЭД абсолютно точно (e = 0), т.е. таких функций, которые для всех значений параметров uj,2 , uj,3 , …, uj,т принимают в точности соответствующие значения показателя yi , i =1, 2, …, п. Вместе с тем, для всех других значений параметров, отсутствующих в результатах наблюдений, значения показателя могут принимать любые значения. Понятно, что такие функции не соответствуют действительной связи между параметрами и показателем.

В целях выбора функциональной связи заранее выдвигают гипотезу о том, к какому классу может принадлежать функция f, а затем подбирают "лучшую" функцию в этом классе. Выбранный класс функций должен обладать некоторой "гладкостью", т.е. "небольшие" изменения значений аргументов должны вызывать "небольшие" изменения значений функции (ЭД содержат некоторые ошибки измерений, а само поведение объекта подвержено влиянию помех, маскирующих истинную связь между параметрами и показателем).

Простым, удобным для практического применения и отвечающим указанному условию является класс полиномиальных функций

(4.6)

Для такого класса задача выбора функции сводится к задаче выбора значений коэффициентов a0 , aj , ajk , …, ajj , … . Однако универсальность полиномиального представления обеспечивается только при возможности неограниченного увеличения степени полинома, что не всегда допустимо на практике, поэтому приходится применять и другие виды функций.

Частным случаем, широко применяемым на практике, является полином первой степени или уравнение линейной регрессии

(4.7)

Это уравнение в регрессионном анализе следует трактовать как векторное, ибо речь идет о матрице данных,

,i =1, 2, … , n.

(4.8)

Обычно стремятся обеспечить такое количество наблюдений, которое превышало бы количество оцениваемых коэффициентов модели. Для линейной регрессии при п > т количество уравнений превышает количество подлежащих определению коэффициентов полинома. Но и в этом случае нельзя подобрать коэффициенты таким образом, чтобы ошибка в каждом скалярном уравнении обращалась в ноль, так как к неизвестным относятся аj и e i , их количество n + т – 1, т.е. всегда больше количества уравнений п. Аналогичные рассуждения справедливы и для полиномов степени, выше первой.

Для выбора вида функциональной зависимости можно рекомендовать следующий подход:

в пространстве параметров графически отображают точки со значениями показателя. При большом количестве параметров можно строить точки применительно к каждому из них, получая двумерные распределения значений;

- по расположению точек и на основе анализа сущности взаимосвязи показателя и параметров объекта делают заключение о примерном виде регрессии или ее возможных вариантах;

- после расчета параметров оценивают качество аппроксимации, т.е. оценивают степень близости расчетных и фактических значений;

- если расчетные и фактические значения близки во всей области задания, то задачу регрессионного анализа можно считать решенной. В противном случае можно попытаться выбрать другой вид полинома или другую аналитическую функцию, например периодическую.

Вычисление коэффициентов уравнения регрессии. Систему уравнений (4.8) на основе имеющихся ЭД однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации ЭД. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии – метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов. В основе МНК лежат следующие положения:

- значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;

- математическое ожидание ошибки e должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной;

- выборочная оценка дисперсии ошибки должна быть минимальна.

Рассмотрим применение МНК применительно к линейной регрессии стандартизованных величин. Для центрированных величин uj коэффициент a0 равен нулю, тогда уравнения линейной регрессии

.

(4.9)

Здесь введен специальный знак "^", обозначающий значения показателя, рассчитанные по уравнению регрессии, в отличие от значений, полученных по результатам наблюдений.

По МНК определяются такие значения коэффициентов уравнения регрессии, которые обеспечивают безусловный минимум выражению

.

(4.10)

Минимум находится приравниванием нулю всех частных производных выражения (4.10), взятых по неизвестным коэффициентам, и решением системы уравнений

(4.11)

Последовательно проведя преобразования и используя введенные ранее оценки коэффициентов корреляции

получим

.

(4.12)

Итак, получено m–1 линейных уравнений, что позволяет однозначно вычислить значения a2, a3, …, am.

Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения.

Когда имеется только один параметр, уравнение линейной регрессии примет вид = a2 u2 . Коэффициент a2 находится из уравнения r y,2 – a2 r 2,2 = 0. Тогда, учитывая, что r 2,2 = 1, искомый коэффициент

a2 = r y,2.

(4.13)

Соотношение (4.13) подтверждает ранее высказанное утверждение, что коэффициент корреляции является мерой линейной связи двух стандартизованных параметров.

Подставив найденное значение коэффициента a2 в выражение для w, с учетом свойств центрированных и нормированных величин, получим минимальное значение этой функции, равное 1– r 2y,2. Величину 1– r 2y,2 называют остаточной дисперсией случайной величины y относительно случайной величины u2. Она характеризует ошибку, которая получается при замене показателя функцией от параметра . Только при |r y,2 | = 1 остаточная дисперсия равна нулю, и, следовательно, не возникает ошибки при аппроксимации показателя линейной функцией.

Переходя от центрированных и нормированных значений показателя и параметра

,

можно получить для исходных величин

 

.

(4.14)

Это уравнение также линейно относительно коэффициента корреляции. Нетрудно заметить, что центрирование и нормирование для линейной регрессии позволяет понизить на единицу размерность системы уравнений, т.е. упростить решение задачи определения коэффициентов, а самим коэффициентам придать ясный смысл.

Применение МНК для нелинейных функций практически ничем не отличается от рассмотренной схемы (только коэффициент a0 в исходном уравнении не равен нулю).

Например, пусть необходимо определить коэффициенты параболической регрессии

= a0 + a2 u2 + a22 u22.

Выборочная дисперсия ошибки

.

На ее основе можно получить следующую систему уравнений

После преобразований система уравнений примет вид

Учитывая свойства моментов стандартизованных величин, запишем

Определение коэффициентов нелинейной регрессии основано на решении системы линейных уравнений. Для этого можно применять универсальные пакеты численных методов или специализированные пакеты обработки статистических данных.

С ростом степени уравнения регрессии возрастает и степень моментов распределения параметров, используемых для определения коэффициентов. Так, для определения коэффициентов уравнения регрессии второй степени используются моменты распределения параметров до четвертой степени включительно. Известно, что точность и достоверность оценки моментов по ограниченной выборке ЭД резко снижается с ростом их порядка. Применение в уравнениях регрессии полиномов степени выше второй нецелесообразно.

Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии (выбрать другую степень полинома или вообще другой тип уравнения) и повторить расчеты по оценке параметров.

При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них.

Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов – изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся ЭД, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.

Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл. Нельзя подставлять в уравнение регрессии такие значения факторов, которые значительно отличаются от представленных в ЭД. Рекомендуется не выходить за пределы одной трети размаха вариации параметра, как за максимальное, так и за минимальное значения фактора.

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для индивидуальных значений показателя интервал должен учитывать ошибки в положении линии регрессии и отклонения индивидуальных значений от этой линии. Средняя ошибка прогноза показателя y для фактора х составит

,

 

где – средняя ошибка положения линии регрессии в генеральной совокупности при x = xk;

s 2(y)= – оценка дисперсии отклонения показателя от линии регрессии в генеральной совокупности;

xk – ожидаемое значение фактора.

Доверительные границы прогноза, например, для уравнения регрессии (4.14), определяются выражением y[xk] ± mош[xk].

Отрицательная величина свободного члена а0 в уравнении регрессии для исходных переменных означает, что область существования показателя не включает нулевых значений параметров. Если же а0 > 0, то область существования показателя включает нулевые значения параметров, а сам коэффициент характеризует среднее значение показателя при отсутствии воздействий параметров.

Задача 4.2. Построить уравнение регрессии для пропускной способности канала по выборке, заданной в табл. 4.1.

Решение. Применительно к указанной выборке построение аналитической зависимости в основной своей части выполнено в рамках корреляционного анализа: пропускная способность зависит только от параметра "соотношение сигнал/шум". Остается подставить в выражение (4.14) вычисленные ранее значения параметров. Уравнение для пропускной способности примет вид

= 26,47– 0,93 . 41,68 . 5,39/6,04+0,93 . 5,39/6,03 . х = – 8,121+0,830х.

Результаты расчетов представлены в табл. 4.5.

 

Таблица 4.5

№ пп Пропускная способность Соотношение сигнал/шум Значение функции, кбит/с Погрешность, кбит/с
канала, кбит/с дБ
Y X e
26,37 41,98 26,72 –0,35
28,00 43,83 28,25 –0,25
27,83 42,83 27,42 0,41
31,67 47,28 31,12 0,55
23,50 38,75 24,04 –0,54
21,04 35,12 21,03 0,01
16,94 32,07 18,49 –1,55
37,56 54,25 36,90 0,66
18,84 32,70 19,02 –0,18
25,77 40,51 25,50 0,27
33,52 49,78 33,19 0,33
28,21 43,84 28,26 –0,05
28,76 44,03 28,42 0,34
24,60 39,46 24,63 –0,03
24,51 38,78 24,06 0,45

Остаточная дисперсия стандартизованной величины Y относительно стандартизованной величины Х равна 1– 0,932 = 0,14, т.е. является малой величиной. Погрешность аппроксимации и величина остаточной дисперсии показывают высокую точность линейной модели, поэтому задачу регрессионного анализа можно считать решенной. Свободный член уравнения регрессии отрицательный, следовательно, область существования показателя не включает нулевое значение параметра "отношение сигнал/шум", что вытекает из сущности параметра (при нулевом уровне сигнала передача информации невозможна).

Дискриминантный анализ. Основная цель Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из названных категорий. Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути.

Вычислительный подход. С вычислительной точки зрения дискриминантный анализ очень похож на дисперсионный анализ (см. раздел Дисперсионный анализ). Рассмотрим следующий простой пример. Предположим, что вы измеряете рост в случайной выборке из 50 мужчин и 50 женщин. Женщины в среднем не так высоки, как мужчины, и эта разница должна найти отражение для каждой группы средних (для переменной Рост). Поэтому переменная Рост позволяет вам провести дискриминацию между мужчинами и женщинами лучше, чем, например, вероятность, выраженная следующими словами: "Если человек большой, то это, скорее всего, мужчина, а если маленький, то это вероятно женщина".

Вы можете обобщить все эти доводы на менее "тривиальные" группы и переменные. Например, предположим, что вы имеете две совокупности выпускников средней школы - тех, кто выбрал поступление в колледж, и тех, кто не собирается это делать. Вы можете собрать данные о намерениях учащихся продолжить образование в колледже за год до выпуска. Если средние для двух совокупностей (тех, кто в настоящее время собирается продолжить образование, и тех, кто отказывается) различны, то вы можете сказать, что намерение поступить в колледж, как это установлено за год до выпуска, позволяет разделить учащихся на тех, кто собирается и кто не собирается поступать в колледж (и эта информация может быть использована членами школьного совета для подходящего руководства соответствующими студентами).