Отсюда 2-й коэффициент регрессии равен

,

где ковариация (смешанный момент второго порядка)

так как и — постоянные величины, то ; дисперсия

так как — постоянная величина, то ;

дисперсия ;

коэффициент корреляции (нормированная ковариация)

;

Sx и Sy — средние квадратичные отклонения значений x и y в выборке.

Таким образом, имеем следующие формулы для определения коэффициентов регрессии

Если предварительно не производился корреляционный анализ, то для коэффициента b1 удобнее использовать следующую формулу

. (2.4)

Естественно, что после нахождения модели представляет интерес определение тесноты связи между переменными. Если перед проведением регрессионного анализа был выполнен корреляционный анализ, то по величине найденного коэффициента корреляции можно судить о тесноте связи между y и x. Другой характеристикой степени тесноты связи служит средняя квадратическая ошибка (СКО), характеризующая рассеивание экспериментальных точек относительно найденной линии регрессии. Квадрат этой СКО называется остаточной дисперсией (в некоторых источниках она носит название дисперсии адекватности).

Для нашего случая

Остаточная дисперсия и коэффициент корреляции взаимосвязаны. Рассмотрим эту связь.

В регрессионном анализе используется правило разложения вариации (см. 1.12) на три суммы квадратов [11]:

1. Полная сумма квадратов

2. Сумма квадратов регрессий, объясняемая наличием регрессии линейного вида

3. Остаточная сумма квадратов, характеризующая рассеивание экспериментальных точек вокруг линии регрессии

.

Здесь — предсказанные значения y, т.е. значения, лежащие на линии регрессии, соответствующей полученному уравнению регрессии.

Для линейного уравнения регрессии

Эти суммы, делённые на соответствующие числа степеней свободы, дают дисперсии:

– полная дисперсия, или дисперсия воспроизводимости,

;

дисперсия регрессии (объяснённая дисперсия)

;

– остаточная дисперсия или дисперсия адекватности (необъяснённая дисперсия),

,

где d — число линейных членов аппроксимирующего полинома.

Суммы связаны соотношением (подставляем )

так как . То есть сумма отклонений относительно среднего при большом n всегда равна нулю.

Для установления связи между Sост и rxy составляем отношение:

.

Сумму B можно записать через уравнение регрессии y на x

,

заменив b0 его выражением (2.3).

Тогда получаем

и .

Подставляя b1 из (2.4), имеем

Так как

,

то

Отсюда остаточная дисперсия определяется через коэффициент корреляции rxy и полную дисперсию (воспроизводимости)

.

Из формулы для rxy следует, что если все экспериментальные точки находятся на линии регрессии, то и . То есть вся дисперсия объясняется линейной регрессией y на x.

Если же переменные y и x независимы, то Sост = Sy (Sост £ Sy) и , т.е. вся дисперсия зависимой переменной остаётся необъяснённой.

Выражение определяет долю дисперсии, объяснённой линейной регрессией y на x.

Поэтому коэффициент корреляции может быть определён следующим образом

.

Квадрат эмпирического коэффициента корреляции называется коэффициентом детерминации. Коэффициент детерминации характеризует точность уравнения регрессии. По нему определяют возможность использования полученной модели. Если рассчитанный коэффициент детерминации , то моделью можно пользоваться.

После нахождения коэффициентов регрессии и, следовательно, получения регрессионной модели проводят проверки:

– значимости модели;

– значимости коэффициентов регрессии;

– адекватности модели

и определяют интервальные оценки (доверительные интервалы) коэффициентов регрессии.

Проверка значимости модели состоит в следующем. При использовании линейной модели регрессии предполагается, что закон распределения системы случайных величин (X, Y) является нормальным. Это предположение, принятое априори, нуждается в статистической проверке. Может оказаться, что двумерный нормальный закон распределения нельзя считать согласующимся с эмпирическими данными. В этом случае как генеральная, так и построенная — линии регрессии должны иметь нелинейный вид. Так как уравнения регрессии обычно подбираются по небольшому числу данных, то нормальность распределения y при заданном (фиксированном) значении x трудно проверить. Поэтому вместо проверки нормальности распределения y проверяют гипотезу линейности, т.е. нулевую гипотезу H0: b1 = 0 против альтернативной гипотезы H1: b1 ¹ 0. Если принимается нулевая гипотеза, то считается, что уравнение регрессии Y на X либо имеет нелинейный вид, либо эти переменные являются независимыми случайными величинами. В общем случае, если в модели имеется k коэффициентов регрессии (кроме b0), следует проверить гипотезу . Для этого вычисляют F-крите-рий [12]

Затем находят табличное значение критерия Fкрит (α, fb, fa), где α — выбранный уровень значимости;

fb = k –1 — число степеней свободы дисперсии ;

fa = n –1 — число степеней свободы полной дисперсии .

Если Fрасч > Fкр, то уравнение считают значимым. Другим методом проверки нулевой гипотезы является дисперсионный анализ [11].

Для оценки точности нахождения точечных оценок (достоверности, значимости) коэффициентов регрессии используют t-критерий Стьюдента [10]

,

где — дисперсия коэффициента регрессии.

Для нашего случая:

и ,

где и .

Полученные критерии сравниваются с табличными критериями, которые находятся по таблицам t-распределения Стьюдента при выбранной доверительной вероятности p (или уровне значимости a) и числе степеней свободы nd (для нашего случая n – 2). Если , то можно считать коэффициент регрессии достоверным (значимым). Если оказывается, что , то этот коэффициент регрессии следует считать незначимым, т.е. равным нулю.

Доверительные интервалы (верхняя и нижняя границы) для генеральных коэффициентов регрессии bi находятся по формуле

,

где — доверительный полуинтервал.

определяют по таблицам t-распределения Стьюдента при выбранном уровне значимости α и числе степеней свободы nd.

Доверительный полуинтервал Δbi может также служить для оценки значимости коэффициентов регрессии bi: если |bi| > Δbi, коэффициент bi значим.

После проверки значимости коэффициентов регрессии оценивают адекватность модели, т.е. её соответствие экспериментальным данным. Этим самым проверяют, все ли связи между факторами и выходным параметром учтены уравнением регрессии. Для этого опять используют F-критерий, который находят по формуле

.

Если Fрасч < Fкр, найденного по таблицам для выбранного уровня значимости a и числа степеней свободы fc = nd и fa = n–1, то модель признаётся адекватной объекту.

Следует отметить, что существует два противоположных условия для выбора окончательного уравнения регрессии:

1. Если мы хотим сделать уравнение полезным для прогноза, то мы должны стремиться включить в него как можно больше переменных с тем, чтобы определение прогнозируемых величин стало более надёжным.

2. Поскольку затраты, связанные с получением информации и её последующим контролем, при большом числе переменных велики, мы должны стремиться к тому, чтобы модель включала как можно меньше переменных.

Компромисс между этими крайностями как раз и есть то, что обычно называется выбором «наилучшего» уравнения регрессии. Существует ряд методов выбора (например, метод экспертных оценок).

В заключение необходимо иметь в виду следующее. Если регрессионный анализ проводится по данным пассивного эксперимента (как в этом параграфе), то могут возникнуть опасные ситуации:

1. Ошибка в модели может быть не случайной, а оказаться следствием совместного влияния нескольких переменных, не содержащихся в регрессионном уравнении, а возможно, и вовсе неизмеряемых.

2. Из-за того, что переменные изменяются в весьма узких пределах, отклики поддерживаются в определённых границах. Малость этих изменений может стать причиной того, что некоторые коэффициенты регрессии окажутся «статистически незначимыми». Это может противоречить практике, когда известно, что эти переменные существенны.

3. Распространённая на практике стратегия управления объектами (например, если x1 повышается, то надо для компенсации снижать x2) зачастую вызывает значительные корреляции факторов. Из-за этого невозможно понять, с x1 или x2, или с той и другой переменными связано изменение Y.

Планирование эксперимента позволяет избежать этих ситуаций.

В заключение этого параграфа отметим, что регрессионный анализ является более эффективным при многофакторном исследовании.

 

Вопросы для самопроверки

 

1. Какие методы анализа применяются в пассивном эксперименте?

2. Для чего используется метод статистического анализа?

3. Какие методы используются для определения параметров распределения?

4. Что такое метод максимального правдоподобия?

5. Для чего используется метод дисперсионного анализа и в чем он состоит?

6. Для чего используется корреляционный метод и в чем он состоит?

7. Для чего используется метод регрессионного анализа и в чем он состоит?

8. Как подбирается модель в регрессионном анализе?

9. Какие проверки проводятся в регрессионном анализе?

 

Глава 3. МЕТОДЫ АКТИВНОГО ЭКСПЕРИМЕНТА. пЛАНИРОВАНИЕ

 

Основные положения планирования эксперимента

 

Эти положения развиты в науке «Планирование эксперимента», которая отвечает на вопросы: как обработать априорную информацию, сколько и каких надо произвести опытов, как обработать результаты опытов и т.п. Как указывалось ранее, такой эксперимент называется активным. Активный эксперимент позволяет решать многие задачи исследования объектов: отыскивать механизм процессов, выделять наиболее влияющие факторы, получать математическую модель процесса, отыскивать оптимальные условия протекания процессов и т.п.

Математико-статистические методы, на которых основано планирование экспериментов, являются одним из эмпирических способов получения математического описания сложных процессов. Поскольку отсутствует знание механизма исследуемого процесса или оно является неполным, то оказывается неизвестным аналитическое выражение функции, описывающей процесс. В таком случае используется кибернетический подход к исследованию объекта и процесса, который в нем происходит. В качестве модели объекта используется обычно «черный ящик», в котором рассматривают четыре группы переменных (рис. 3.1).

 

Рисунок 3.1 — Группы факторов

Группа y1, …, yp — это выходные параметры объекта или параметры оптимизации (целевые функции и т.д.). Группа x1, …, xk — входные параметры или независимые факторы, которые являются управляемыми и при изменении которых в процессе эксперимента изучается объект исследования. Группа z1, …, zq — входные факторы, которые неуправляемы, но которые можно контролировать при проведении эксперимента. Группа w1, …, ws — входные факторы, которые и неуправляемы, и не контролируемы. Две последних группы факторов могут значительно увеличивать ошибки эксперимента.

На такой модели изучают зависимость параметров оптимизации от изменения входных факторов, не связывая эту зависимость с механизмом процесса в объекте. Связь между входом и выходом объекта записывается в виде математической модели — уравнения регрессии или полинома

,

где φj — функция отклика;

b0, bi — коэффициенты регрессии.

Функция φ определяет изменение выходного параметра в ответ на изменения факторов, т.е. отклик. При геометрической интерпретации функция отклика представляет некоторую поверхность, расположенную в факторном пространстве, координатами которого являются факторы.

После проведения эксперимента задача состоит в нахождении коэффициентов регрессии.

Так как для планирования эксперимента применяются математико-статистические методы, то составляются программы эксперимента, которые носят название планов первого, второго и k-го порядков. План эксперимента, позволяющий вычислить коэффициенты линейного уравнения регрессии, называется планомпервого порядка. План второго порядка — план эксперимента, позволяющий вычислить коэффициенты полного уравнения регрессии второй степени, и т.д.

План эксперимента основывается на двух основных методологических концепциях, которые внесла математическая статистика в теорию эксперимента: концепции рандомизации и концепции оптимального использования факторного пространства.

Концепция рандомизации (случайности) состоит в том, что в эксперименте создается искусственно случайная ситуация для того, чтобы исключить влияние неконтролируемых систематических факторов на параметр оптимизации y путём перевода этих факторов в разряд случайных и учета их влияния статистически. Для того чтобы их рандомизировать, в программу эксперимента стали включать параллельные опыты, результаты которых усредняются. Последовательность выполнения этих опытов определяется обычно с помощью таблицы случайных чисел. Тем самым достигается объективность эксперимента, которую способна обеспечить только рандомизация. Однако полная рандомизация не всегда достижима, что потребовало создания рандомизированных планов с ограничениями [15, 16].

Концепция оптимального использования факторного пространства заключается в том, что опытные точки (точки, которые определяют условия проведения очередного опыта) расположены в факторном пространстве оптимальным образом. При этом математическое описание процесса оказывается наиболее точным, чем если бы опыты проводились в точках, расположенных каким-то другим образом.

Активный эксперимент выполняется в виде полного факторного эксперимента (ПФЭ) и дробного факторного эксперимента (ДФЭ). Используются также отсеивающие эксперименты, позволяющие снизить число значимых факторов.

Методы ПФЭ и ДФЭ используются для планирования дисперсионного анализа при числе факторов больше единицы (в отличие от ранее рассмотренного рандомизированного, но не спланированного ДА), для поиска оптимума целевой функции и т.д.

 

 

Построение плана активного эксперимента

 

План активного эксперимента определяет расположение экспериментальных точек в k-мерном факторном пространстве, т.е. он определяет условия всех опытов, которые необходимо провести. Обычно план эксперимента задается в виде матрицы планирования.

Матрица планирования — это таблица, в которой записывается план эксперимента. Она соответствует набору значений независимых переменных х, который обычно записывается в виде матрицы

где хij — значение i-го фактора в j-м эксперименте ( ; ).

Таким образом, каждая строка матрицы планирования определяет условия проведения очередного опыта, а каждый столбец — значения одной из независимых переменных в разных опытах (табл. 3.1).

Для удобства представления полинома в виде однородного уравнения в матрицу планирования вводится фиктивная переменная х0, которая во всех опытах принимает значение +1.

 

Таблица 3.1

 

№ опыта Параллельные опыты   План эксперимента   yji
I II III х0 х1 х2 ..i.. хk yj1 yj2 yj3
+1 –1 –1   –1 y11 y12 y13
+1 +1 –1   –1 y21 y22 y23
. . j . .                      
N +1 +1 +1   +1 yN1 yN2 yN3

 

Прежде чем строить план эксперимента, необходимо выбрать:

– область эксперимента;

– основной уровень факторов (центр плана);

– интервалы изменения факторов.

Выбор области эксперимента, т.е. границ, в которых рассматриваются изменения факторов, основан на использовании априорных сведений об изучаемом процессе. При их отсутствии необходимо определять границы области с учетом физических, технико-экономических, аппаратурных и других ограничений.

Выбор основного уровня (центра плана или точки, в окрестностях которой ставится серия опытов) производится в зависимости от поставленной задачи на основе априорной информации о процессе (объекте). Если такой информации нет, то основной (нулевой) уровень обычно выбирается в центре исследуемой области. Например, при исследовании работы какой-либо электронной схемы в качестве основного уровня выбирается точка, соответствующая номинальным значениям параметров элементов схемы и обеспечивающая номинальное значение выходного параметра.

Построение плана эксперимента состоит в выборе экспериментальных точек, симметричных относительно основного уровня (центра плана) [15].

Выбор интервалов изменения факторов производится так, чтобы это изменение давало возможность заметить изменение величины выходного параметра на фоне «шумов» при небольшом числе параллельных опытов. Обычно интервал варьирования факторов выбирают в пределах 0,05…0,3 от диапазона изменения по данной переменной и устанавливают в двух уровнях, достаточных для получения линейной модели.

Для удобства заполнения матрицы вводят кодированные значения факторов –1 и +1 (обычно единицы не пишутся). При этом упрощается также обработка экспериментальных данных. Кодированные значения факторов получают следующим образом. Выбирают интервал изменения фактора таким, чтобы он был равен разности между значениями фактора на границе области и в центре плана. Тогда кодированное значение фактора определяется по формуле

где — натуральное значение фактора;

— натуральное значение основного уровня i-го фактора;

— интервал изменения i-го фактора.

При , соответствующем нижнему уровню фактора, кодированное значение xi = –1. При , соответствующем верхнему уровню фактора, xi = +1.

Например, температура изменяется от нижнего уровня до верхнего уровня . Нормальная температура (основной или нулевой уровень) . Выбираем интервал изменения фактора . Тогда кодированные значения, соответствующие нижнему и верхнему значениям фактора, будут