Решение задач о погрешностях

Найти вероятность того, что абсолютное отклонение Dх= êx-mх êне превзойдет заданного числа e

Р(Dх£e)=З(mx-e £ mx+e)

Для нормированной случайной функции

P(-e£ xo £ e)=Ф(e)-Ф(-e)=2Ф(e)

Для случайной величины, имеющей нормальное распределение с параметрами mx и sх

Р(Dх£e)=Р(Dхо£e/sх)=2Ф(e/sх)

Обозначив k=e/sх получим

Р(Dх£ksх)= 2Ф(k)

P(Dх£sх)=2Ф(1)=0,6826

P(Dх£2sх)=2Ф(2)=0,9544

P(Dх£3sх)=2Ф(3)=0,9973

Последняя величина указывает на практически невозможное событие.

----------------------------------------------------------------------------------------------

Пример 2. Толщину керамической плитки h можно считать случайной величиной, распределенной по нормальному закону с sх =0,3 мм. Какова вероятность того брака,при котором Dh³0,5 мм ?

Вероятность противного события: Р(Dh£0,5)=2Ф(0,5/0,3)=0,905

Отсюда Р(Dh³0,5)=1-0,905=0,095.

---------------------------------------------------------------------------------------------------

Определение параметров функции распределения.

Берем выборку (n значений) из генеральной совокупности (т.е. все

допустимые значения случайной величины. Весь диапазон изменения случайной величины делим на k интервалов. Рекомендуемое значение k:

k=1+3,2lg(n)

Длина интервала h=(Xмакс -Xмин)/k. Подсчитаем число элементов

выборки,попадающих в отдельный интервал n. Относительная частота попадания случайной величины в i-й интервал Рi =ni/n. Все точки, попавшие в i-й интервал относят к середине интервала

Xi* =(Xi-1 +Xi )/2

Строят диаграмму-график, по оси абсцисс откладывают значения

Xi * и по оси ординат значения ni. Полученные точки соединяют между собой, таким образом получают экспериментальную кривую распределения - “полигон”. Это дифференциальная кривая распределения. Интегральную кривую распределения получают, откладывая по оси ординат суммы ni всех точек, находящихся слева (со стороны более низких значений X).

Оценка математического ожидания и дисперсии. Для нормального

распределения получают среднее арифметическое значение Xcp =S Xi /n и выборочную дисперсию S2=S(Xi -Xcp)2 /n. Величина S “смещена”.

Для получения несмещенной оценки ее умножают на n/(n-1). Тогда получаем:

S2 =S(Xi -Xcp)2/(n-1)=( SXi 2 -(SXi )2 /n)

Ошибки измерений.

Ошибки бывают грубые, систематические и случайные. Случайные

ошибки - остающиеся после устранения грубых и систематических, они вызываются большим количеством таких факторов, эффекты действия которых столь незначительны, что их нельзя выделить в отдельности.

сли результатов испытаний много, то значения X частичной совокупности из n значений, полученных путем независимых испытаний, распределяется нормально со средним значением Xср и дисперсией s2. Нормированное отклонение (Xср -Xi )/sn-1/2 ) распределяется нормально со средним значением равным нулю и дисперсией, равной единице. Однако при исследованиях дисперсия s2 почти всегда остается

неизвестной и мы не можем произвести нормирование. Отклонение среднего значения частичной (выборочной) совокупности от среднего значения нормальной общейокупности, нормированное с помощью S2 (несмещенная оценка выборочной дисперсии) обозначается t:

t=((Xcp - mx )/S) n1/2

Функция распределения t имеет сложный вид, в нее входит число степеней свободы n. Интегрируя f(t) от - ¥ до t найдем вероятность Sn(t) случайных значений to меньших, чем заданное t:

Sn(t)=Р[tо <t]

Распределение S(t) - распределение Стьюдента или t-распределение.Это распределение используется для ответа на вопрос, является ли значимым наблюдаемое значение (для оценки средних значений).

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Пример. Пусть испытываются на 10 больных два лекарства - снотворных. Нужно определить, является ли значимым разница в длительности сна. Добавочные суммы часов длительности сна группы 1 составляют в среднем +0,75 час и во второй группе +2,33 час. Проверяем гипотезу о том, что действие лекарств одинаково. Общее среднее арифметическое X =1,54. Оценка общей дисперсии S=1,23. t=(1,54/1,23)101/2=3,96.

По Таблице значений функции t находим, что при степени свободы 9 значение t будет случайно превышать по абсолютной величине 3,25 только в одном случае из 100. Таким образом, наблюдаемая разность

является существенной, второе лекарство более действенное, чем первое.

Примечание: Вообще, достаточной для вывода о существенности является вероятность 0,95. В данном случае вероятность более 0,99

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Доверительные границы.

Пусть есть частичная совокупность из n значений. Среднее значение Xо, несмещенная оценка дисперсии S2 . Требуется найти границы, внутри которых с определенной степенью надежности находится среднее значение общей совокупности Xср.

Значения справа и слева от Xоо+e и Хо-e) называются доверительными границами для среднего значения общей совокупности при, например, 5% уровне значимости, а вероятность того, что промежуток с этими крайними значениями накроет среднее значение общей совокупности называется доверительной вероятностью. Выбрав 5% уровень значимости при данном значении степеней свободы n=n-1, находим по таблице значение t0,05 , при котором Р[|t|>| t0,05| ], что означает

Р[|t|<t0,05]=0,95

или

- t0,05 <(Xср-Xо )/Sn-1/2 < +t0,05 ;

или с вероятностью 0,90 мы можем утверждать, что среднее значение общей совокупности Xо лежит в пределах:

Xср -t0,05S/n1/2 <Xо <Xср +t0,05 S/n1/2

(с уровнем значимости 1-р=95%)

При n>=50 можно полагать, что S=sx , находим k=e/sх из Таблицы функции Лапласа Ф(e/sх); доверительные границы e=ksх/n1/2: Хср - e £mx £ Хср + e

или

Р([Хср-mx |£e)=2Ф(e/sх)

При Р=0,05 и n=9 по Таблице t0,05 =2,26

Таким образом, при n=10, S=0,1 и X0 =1 доверительная граница e=tтабS/n1/2=2,26.0,1/101.2 = 0,0715 и или X0 -истинное среднее значение с вероятностью 0,90 лежит в пределах от 1,0715 до 0,928.

Если n=5 и S=+0,2 то t0,05 =2,776 e=2,776.0,1/51/2 =0,124

т.е. X0 лежит в пределах от 1,124 до 0,876 (с вероятностью 0,90).

Сколько нужно образцов, чтобы с вероятностью 0,9 было определено Xcp ? Получаем n>4.

Оценка расхождений между средними знпчениями

 

Проверим гипотезу, что две независимые частичные совокупности n1 и n2 взяты из одной и той же нормально распределенной общей совокупности, имеющей среднее значение X0 и дисперсию s2 .

Пусть оценки дисперсии S1 и S2 и пусть проверяемая гипотеза верна. Основой проверки является резность Xcp1 и Xcp2 , дисперсия которой равна

s12/n1+s22/n2 = (n1 + n2 )s2 /n1n2

Так как оценки S12 и S22 дисперсии s2 имеют вес n1 -1 и n2 -1, то полная оценка дисперсии s2 будет равна

S2 =[(n1 -1)S12 +(n2 -1)S22]/[(n1 -1)+(n2 -1)] =

= [S(X-Xcp)2 +S(X-Xcp)2]/(n1 +n2 -2)

В результате получаем

t = [(X -Xcp1)2/S][n1n2 /(n1 +n2 )]

 

Для оценки значимости расхождения между двумя средними можно воспользоваться таблицей t с числом степеней свободы n1+n2 -2.

В вышеприведенном примере t=2,8, а табличное t=2,567 при n=18 P=0,02. Т.о. вероятность случайных значений t, которые по абсолютной величине не меньше наблюдаемого t ничтожно мала. Следовательно, наблюдаемое расхождение не является случайным.

 

Оценка дисперсии. Критерий Фишера.

 

Пусть есть две независмых совокупности X'...Xn1 ' и X"...Xn2 " со средними значениями Xcp1 и Xcp2 . Оценки дисперсий S12 и S22 .Необходимо выяснить, являются ли эти оценки существенно pазличными или данные частичные совокупности можно рассматривать как взятые наудачу из нормальных общих совокупностей, имеющих равные дисперсии s2 .

Для решения этой задаси используют критерий Фишера F - (дисперсионное отношение) - отношение оценок S12 и S22 дисперсии s , полученные из независимых частичных совокупностей F=S12/S22 . Построены таблицы F в зависимости от степени свободы , которые могут быть превзойдены соответственно с вероятностью 0,05; 0,01 и др.

Проверяемая гипотеза: Частичные совокупности взяты из одной и той же совокупности из нормальных общих совокупностей равной дисперсией. За S12 берется большая из них.

- - - - - - - - - - - - - - - - - - - - - - -- - - - - - - - - - - -

Пример. Пусть работают два лаборанта. У одного из них получилось Xср1 =4,57 S12 =0,0295 n=19 (n=20). У другого Xср2 =4,56 S22=0,0139 n=12

 

Находим F=0,0295/0,0139=2,12. По таблице при n=19 и 12 и 5% уровне значимости F=2,54. Так как рассчитанное F меньше табличного, то нет оснований считать разницу в точности существенной.

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Критерий Романовского

Для сравнения дисперсий с помощью критерия Романовского вводится величина f=[(n -2)/n ]F, где F-критерий Фишера. Математическое ожидание этой величины в случае независимого выбора из нормальных общих совокупностей с одинаковой дисперсией равно 1, а основное отклонение равно sr =+[(2n1 +n1 -2)/ n1(n2 -4)]1/2 .

По величине критерия R=|f-1|/sr можно делать заключение о существенности или случайности расхождений между оценками S12 и S22 .

Если R³3, то расхождение существенно.

Если R<3, то расхождение признается случайным.

Для применения этого критерия надо, чтобы одно из чисел степеней свободы было больше 4. Оно принимается за n2 . В примеpе о работе двух лаборантов получаем f=1,77 и sr =0,72 R=1,07.Вывод тот же.

Критерий согласия Пирсона P(c2 )

Критерий Пирсона проверяет гипотезу, удовлетворяет ли рассматриваемая случайная величина заданному закону распределения F(X). Критерий Пирсона называется также критерием согласия или критерий хи-квадрат. Критерий служит для проверки гипотезы, что функция распределения, полученная экспериментально, F(X), соответствует некоторой заданной (гипотетической) функции распределения F0(X). Для расчетов область значений Х делится на ряд интервалов h. Пусть рi теоретическая вероятность того, что случайная величина попадает в интервал i. Затем сравниваем число с теоретическим.

Распределение Р(c2) представляет собой вероятность того, что

случайная величина c2 =S(Xh2/sh2 ) (где Xh =ni -nч ; nч -частота нормального распределения) примет значение, превосходящее некоторое заданное :

h

c2 =S(ni-npi)2/npi

i=1

где рi=ni/n и h-число интервалов; Xh(h=1,n) - независимые случайные величины, имеющие нормальные распределения с общим средним значением, равным нулю и дисперсиями sh2 (h=1,n). Число независимых величин n - число степеней свободы.

 

Проверка воспроизводимости опытов и однородности дисперсий

Грубые ошибки.

Если есть грубые ошибки, то нарушается характер распределения,т.е. нарушается однородность распределения. Выявление грубых ошибок - это проверка однородности наблюдений.

Следует расположить данные в порядке возрастания. Рассчитывают Q=(yа -y)/R где yа -выделяющееся аноpмальное значение, y-соседнее значение; R=ymax -ymin - размах варьирования. Если рассчитанное Q больше табличного для выбранного уровня значимости a при числе параллельных наблюдений N, то значение ya может быть отнесено к аноpмальному.

Таблица. Значения Q для оценки резко выделяющихся наблюдений.

при различных уровнях значимости a.

Число наблюдений Уровень значимости a a=0,1 a=0,05 a=0,01
0,89 0,94 0,99
0,56 0,64 0,76
0,40 0,48 0,58

Есть и другие способы и критерии оценки грубых ошибок. Подсчитывают

v=(xmax - xcp )/Sx [(n-1)/n)]1/2

или

v’=(xcp-xmin)/Sx [(n-1)/n]1/2

Значения v (или v’) имеют специальное распределение, которое зависит только от числа степеней свободы f=n-2. В таблице приведены значения v для разных уровнях значимости р=0,1; 0,05; 0,01 и др. при f=0...23.

Успешное применение методов планирования экспериментов возможно только тогда, когда опыты являются воспроизводимыми, а выборочные дисперсии однородными. Чтобы в этом убедиться, необходимо :

1. Определить среднее по результатам параллельных измерений

Y =SYij/m; i=1,2,..n и j=1,2,..m

2. Определить выборочные дисперсии

Si2 =S(Ycpij -Yicp)2 /(m-1)

3.Найти сумму выборочных дисперсий S2сум =SSi2

4. Составить отношение G=S2max/S2сум , в числителе - максимальное значение выборочной дисперсии. G-расчетное значение критерия Кохрена.

Если рассчитанное

G<Gтабл. (N,f), (*)

то можно с вероятностью 1-a принять гипотезу о воспроизводимости опытов и об однородности дисперсий.

Обычно берут a=0,05. При m=3 и n=10 Gтабл =0,445.

Усли условие (*) не выполняется, то,возможно, что опыт, имеющий

максимальную дисперсию, возможно, поставлен неправильно и его надо переделать.

5. Если выборочные дисперсии однородны, то рассчитывают оценку

воспроизводимости Sвос2 =SSi /N

6. Находят среднеквадратичную оценку дисперсии

воспроизводимости S=(Sвос2 )1/2 .

Дисперсионный анализ

Исследование влияния тех или иных факторов на изменчивость

средних является задачей дисперсионного анализа (ДА).

В зависимости от числа источников дисперсии различают однофакторный и многофакторный ДА. ДА особенно эффективен при изучении влияния нескольких факторов. Обычно варьируют только один фактор, а остальные оставляют постоянными. Однако при этом не удается определить взаимодействие факторов при одновременном их изменении.

В ДА производится разложение суммарной выборочной дисперсии на составляющие, обусловленные независимыми факторами. Чтобы решить, значимо ли влияние данного фактора, оценивают значимость соответствующей дисперсии в сравнении с дисперсией оспроизводимости, обусловленной случайными факторами (по критерию Фишера).

Однофакторный эксперимент.

Результаты эксперимента: (при уровнях фактора A: а1...аk)

Номер наблюдения а1 а2 а3 .... аk
y11 y21 . yk1
y11 y22 . yk2
. . . .  
n y1n y2n . ykn

A1 =Sy1j A2 = Sy2j A=Sykj

Находим общее среднее значение ycp =(1/N)SSy1j =

=(1/k) Syicp и общую выборочную дисперсию S2 =[SS(yij -ycp)2 ]/(N-1)

ее раскладывают на составляющие, которые характеризовали бы вклад фактора А и фактора случайности. Фактор случайности оценивают по повторным опытам Si2 =[S(yicp-yij)2]/(n-1).

Если нет уверенности в равноточности эксперимента, однородность

дисперсии проверяют по критерию Кохрена. Если нет значимых различий, то Sош2 =(1/k) SSi2.

Приближенную оценку фактора А рассчитывают sA2 =S2 - Sош2 .

Более точно

sА2 = [1/(k-1)] S(yicр -ycp)2 - Sош2/n; SА2 =nsА2 +Sош2

с k-1 степенями свободы.

Если дисперсия SА2 значимо отличается от Sош2 , влияние фактора считается существенным.

Планирование эксперимента при дисперсионном анализе.

Рассмотрим трехфакторный дисперсионный анализ при одинаковом

числе уровней n для каждого фактора. Полный перебор сочетаний уровней факторов потребует N опытов. Это будет полный факторный эксперимент. Если брать только часть (некоторые сочетания пропущены), то такой эксперимент называется - дробным факторным экспериментом. Если эффекты взаимодействия между факторами

незначительны, то результат эксперимента имеет вид линейного

уравнения

Y= a0 +a1 X1 +a2 X2 +a3 X3

При планировании трехфакторного эксперимента удобно это делать, изменяя значения факторов на двух уровнях - максимальном и минимальном.

Полный двухуровневый трехфакторный эксперимент символически обозначается как 23 . Таблица обработки результатов приведена ниже.

 

  b1 b2 b3 (y) Итоги
а1 с11) с22) с33) 3) А1
а2 с24) с35) с16) 6) А2
а3 с37) с28) с19) 9) А3
           

 

 

Значимость линейных эффектов проверяют по критерию Фишера

Если SА2/Sош2 <F1-р(f1,f2 ); SВ2/Sош2 <F1-р(f1 ,f2 ); SС2/Sош2<F1-р(f1 .f2 ) где p - уровень значимости, f =n-1; f2 =(n-1)(n-2);

тогда a1 =0, а2 =0 и а3=0; если нет, то влияние фактора считается значимым.

Планирование полного трехфакторного эксперимента.

Рациональное планирование эксперимента при исследовании

зависимости целевой функции от трех независимо изменяющихся

факторов X,Y,Z.

Полный факторный эксперимент состоит в наборе экспериментальных данных по двум - максимальным и минимальным уровням значений X,Y,Z для всех возможных сочетаний значений.

С целью облегчения дальнейших расчетов составляется матрица планирования, имеющая вид:

N=1 Xmin Ymin Zmin 1 -1 -1 -1

" 2 Xmax Ymin Zmin 1 1 -1 -1

" 3 Xmin Ymax Zmin 1 -1 1 -1

" 4 Xmax Ymax Zmin 1 1 1 -1

" 5 Xmin Ymin Zmax 1 -1 -1 1

" 6 Xmax Ymin Zmax 1 1 -1 1

" 7 Xmin Ymax Zmax 1 -1 1 1

" 8 Xmax Ymax Zmax 1 1 1 1

 

Лек.4 Стр.14

 

После проведения экспериментов согласно заданному плану по полученным результатам составляется уравнение регрессии, имеющее вид:

F=b0+b1*x1+b2*x2+b3*x3+b12*x1*x2+b13*x1*x3+b23*x2*x3+

+b123*x1*x2*x3;

где x1=(X-z1)/dz1; x2=(Y-z2)/dz2; x3=(Z-z3)/dz3)

причем z1:=(Xmax+Xmin)/2; dz1:=(Xmax-Xmin)/2; z2:=(Ymax+Ymin)/2;

dz2:=(Ymax-Ymin)/2; z3:=(Zmax+Zmin)/2;dz3:=(Zmax-Zmin)/2;

После преобразований получаем более простую зависимость:

F=a0+a1*X+a2*Y+a3*Z+a12(X-z1)(Y-z2)+a13*(X-z1)(Z-z3)+

+a23*(Y-z2)*(Z-z3)+a123*(X-z1)(Y-z2)(Z-z3);

После расчетов многие коэффициенты равны нулю, например член а123. Поэтому удобно для последующего анализа еще более упростить зависимость:

F=c0+c1*X+(c2+c4*X)*Y+(c3+c5*Y+c6*X)*Z;

Если с4,с5,с6=0, то последующие эксперименты можно проводить по методу "крутого подъема", изменяя параметры провпорционально коэффициентам уравнения регрессии с1,с2,с3.

Планирование эксперимента при функциональных

зависимостях более чем от трех факторов.

В этом случае выбирают три основные (главные) независимые факторы и им приписываются номера от 1 до 3. Далее, как обычно, выбирают осноные уровни и интервалы варьирования

Значения интервала должны быть в 2-3 раза выше погрешности. Значения факторов кодируют по формуле

х=(Xнат -Xнато)/ DX.

Xнат - значение функции на верхнем или нижнем уровне варьирования. После кодирования на верхнем уровне х =+1, на

нижнем х = -1.

Когда n>3 вместо полного факторного эксперимента, который требует 25 = 32 опыта, проводят дробный факторный эксперимент,так как полагают,что члены с тройным взаимодействием невелики. Число опытов должно превышать число факторов.

Затем выбираем следующий по важности фактор и присваиваем ему столбец тройного взаимодействия, который обычно несущественен t®X1X2X3 . Х5 ставим на место одного из парных взаимодействий,например, вместо X1X3 . Остальные парные оставляем как они есть.

 

Лек.4 Стр.15

 

 

Таким образом, можно построить четвертьреплику 25-2 от полного факторного эксперимента. (При пятифакторной зависимости). Можно построить и полуреплику 25-1 (16 опытов) и др.

При таком подходе число необходимых экспериментов резко снижается.

 

Метод крутого восхождения.

После нахождения уравнения регрессии переходим к следующему этапу: поиску оптимального режима методом крутого восхождения.

Уравнение регрессии - это касательная к какой-то кривой, например, чтобы получить точку А надо при Y=b0 +b1X к основному уравнению прибавить произведение интервала варьирования на bi : DXi bi . Для крутого восхождения выбирают точку, где получены наилучшие результаты. Пусть это будет опыт 1.

Если шаги неприемлимы, то их все надо пропорционально увеличить или уменьшить.

Для окончательного выбора режима надо составить уравнение, описывающее область оптимума и определить координаты экстремальной точки.

Поэтому следующий этап - описание области оптимума обычно проводят полиномами второго порядка, для чего используют ротота-

бельные композиционные планы, в которых каждый из независимых факторов варьируется на трех уровнях. Находят оптимум, проведя дифференцирование

dR/dX =...=0; dR/dX =...0; dR/dX =0

В результате получают оптимальное (наиболее приемлимое) решениеили

 

Метод последовательного Симплекс-планирования

Симплексом в k-мерном пространстве называют выпуклый многогранник, имеющий k+1 вершину, каждая из которых определяется пересечением k гиперплоскостей данного пространства. Примером симплекса в двумерном пространстве (т. е. на плоскости) служит треугольник. В трехмерном пространстве симплексом будет четырехгранная пирамида - тетраэдр; если симплекс регулярный,т. е. если расстояния между вершинами равны. Изменяя масштаб можно нерегулярный симплекс превратить в регулярный:

x =(zj -zjo)/DZj

 

где zjo - j-я координата центра плана. DZj - интервал варьирования.

Для оптимизации используется важное свойство симплекса -против любой из вершин Аj расположена только одна грань, на которой можно построить новый симплекс, отличающийся от прежнего расположением новой вершины Аj , тогда как остальные вершины обоих симплексов совпадают.

Последовательным отбрасыванием вершин осуществляется перемещение исходного симплекса в факторном пространстве.

Метод последовательного симплекс-планирования состоит в

следующем: планируют исходную серию опытов так, чтобы точки,соответствующие условиям опытов, образовывали регулярный симплекс (в факторном пространстве). Затем, после проведения опытов, выявляется вершина, отвечающая наихудшим результатам. Далее строится новый симплекс, где наихудшая точка заменяется новой, расположенно симметрично в центре грани симплекса, находящейся напротив наихудшей точки.

 

Заключение.

Прежде чем приступить к планированию эксперимента , необходимо убедиться, что опыты воспроизводимы, т. е. результаты опытов, проведенных в одинаковых условиях, близки друг к другу. Для этой цели проводят несколько серий параллельных опытов. Результаты опытов сводят в таблицу, при этом количество опытов во всех сериях должно быть одинаковым

 

Перед началом обработки для каждой серии параллельных опытов вычисляют среднее арифметическое значение

Yср = (1/n)SXi

Затем для каждой серии вычисляют среднеквадратичную погрешность - выборочную дисперсию

S2 = (1/(n-1))S(Xср -Xi )2

В случае подозрения присутствия грубых оибок - выпадающих из

общего ряда значения Xi , сравним это значение со среднеарифметическим значением Xcp , вычисленных по остальным значениям, без X :

tt=|Xг -Xср|/(S[(n+1)/n]1/2 )

Затем подсчитаем вероятность 1-2Ф(tt). Если полученная

вероятность окажется очень малой, то значение Xг является грубой

ошибкой и его следует отбросить. Обычно за малый уровень принимают 5% (или 1%).

Среди всех S находим наибольшую Sмах2 . Затем находят отношение этой величины к сумме всех S

Gр = Sмах2/SS2

Эта величина Gр называется расчетным значением критерия Кохрена. Критические, т. е. предельно допустимые значения критерия G находят по таблице, для чего следует знать число опытов в каждой серии n (f=n-1) и число серий N. Табличные значения G приведены в таблице в зависимости от степени свободы f=(n-1) и N.

Если условие Gр <G выполнено, то опыты можно считать воспроизводимыми. (Если число опытов в сериях экспериментов разное, то пользуются критерием Фишера).

После вычисления коэффициентов уравнения регрессии следует

оценить их значимость. Для этого следует рассчитать

t =|b|/Sb

Если табличное значение t<tp то этот член незначим и его можно

исключить.

После получения уравнения регрессии следует оценить его адекват-

ность, т. е. способность достаточно хорошо описывать поверхность отклика и прогнозировать результаты опытов. Для проверки адекватности вычисляют выборочную дисперсию (оценку дисперсии) адекватности по формуле

S =(1/(N-B))S(Xiэ -Xip)

где B - число значимых факторов в уравнении регрессии. N - число опытов полного факторного эксперимента. Xiэ и Xip - экспериментальное и расчетное значение функции отклика в i-том опыте. Вычисляют расчетное значение критерия Фишера

Fp =Sад2/S2х

Уравнение регрессии считается адекватным,если выполняется

условие Fр <F, где F - табличное значение критерия Фишера при степени свободы fад =N-B.

 

Глава 3. Методы корреляционного и регрессионного анализа.

 

Методы регрессионного и корреляционного анализа широко применяются для выявления и описания зависимостей между случайными величинами по экспериментальным данным. Для экспериментального изучения зависимсти между случайными величинами X и Y проводят n независимых опытов,получают пары значений X ,Y . О наличии или отсутствии корреляции можно судить по виду поля корреляции, нанося точки X ,Y на координатную плоскость. (См. рис. 4 ) 1- положительная корреляция; 2- слабая отрицательная корреляция и 3-корреляция отсутствует.

Y Y Y

+ + + +

+ + + +

+ + + + +

+ + + + +

+ + +

+ + +

+

X X X 1) 2) 3)

Рис.4. Типы корреляционных зависимостей: 1-положительная корреляция; 2-слабая отрицательная корреляция; 3-отсутствие корреляции.

Для количественной оценки тесноты связи между X и Y служит вы-

борочный коэффициент корреляции:

R = [S(xi -xcp)(yi -ycp)]/(n-1)SxSy -1£R£+1

Если R не равна нулю, то корреляция существует. Если R=1 или R= -1,

то имеет место зависимость

y = a + bx (R=1)

или

y= a - bx (R=-1)

Условное математическое ожидание величины Y при данном X

mx,y = my + R(sy /sx)(x-mx)

где my = ycp и mx = xcp

Это линейное уравнение называется регрессией Y на X.

Среднее квадратичное отклонение

sy,x = sy (1-R2 )

Коэффициент корреляции не изменяется при изменении начала отсче-

та и масштаба величин X и Y. Коэффициент корреляции отражает как

долю случайности, так и криволинейность связи между X и Y.

Для проверки гипотезы об отсутствии корреляции необходимо про-

верить, значимо ли отличаются R от нуля. Можно использовать нормальное распределение

sR =(1-R2)/(n)1/2 .

Если доверительная вероятность равна 0,95, то коэффициент корреляции находится в пределах

R - 1,96(1-R)/(n)1/2 £ R £ R + 1,96(1-R)/(n)

Таким образом, с вероятностью 0,95 можно утверждать, что зависимость между случайными величинами X и Y существует, если 0 не содержится внутpи доверительного интервала, то есть если

|R| = 1,96(1+R2)/(n)1/2 > 0

Если экспериментальных данных мало, то распределение коэффициентов корреляции отличается от нормального. При доверительной вероятности 0,95

Z-1,96/(n-3)1/2 £ mz £ Z+1,96/(n+3)1/2

где mz - математическое ожидание Zcp

Z = (1/2)ln[(1+R)/(1-R)]

Для характеристики формы связи при изучении корреляционной зависимости пользуются уравнением приближенной регрессии.

Пример 7: По данной выборке объема n найти уравнение приближенной регрессии и оценить допускаемую при этом ошибку.

Уравнение приближенной регрессии существенно зависит от выбира-емого метода приближения. Обычно выбирают метод наименьших квадратов. Наилучшее приближение дает функция f(x), для которой сумма квадратов Ф имеет наименьшее значение:

Ф = S(yi -f(xi))2 = min

Для определения уравнения регрессии, описывающего зависимость Y от X в виде полинома

Y=f(x,b0 ,b1 ,b2 ,b3 ...bk )

следует определить коэффициенты bk . Минимальное значение Ф будет при

dФ/db0 =0; dФ/db1 =0; . . . или S2[y-f(xi, ... )]df/db0 = 0

Можно также составить и решить систему уравнений

 

Sy(df/db0 ) - Sf(df/db0) = 0

...........

Система уравнений содержит столько же уравнений, сколько коэф-

фициентов bk .

 

Линейная регрессия от одного параметра

Методом наименьших квадратов найти уравнение вида Y=b +b X, наилучшим образом описыващую положительную регрессионную зависимость Y от X.

Для этого составляем систему уравнений:

Syi - S(b +b1X) = 0 ¶Ф/¶b0 = S(yi -(b0+b1xi)) = 0

Sxiyi - S(b0+b1xi) =0 ¶Ф/¶b1 = S(yi -(b0+b1xi)xi ) = 0

 

После преобразований находим

b = [SxiSyi - NSxiyi ]/[ (Sxi)2-NSxi2]

b0 =Ycp-b1Xcp

Коэффициент корреляции рассчитываем по формуле

R = [S(xi -xcp)(yi -ycp)]/(n-1)SxSy -1£R£+1

или

R=b1Sx/Sy = b1{[nSxi2 -(Sxi)2 ]/[nSyi2 -(Syi)2 ]}1/2

Проверку вычислений проводят по формуле:

S(xi+yi)2 = Sxi2 + 2Sxiyi + Syi2

Качество аппроксимации оценивают, сравнивая S2ост и дисперсию относительно среднего

Sу2 = [S(yi-Ycp)2]/(n-1)

S2ост = [SS(yin -Yicp)2]/( Smi -L)

где L - число коэффициентов в уравнении регрессии.

Параболическая регрессия

Y=b0+b1X+b2X2

Система уравнений:

b0N + b1Sxi + b2Sxi2 = Syi

b0Sxi + b1Sxi2 +b2Sxi3 =Sxiyi

b0Sxi2 + b1 Sxi3 +b2Sxi4 =Sxi2yi2

Трансцендентная регрессия

Задача решается заменой перемeнных. Пусть Y=b0b1x или Y=b0Xb1

- показательная функция или степенная функция. Они линеализируются

 

 

Лек.5 Стр.21

 

 

уравнением вида

lgY=lgb0 +Xlgb1 ;

lgY=lgb0 +b1lgX;

- 29 -

пусть lgY=Z; lgb0 =a0 ; lgb1 =a1 ; lgx=t

Z=a0 +a1 X и Z=a0 +b1t

Множественная корреляция

Ищут зависимость

Y = b0 + b1x1+ b2x2 + b3x3 +...+ bkxk

Сначала переходят от натурального масштаба к новому, проведя

нормирование

Yi0 =(yi -Ycp)/Sy ; Xij0 = (xij -Xj0 )/Sxj

где i = 1,2,3,...n; j = 1,2,3,..k;

и ищут коэффициенты уравнения

Y0 = a0 + a1x10 + a2x20 + a3x30 +...+ akxk0

Коэффициенты уравнения находят из условия

¶Ф/¶a1=1; ¶Ф/¶a2=1; ¶Ф/¶ak =1

Составляют систему нормализованных уравнений

a1S(x1i0)2 + a2Sx1i0x2i0 + ...+ akSx1i0xki0 =Sx10yi0

a1 S(x2i0x2i0) + a2S(x2i0)2 + ...+ak Sx2i0 xki0 =Sx2i0 yi0

........

a1Sxki0x1i0 + a2Sxki0x2i0 + ...+akS(xki0)2 =Sxki0yi0

Если умножить на 1/(n-1) и принять во внимание, что

[1/(1-n)] S(xij2) = 1

получаем систему нормальных уравнений вида

a1rxkx1+ a2rxkx2 + ... + ak = ryxk

Далее можно рассчитать коэффициент множественной корреляции.

 

ПРИЛОЖЕНИЯ

х

Таблица 1. Функция Лапласа Ф(х)=[1(2p)1/2 ]òехр(-х2/2) dх

o

х Ф(х) х Ф(х) х Ф(х) х Ф(х)
0,00 0,70 0,2580 1,40 0,4192 2,10 0,4821
0,05 0,0199 0,75 0,2734 1,45 0,4265 2,20 0,4861
0,10 0,0398 0,80 0,2481 1,50 0,4332 2,30 0,4893
0,15 0,0596 0,85 0,3023 1,55 0,4394 2,40 0,4918
0,20 0,0793 0,90 0,3159 1,60 0,4452 2,50 0,4938
0,25 0,0987 0,95 0,3289 1,65 0,4505 2,60 0,4953
0,30 0,1179 1,00 0,3413 1,70 0,4554 2,70 0,4965
0,35 0,1368 1,05 0,3531 1,75 0,4599 2,80 0,4974
0,40 0,1554 1,10 0,3643 1,80 0,4641 2,90 0,4981
0,45 0,1736 1,15 0,3749 1,85 0,4678 3,00 0,49865
0,50 0,1915 1,20 0,3849 1,90 0,4713 3,20 0,49931
0,55 0,2088 1,25 0,3944 1,95 0,4744 3,40 0,49966
0,60 0,2257 1,30 0,4032 2,00 0,4783 3,60 0,49984
0,65 0,2422 1,35 0,4115 2,06 0,4803 4,00 0,499968

Таблица 2. Критерий Стьюдента t: Значения t при данном числе степеней свободы N и данной величине вероятности (уровне значимости) Р.

N Р= 0,10 P= =0,05 P= =0,02 Р= 0,01 N Р= 0,10 P= =0,05 P= =0,02 Р= =0,01
6,31 12,704 31,821 63,7 1,80 2,201 2,718 3,11
2,92 4,303 6,965 9,93 1,78 2,179 2,681 3,06
2,35 3,182 4,541 5,84 1,77 2,160 2,650 3,01
2,13 2,778 3,747 4,60 1,76 2,145 2,624 2,98
2,02 2,571 3,365 4,03 1,75 2,131 2,602 2,95
1,94 2,447 3,143 3,71 1,75 2,120 2,583 2,92
1,90 2,365 2,998 3,50 1,74 2,110 2,567 2,90
1,86 2,306 2,896 3,36 1,73 2,086 2,528 2,85
1,83 2,262 2,821 3,25 1,71 2,060 2,485 2,79
1,81 2,288 2,764 3,17 1,70 2,042 2,457 2,75

- 31 -

Таблица 3.Критерий Фишера: значения F=S12/S22 при Р=0,05 N1- число степеней свободы (для числителя); N2- число степней свободы для знаменателя.

N2 N1=1 N1=3 N1=5 N1=20
161,4 215,70 230,2  
18,51 19,16 19,30 19,4
10,13 9,28 9,01 8,66
7,71 6,59 6,26 5,80
6,61 5,41 5,05 4,56
5,59 4,35 3,97 3,44
5,32 4,07 3,69 3,15
5,12 3,86 3,48 2,94
4,96 3,71 3,33 2,77
  3,49 3,00 2,54

Таблица 4. Критерий Пирсона (согласия) c2 : значения ,соответствующие значениям Р(c2) и числам степеней свободы N.

N Р=0,95 P=0,05 P=0,02 N Р=0,95 P=0,05 P=0,02
0,0039 3,841 5,412 3,32 16,919 19,679
0,103 5,991 7,824 3,94 18,307 21,161
0,352 7,815 9,837 7,3 24,996 28,259
0,71 9,488 11,668 10,9 31,410 35,020
1,14 11,070 13,388 14,6 37,652 41,566
2,17 14,067 16,622 18,5 43,773 47,962

 

Литература

1. Ахназарова С.Л., Кафаров В.В. Методы оптимизации эксперимента в химической технологии.М.,Высщая школа, 1985 г.

2. Кафаров В.В. Методы кибернетики в химии и химической технологии.М.,Химия,1976 г.

3.Глудкин О.П. и др. Статистические методы в технологии производства РЭА, М.,Энергия,1977 г.

4. Джонсон Н.,Лион Ф. Статистика и планирование эксперимента в технике и науке. Методы планирования эксперимента.М.,Мир,1981 г.

5.Адлер Ю.П., Маркова Е.В., Грановский Ю.В., Планирование эксперимента при поиске оптимальных условий.М.,Наука,1976 г.

Приложение 1.

Требования к качеству экспериментов для возможности их планирования.

 

Успешное применение методов планирования экспериментов возможно только тогда, когда опыты являются воспроизводимыми, а выборочные дисперсии однородными. Чтобы в этом убедиться, необходимо :

1. Определить среднее по результатам параллельных измерений

Y =SYij/m; i=1,2,..n и j=1,2,..m

2. Определить выборочные дисперсии

Si2 =S(Ycpij -Yicp)2 /(m-1)

3.Найти сумму выборочных дисперсий S2сум =SSi2

4. Составить отношение G=S2max/S2сум , в числителе - максимальное значение выборочной дисперсии. G-расчетное значение критерия Кохрена.

Если рассчитанное

G<Gтабл. (N,f), (*)

то можно с вероятностью 1-a принять гипотезу о воспроизводимости опытов и об однородности дисперсий.

Обычно берут a=0,05. При m=3 и n=10 Gтабл =0,445.

Если условие (*) не выполняется, то, возможно, что опыт, имеющий

максимальную дисперсию, поставлен неправильно и его надо переделать.

5. Если выборочные дисперсии однородны, то рассчитывают оценку

воспроизводимости Sвос2 =SSi /N

6. Находят среднеквадратичную оценку дисперсии

воспроизводимости S=(Sвос2 )1/2 .