Решение задач о погрешностях

Найти вероятность того, что абсолютное отклонение Dх= êx-m_хêне превзойдет заданного числа e

Р(Dх£e)=З(m_x-e £ m_x+e)

Для нормированной случайной функции

P(-e£ x_o£ e)=Ф(e)-Ф(-e)=2Ф(e)

Для случайной величины, имеющей нормальное распределение с параметрами m_xи s_х

Р(Dх£e)=Р(Dх_о£e/s_х)=2Ф(e/s_х)

Обозначив k=e/s_хполучим

Р(Dх£ks_х)= 2Ф(k)

P(Dх£s_х)=2Ф(1)=0,6826

P(Dх£2s_х)=2Ф(2)=0,9544

P(Dх£3s_х)=2Ф(3)=0,9973

Последняя величина указывает на практически невозможное событие.

----------------------------------------------------------------------------------------------

Пример 2. Толщину керамической плитки h можно считать случайной величиной, распределенной по нормальному закону с s_х=0,3 мм. Какова вероятность того брака,при котором Dh³0,5 мм ?

Вероятность противного события: Р(Dh£0,5)=2Ф(0,5/0,3)=0,905

Отсюда Р(Dh³0,5)=1-0,905=0,095.

---------------------------------------------------------------------------------------------------

Определение параметров функции распределения.

Берем выборку (n значений) из генеральной совокупности (т.е. все

допустимые значения случайной величины. Весь диапазон изменения случайной величины делим на k интервалов. Рекомендуемое значение k:

k=1+3,2lg(n)

Длина интервала h=(X_макс -X_мин)/k. Подсчитаем число элементов

выборки,попадающих в отдельный интервал n. Относительная частота попадания случайной величины в i-й интервал Р_i =n_i/n. Все точки, попавшие в i-й интервал относят к середине интервала

X_i^* =(X_i-1 +X_i )/2

Строят диаграмму-график, по оси абсцисс откладывают значения

X_i^* и по оси ординат значения n_i. Полученные точки соединяют между собой, таким образом получают экспериментальную кривую распределения - “полигон”. Это дифференциальная кривая распределения. Интегральную кривую распределения получают, откладывая по оси ординат суммы n_iвсех точек, находящихся слева (со стороны более низких значений X).

Оценка математического ожидания и дисперсии. Для нормального

распределения получают среднее арифметическое значение X_cp =S X_i /n и выборочную дисперсию S²=S(X_i -X_cp)² /n. Величина S “смещена”.

Для получения несмещенной оценки ее умножают на n/(n-1). Тогда получаем:

S² =S(X_i -X_cp)²/(n-1)=( SX_i² -(SX_i )² /n)

Ошибки измерений.

Ошибки бывают грубые, систематические и случайные. Случайные

ошибки - остающиеся после устранения грубых и систематических, они вызываются большим количеством таких факторов, эффекты действия которых столь незначительны, что их нельзя выделить в отдельности.

сли результатов испытаний много, то значения X частичной совокупности из n значений, полученных путем независимых испытаний, распределяется нормально со средним значением X_ср и дисперсией s². Нормированное отклонение (X_ср -X_i )/sn^-1/2 ) распределяется нормально со средним значением равным нулю и дисперсией, равной единице. Однако при исследованиях дисперсия s² почти всегда остается

неизвестной и мы не можем произвести нормирование. Отклонение среднего значения частичной (выборочной) совокупности от среднего значения нормальной общейокупности, нормированное с помощью S² (несмещенная оценка выборочной дисперсии) обозначается t:

t=((X_cp - m_x )/S) n^1/2

Функция распределения t имеет сложный вид, в нее входит число степеней свободы n. Интегрируя f(t) от - ¥ до t найдем вероятность S_n(t) случайных значений t_o меньших, чем заданное t:

S_n(t)=Р[t_о <t]

Распределение S(t) - распределение Стьюдента или t-распределение.Это распределение используется для ответа на вопрос, является ли значимым наблюдаемое значение (для оценки средних значений).

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Пример. Пусть испытываются на 10 больных два лекарства - снотворных. Нужно определить, является ли значимым разница в длительности сна. Добавочные суммы часов длительности сна группы 1 составляют в среднем +0,75 час и во второй группе +2,33 час. Проверяем гипотезу о том, что действие лекарств одинаково. Общее среднее арифметическое X =1,54. Оценка общей дисперсии S=1,23. t=(1,54/1,23)10^1/2=3,96.

По Таблице значений функции t находим, что при степени свободы 9 значение t будет случайно превышать по абсолютной величине 3,25 только в одном случае из 100. Таким образом, наблюдаемая разность

является существенной, второе лекарство более действенное, чем первое.

Примечание: Вообще, достаточной для вывода о существенности является вероятность 0,95. В данном случае вероятность более 0,99

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Доверительные границы.

Пусть есть частичная совокупность из n значений. Среднее значение X_о, несмещенная оценка дисперсии S². Требуется найти границы, внутри которых с определенной степенью надежности находится среднее значение общей совокупности X_ср.

Значения справа и слева от X_о (Х_о+e и Х_о-e) называются доверительными границами для среднего значения общей совокупности при, например, 5% уровне значимости, а вероятность того, что промежуток с этими крайними значениями накроет среднее значение общей совокупности называется доверительной вероятностью. Выбрав 5% уровень значимости при данном значении степеней свободы n=n-1, находим по таблице значение t_0,05 , при котором Р[|t|>| t_0,05| ], что означает

Р[|t|<t_0,05]=0,95

или

- t_0,05 <(X_ср-X_о )/Sn^-1/2 < +t_0,05 ;

или с вероятностью 0,90 мы можем утверждать, что среднее значение общей совокупности X_о лежит в пределах:

X_ср -t_0,05S/n^1/2 <X_о <X_ср +t_0,05 S/n^1/2

(с уровнем значимости 1-р=95%)

При n>=50 можно полагать, что S=s_x, находим k=e/s_х из Таблицы функции Лапласа Ф(e/s_х); доверительные границы e=ks_х/n^1/2: Х_ср- e £m_x£ Х_{ср +} e

или

Р([Х_ср-m_x|£e)=2Ф(e/s_х)

При Р=0,05 и n=9 по Таблице t_0,05 =2,26

Таким образом, при n=10, S=0,1 и X₀ =1 доверительная граница e=t_табS/n^1/2=2,26^.0,1/10^1.2 = 0,0715 и или X₀ -истинное среднее значение с вероятностью 0,90 лежит в пределах от 1,0715 до 0,928.

Если n=5 и S=+0,2 то t_0,05 =2,776 e=2,776.0,1/5^1/2 =0,124

т.е. X₀ лежит в пределах от 1,124 до 0,876 (с вероятностью 0,90).

Сколько нужно образцов, чтобы с вероятностью 0,9 было определено X_cp ? Получаем n>4.

Оценка расхождений между средними знпчениями

Проверим гипотезу, что две независимые частичные совокупности n₁и n₂ взяты из одной и той же нормально распределенной общей совокупности, имеющей среднее значение X₀ и дисперсию s² .

Пусть оценки дисперсии S₁ и S₂ и пусть проверяемая гипотеза верна. Основой проверки является резность X_cp1 и X_cp2 , дисперсия которой равна

s₁²/n₁+s₂²/n₂ = (n₁ + n₂ )s² /n₁n₂

Так как оценки S₁² и S₂² дисперсии s² имеют вес n₁ -1 и n₂ -1, то полная оценка дисперсии s² будет равна

S² =[(n₁ -1)S₁² +(n₂ -1)S₂²]/[(n₁ -1)+(n₂ -1)] =

= [S(X-X_cp)² +S(X-X_cp)²]/(n₁ +n₂ -2)

В результате получаем

t = [(X -X_cp1)²/S][n₁n₂ /(n₁ +n₂ )]

Для оценки значимости расхождения между двумя средними можно воспользоваться таблицей t с числом степеней свободы n₁+n₂ -2.

В вышеприведенном примере t=2,8, а табличное t=2,567 при n=18 P=0,02. Т.о. вероятность случайных значений t, которые по абсолютной величине не меньше наблюдаемого t ничтожно мала. Следовательно, наблюдаемое расхождение не является случайным.

Оценка дисперсии. Критерий Фишера.

Пусть есть две независмых совокупности X'...X_n1 ' и X"...X_n2 " со средними значениями X_cp1 и X_cp2 . Оценки дисперсий S₁² и S₂² .Необходимо выяснить, являются ли эти оценки существенно pазличными или данные частичные совокупности можно рассматривать как взятые наудачу из нормальных общих совокупностей, имеющих равные дисперсии s² .

Для решения этой задаси используют критерий Фишера F - (дисперсионное отношение) - отношение оценок S₁² и S₂² дисперсии s , полученные из независимых частичных совокупностей F=S₁²/S₂² . Построены таблицы F в зависимости от степени свободы , которые могут быть превзойдены соответственно с вероятностью 0,05; 0,01 и др.

Проверяемая гипотеза: Частичные совокупности взяты из одной и той же совокупности из нормальных общих совокупностей равной дисперсией. За S₁² берется большая из них.

- - - - - - - - - - - - - - - - - - - - - - -- - - - - - - - - - - -

Пример. Пусть работают два лаборанта. У одного из них получилось X_ср1 =4,57 S₁² =0,0295 n=19 (n=20). У другого X_ср2 =4,56 S₂²=0,0139 n=12

Находим F=0,0295/0,0139=2,12. По таблице при n=19 и 12 и 5% уровне значимости F=2,54. Так как рассчитанное F меньше табличного, то нет оснований считать разницу в точности существенной.

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Критерий Романовского

Для сравнения дисперсий с помощью критерия Романовского вводится величина f=[(n -2)/n ]F, где F-критерий Фишера. Математическое ожидание этой величины в случае независимого выбора из нормальных общих совокупностей с одинаковой дисперсией равно 1, а основное отклонение равно s_r =+[(2n₁ +n₁ -2)/ n₁(n₂ -4)]^1/2 .

По величине критерия R=|f-1|/s_r можно делать заключение о существенности или случайности расхождений между оценками S₁² и S₂² .

Если R³3, то расхождение существенно.

Если R<3, то расхождение признается случайным.

Для применения этого критерия надо, чтобы одно из чисел степеней свободы было больше 4. Оно принимается за n₂ . В примеpе о работе двух лаборантов получаем f=1,77 и s_r =0,72 R=1,07.Вывод тот же.

Критерий согласия Пирсона P(c² )

Критерий Пирсона проверяет гипотезу, удовлетворяет ли рассматриваемая случайная величина заданному закону распределения F(X). Критерий Пирсона называется также критерием согласия или критерий хи-квадрат. Критерий служит для проверки гипотезы, что функция распределения, полученная экспериментально, F(X), соответствует некоторой заданной (гипотетической) функции распределения F₀(X). Для расчетов область значений Х делится на ряд интервалов h. Пусть р_i теоретическая вероятность того, что случайная величина попадает в интервал i. Затем сравниваем число с теоретическим.

Распределение Р(c²) представляет собой вероятность того, что

случайная величина c² =S(X_h²/s_h² ) (где X_h =n_i -n_ч ; n_ч -частота нормального распределения) примет значение, превосходящее некоторое заданное :

c²=S(n_i-np_i)²/np_i

ⁱ⁼¹

где р_i=n_i/n и h-число интервалов; X_h(h=1,n) - независимые случайные величины, имеющие нормальные распределения с общим средним значением, равным нулю и дисперсиями s_h² (h=1,n). Число независимых величин n - число степеней свободы.

Проверка воспроизводимости опытов и однородности дисперсий

Грубые ошибки.

Если есть грубые ошибки, то нарушается характер распределения,т.е. нарушается однородность распределения. Выявление грубых ошибок - это проверка однородности наблюдений.

Следует расположить данные в порядке возрастания. Рассчитывают Q=(y_а -y)/R где y_а -выделяющееся аноpмальное значение, y-соседнее значение; R=y_max -y_min - размах варьирования. Если рассчитанное Q больше табличного для выбранного уровня значимости a при числе параллельных наблюдений N, то значение y_a может быть отнесено к аноpмальному.

Таблица. Значения Q для оценки резко выделяющихся наблюдений.

при различных уровнях значимости a.

Число наблюдений Уровень значимости a	a=0,1	a=0,05	a=0,01
	0,89	0,94	0,99
	0,56	0,64	0,76
	0,40	0,48	0,58

Есть и другие способы и критерии оценки грубых ошибок. Подсчитывают

v=(x_max - x_cp)/S_x[(n-1)/n)]^1/2

или

v’=(x_cp-x_min)/S_x[(n-1)/n]^1/2

Значения v (или v’) имеют специальное распределение, которое зависит только от числа степеней свободы f=n-2. В таблице приведены значения v для разных уровнях значимости р=0,1; 0,05; 0,01 и др. при f=0...23.

Успешное применение методов планирования экспериментов возможно только тогда, когда опыты являются воспроизводимыми, а выборочные дисперсии однородными. Чтобы в этом убедиться, необходимо :

1. Определить среднее по результатам параллельных измерений

Y =SY_ij/m; i=1,2,..n и j=1,2,..m

2. Определить выборочные дисперсии

S_i² =S(Y_cpij -Y_icp)² /(m-1)

3.Найти сумму выборочных дисперсий S²_сум =SS_i²

4. Составить отношение G=S²_max/S²_сум , в числителе - максимальное значение выборочной дисперсии. G-расчетное значение критерия Кохрена.

Если рассчитанное

G<G_табл. (N,f), (*)

то можно с вероятностью 1-a принять гипотезу о воспроизводимости опытов и об однородности дисперсий.

Обычно берут a=0,05. При m=3 и n=10 G_табл =0,445.

Усли условие (*) не выполняется, то,возможно, что опыт, имеющий

максимальную дисперсию, возможно, поставлен неправильно и его надо переделать.

5. Если выборочные дисперсии однородны, то рассчитывают оценку

воспроизводимости S_вос² =SS_i /N

6. Находят среднеквадратичную оценку дисперсии

воспроизводимости S=(S_вос² )^1/2 .

Дисперсионный анализ

Исследование влияния тех или иных факторов на изменчивость

средних является задачей дисперсионного анализа (ДА).

В зависимости от числа источников дисперсии различают однофакторный и многофакторный ДА. ДА особенно эффективен при изучении влияния нескольких факторов. Обычно варьируют только один фактор, а остальные оставляют постоянными. Однако при этом не удается определить взаимодействие факторов при одновременном их изменении.

В ДА производится разложение суммарной выборочной дисперсии на составляющие, обусловленные независимыми факторами. Чтобы решить, значимо ли влияние данного фактора, оценивают значимость соответствующей дисперсии в сравнении с дисперсией оспроизводимости, обусловленной случайными факторами (по критерию Фишера).

Однофакторный эксперимент.

Результаты эксперимента: (при уровнях фактора A: а₁...а_k)

Номер наблюдения	а₁	а₂	а_{3 ....}	а_k
	y₁₁	y₂₁	.	y_k1
	y₁₁	y₂₂	.	y_k2
.	.	.	.
n	y_1n	y_2n	.	y_kn

A₁ =Sy_1j A₂= Sy_2j A=Sy_kj

Находим общее среднее значение y_cp =(1/N)SSy_1j =

=(1/k) Sy_icpи общую выборочную дисперсию S² =[SS(y_ij -y_cp)² ]/(N-1)

ее раскладывают на составляющие, которые характеризовали бы вклад фактора А и фактора случайности. Фактор случайности оценивают по повторным опытам S_i² =[S(y_icp-y_ij)²]/(n-1).

Если нет уверенности в равноточности эксперимента, однородность

дисперсии проверяют по критерию Кохрена. Если нет значимых различий, то S_ош² =(1/k) SS_i².

Приближенную оценку фактора А рассчитывают s_A² =S² - S_ош² .

Более точно

s_А² = [1/(k-1)] S(y_icр -y_cp)² - S_ош²/n; S_А² =ns_А² +S_ош²

с k-1 степенями свободы.

Если дисперсия S_А² значимо отличается от S_ош² , влияние фактора считается существенным.

Планирование эксперимента при дисперсионном анализе.

Рассмотрим трехфакторный дисперсионный анализ при одинаковом

числе уровней n для каждого фактора. Полный перебор сочетаний уровней факторов потребует N опытов. Это будет полный факторный эксперимент. Если брать только часть (некоторые сочетания пропущены), то такой эксперимент называется - дробным факторным экспериментом. Если эффекты взаимодействия между факторами

незначительны, то результат эксперимента имеет вид линейного

уравнения

Y= a₀ +a₁ X₁ +a₂ X₂ +a₃ X₃

При планировании трехфакторного эксперимента удобно это делать, изменяя значения факторов на двух уровнях - максимальном и минимальном.

Полный двухуровневый трехфакторный эксперимент символически обозначается как 2³ . Таблица обработки результатов приведена ниже.

	b₁	b₂	b₃	(y)	Итоги
а₁	с₁(у₁)	с₂(у₂)	с₃(у₃)	(у₃)	А₁
а₂	с₂(у₄)	с₃(у₅)	с₁(у₆)	(у₆)	А₂
а₃	с₃(у₇)	с₂(у₈)	с₁(у₉)	(у₉)	А₃

Значимость линейных эффектов проверяют по критерию Фишера

Если S_А²/S_ош² <F_1-р(f₁,f₂ ); S_В²/S_ош² <F_1-р(f₁ ,f₂ ); S_С²/S_ош²<F_1-р(f₁ .f₂ ) где p - уровень значимости, f =n-1; f₂ =(n-1)(n-2);

тогда a₁ =0, а₂ =0 и а₃=0; если нет, то влияние фактора считается значимым.

Планирование полного трехфакторного эксперимента.

Рациональное планирование эксперимента при исследовании

зависимости целевой функции от трех независимо изменяющихся

факторов X,Y,Z.

Полный факторный эксперимент состоит в наборе экспериментальных данных по двум - максимальным и минимальным уровням значений X,Y,Z для всех возможных сочетаний значений.

С целью облегчения дальнейших расчетов составляется матрица планирования, имеющая вид:

N=1 Xmin Ymin Zmin 1 -1 -1 -1

" 2 Xmax Ymin Zmin 1 1 -1 -1

" 3 Xmin Ymax Zmin 1 -1 1 -1

" 4 Xmax Ymax Zmin 1 1 1 -1

" 5 Xmin Ymin Zmax 1 -1 -1 1

" 6 Xmax Ymin Zmax 1 1 -1 1

" 7 Xmin Ymax Zmax 1 -1 1 1

" 8 Xmax Ymax Zmax 1 1 1 1

Лек.4 Стр.14

После проведения экспериментов согласно заданному плану по полученным результатам составляется уравнение регрессии, имеющее вид:

F=b0+b1*x1+b2*x2+b3*x3+b12*x1*x2+b13*x1*x3+b23*x2*x3+

+b123*x1*x2*x3;

где x1=(X-z1)/dz1; x2=(Y-z2)/dz2; x3=(Z-z3)/dz3)

причем z1:=(Xmax+Xmin)/2; dz1:=(Xmax-Xmin)/2; z2:=(Ymax+Ymin)/2;

dz2:=(Ymax-Ymin)/2; z3:=(Zmax+Zmin)/2;dz3:=(Zmax-Zmin)/2;

После преобразований получаем более простую зависимость:

F=a0+a1*X+a2*Y+a3*Z+a12(X-z1)(Y-z2)+a13*(X-z1)(Z-z3)+

+a23*(Y-z2)*(Z-z3)+a123*(X-z1)(Y-z2)(Z-z3);

После расчетов многие коэффициенты равны нулю, например член а123. Поэтому удобно для последующего анализа еще более упростить зависимость:

F=c0+c1*X+(c2+c4*X)*Y+(c3+c5*Y+c6*X)*Z;

Если с4,с5,с6=0, то последующие эксперименты можно проводить по методу "крутого подъема", изменяя параметры провпорционально коэффициентам уравнения регрессии с1,с2,с3.

Планирование эксперимента при функциональных

зависимостях более чем от трех факторов.

В этом случае выбирают три основные (главные) независимые факторы и им приписываются номера от 1 до 3. Далее, как обычно, выбирают осноные уровни и интервалы варьирования

Значения интервала должны быть в 2-3 раза выше погрешности. Значения факторов кодируют по формуле

х=(X_нат -X_нат^о)/ DX.

X_нат - значение функции на верхнем или нижнем уровне варьирования. После кодирования на верхнем уровне х=+1, на

нижнем х= -1.

Когда n>3 вместо полного факторного эксперимента, который требует 2⁵ = 32 опыта, проводят дробный факторный эксперимент,так как полагают,что члены с тройным взаимодействием невелики. Число опытов должно превышать число факторов.

Затем выбираем следующий по важности фактор и присваиваем ему столбец тройного взаимодействия, который обычно несущественен t®X₁X₂X₃ . Х₅ ставим на место одного из парных взаимодействий,например, вместо X₁X₃ . Остальные парные оставляем как они есть.

Лек.4 Стр.15

Таким образом, можно построить четвертьреплику 2^5-2 от полного факторного эксперимента. (При пятифакторной зависимости). Можно построить и полуреплику 2^5-1 (16 опытов) и др.

При таком подходе число необходимых экспериментов резко снижается.

Метод крутого восхождения.

После нахождения уравнения регрессии переходим к следующему этапу: поиску оптимального режима методом крутого восхождения.

Уравнение регрессии - это касательная к какой-то кривой, например, чтобы получить точку А надо при Y=b₀ +b₁X к основному уравнению прибавить произведение интервала варьирования на b_i : DX_i b_i . Для крутого восхождения выбирают точку, где получены наилучшие результаты. Пусть это будет опыт 1.

Если шаги неприемлимы, то их все надо пропорционально увеличить или уменьшить.

Для окончательного выбора режима надо составить уравнение, описывающее область оптимума и определить координаты экстремальной точки.

Поэтому следующий этап - описание области оптимума обычно проводят полиномами второго порядка, для чего используют ротота-

бельные композиционные планы, в которых каждый из независимых факторов варьируется на трех уровнях. Находят оптимум, проведя дифференцирование

dR/dX =...=0; dR/dX =...0; dR/dX =0

В результате получают оптимальное (наиболее приемлимое) решениеили

Метод последовательного Симплекс-планирования

Симплексом в k-мерном пространстве называют выпуклый многогранник, имеющий k+1 вершину, каждая из которых определяется пересечением k гиперплоскостей данного пространства. Примером симплекса в двумерном пространстве (т. е. на плоскости) служит треугольник. В трехмерном пространстве симплексом будет четырехгранная пирамида - тетраэдр; если симплекс регулярный,т. е. если расстояния между вершинами равны. Изменяя масштаб можно нерегулярный симплекс превратить в регулярный:

x =(z_j -z_j^o)/DZ_j

где z_j^o - j-я координата центра плана. DZ_j - интервал варьирования.

Для оптимизации используется важное свойство симплекса -против любой из вершин А_j расположена только одна грань, на которой можно построить новый симплекс, отличающийся от прежнего расположением новой вершины А_j , тогда как остальные вершины обоих симплексов совпадают.

Последовательным отбрасыванием вершин осуществляется перемещение исходного симплекса в факторном пространстве.

Метод последовательного симплекс-планирования состоит в

следующем: планируют исходную серию опытов так, чтобы точки,соответствующие условиям опытов, образовывали регулярный симплекс (в факторном пространстве). Затем, после проведения опытов, выявляется вершина, отвечающая наихудшим результатам. Далее строится новый симплекс, где наихудшая точка заменяется новой, расположенно симметрично в центре грани симплекса, находящейся напротив наихудшей точки.

Заключение.

Прежде чем приступить к планированию эксперимента , необходимо убедиться, что опыты воспроизводимы, т. е. результаты опытов, проведенных в одинаковых условиях, близки друг к другу. Для этой цели проводят несколько серий параллельных опытов. Результаты опытов сводят в таблицу, при этом количество опытов во всех сериях должно быть одинаковым

Перед началом обработки для каждой серии параллельных опытов вычисляют среднее арифметическое значение

Y_ср = (1/n)SX_i

Затем для каждой серии вычисляют среднеквадратичную погрешность - выборочную дисперсию

S² = (1/(n-1))S(X_ср -X_i )²

В случае подозрения присутствия грубых оибок - выпадающих из

общего ряда значения X_i , сравним это значение со среднеарифметическим значением X_cp , вычисленных по остальным значениям, без X :

tt=|X_г -X_ср|/(S[(n+1)/n]^1/2 )

Затем подсчитаем вероятность 1-2Ф(tt). Если полученная

вероятность окажется очень малой, то значение X_г является грубой

ошибкой и его следует отбросить. Обычно за малый уровень принимают 5% (или 1%).

Среди всех S находим наибольшую S_мах² . Затем находят отношение этой величины к сумме всех S

G_р = S_мах²/SS²

Эта величина G_р называется расчетным значением критерия Кохрена. Критические, т. е. предельно допустимые значения критерия G находят по таблице, для чего следует знать число опытов в каждой серии n (f=n-1) и число серий N. Табличные значения G приведены в таблице в зависимости от степени свободы f=(n-1) и N.

Если условие G_р <G выполнено, то опыты можно считать воспроизводимыми. (Если число опытов в сериях экспериментов разное, то пользуются критерием Фишера).

После вычисления коэффициентов уравнения регрессии следует

оценить их значимость. Для этого следует рассчитать

t =|b|/S_b

Если табличное значение t<t_p то этот член незначим и его можно

исключить.

После получения уравнения регрессии следует оценить его адекват-

ность, т. е. способность достаточно хорошо описывать поверхность отклика и прогнозировать результаты опытов. Для проверки адекватности вычисляют выборочную дисперсию (оценку дисперсии) адекватности по формуле

S_aд =(1/(N-B))S(X_i^э -X_i^p)

где B - число значимых факторов в уравнении регрессии. N - число опытов полного факторного эксперимента. X_i^э и X_i^p - экспериментальное и расчетное значение функции отклика в i-том опыте. Вычисляют расчетное значение критерия Фишера

F_p =S_ад²/S²_х

Уравнение регрессии считается адекватным,если выполняется

условие F_р <F, где F - табличное значение критерия Фишера при степени свободы f_ад =N-B.

Глава 3. Методы корреляционного и регрессионного анализа.

Методы регрессионного и корреляционного анализа широко применяются для выявления и описания зависимостей между случайными величинами по экспериментальным данным. Для экспериментального изучения зависимсти между случайными величинами X и Y проводят n независимых опытов,получают пары значений X ,Y . О наличии или отсутствии корреляции можно судить по виду поля корреляции, нанося точки X ,Y на координатную плоскость. (См. рис. 4 ) 1- положительная корреляция; 2- слабая отрицательная корреляция и 3-корреляция отсутствует.

Y Y Y

+ + + +

+ + + + +

+ + +

X X X 1) 2) 3)

Рис.4. Типы корреляционных зависимостей: 1-положительная корреляция; 2-слабая отрицательная корреляция; 3-отсутствие корреляции.

Для количественной оценки тесноты связи между X и Y служит вы-

борочный коэффициент корреляции:

R = [S(x_i -x_cp)(y_i -y_cp)]/(n-1)S_xS_y -1£R£+1

Если R не равна нулю, то корреляция существует. Если R=1 или R= -1,

то имеет место зависимость

y = a + bx (R=1)

или

y= a - bx (R=-1)

Условное математическое ожидание величины Y при данном X

m_x,y = m_y + R(s_y /s_x)(x-m_x)

где m_y = y_cp и m_x = x_cp

Это линейное уравнение называется регрессией Y на X.

Среднее квадратичное отклонение

s_y,x = s_y (1-R² )

Коэффициент корреляции не изменяется при изменении начала отсче-

та и масштаба величин X и Y. Коэффициент корреляции отражает как

долю случайности, так и криволинейность связи между X и Y.

Для проверки гипотезы об отсутствии корреляции необходимо про-

верить, значимо ли отличаются R от нуля. Можно использовать нормальное распределение

s_R =(1-R²)/(n)^1/2 .

Если доверительная вероятность равна 0,95, то коэффициент корреляции находится в пределах

R - 1,96(1-R)/(n)^1/2 £ R £ R + 1,96(1-R)/(n)

Таким образом, с вероятностью 0,95 можно утверждать, что зависимость между случайными величинами X и Y существует, если 0 не содержится внутpи доверительного интервала, то есть если

|R| = 1,96(1+R²)/(n)^1/2 > 0

Если экспериментальных данных мало, то распределение коэффициентов корреляции отличается от нормального. При доверительной вероятности 0,95

Z-1,96/(n-3)^1/2 £ m_z £ Z+1,96/(n+3)^1/2

где m_z - математическое ожидание Z_cp

Z = (1/2)ln[(1+R)/(1-R)]

Для характеристики формы связи при изучении корреляционной зависимости пользуются уравнением приближенной регрессии.

Пример 7: По данной выборке объема n найти уравнение приближенной регрессии и оценить допускаемую при этом ошибку.

Уравнение приближенной регрессии существенно зависит от выбира-емого метода приближения. Обычно выбирают метод наименьших квадратов. Наилучшее приближение дает функция f(x), для которой сумма квадратов Ф имеет наименьшее значение:

Ф = S(y_i -f(x_i))² = min

Для определения уравнения регрессии, описывающего зависимость Y от X в виде полинома

Y=f(x,b₀ ,b₁ ,b₂ ,b₃ ...b_k )

следует определить коэффициенты b_k . Минимальное значение Ф будет при

dФ/db₀ =0; dФ/db₁ =0; . . . или S2[y-f(x_i, ... )]df/db₀ = 0

Можно также составить и решить систему уравнений

Sy(df/db₀ ) - Sf(df/db₀) = 0

...........

Система уравнений содержит столько же уравнений, сколько коэф-

фициентов b_k .

Линейная регрессия от одного параметра

Методом наименьших квадратов найти уравнение вида Y=b +b X, наилучшим образом описыващую положительную регрессионную зависимость Y от X.

Для этого составляем систему уравнений:

Sy_i - S(b +b₁X) = 0 ¶Ф/¶b₀= S(y_i-(b₀+b₁x_i)) = 0

Sx_iy_i - S(b₀+b₁x_i) =0 ¶Ф/¶b₁= S(y_i-(b₀+b₁x_i)x_i) = 0

После преобразований находим

b = [Sx_iSy_i- NSx_iy_i]/[ (Sx_i)²-NSx_i²]

b₀ =Y_cp-b₁X_cp

Коэффициент корреляции рассчитываем по формуле

R = [S(x_i -x_cp)(y_i -y_cp)]/(n-1)S_xS_y -1£R£+1

или

R=b₁S_x/S_y = b₁{[nSx_i² -(Sx_i)² ]/[nSy_i² -(Sy_i)² ]}^1/2

Проверку вычислений проводят по формуле:

S(x_i+y_i)² = Sx_i² + 2Sx_iy_i + Sy_i²

Качество аппроксимации оценивают, сравнивая S²_ост и дисперсию относительно среднего

S_у² = [S(y_i-Y_cp)²]/(n-1)

S²_ост = [SS(y_in -Y_icp)²]/( Sm_i -L)

где L - число коэффициентов в уравнении регрессии.

Параболическая регрессия

Y=b₀+b₁X+b₂X²

Система уравнений:

b₀N + b₁Sx_i + b₂Sx_i² = Sy_i

b₀Sx_i + b₁Sx_i² +b₂Sx_i³ =Sx_iy_i

b₀Sx_i² + b₁ Sx_i³ +b₂Sx_i⁴ =Sx_i²y_i²

Трансцендентная регрессия

Задача решается заменой перемeнных. Пусть Y=b₀b₁^x или Y=b₀X^b1

- показательная функция или степенная функция. Они линеализируются

Лек.5 Стр.21

уравнением вида

lgY=lgb₀ +Xlgb₁ ;

lgY=lgb₀ +b₁lgX;

- 29 -

пусть lgY=Z; lgb₀ =a₀ ; lgb₁ =a₁ ; lgx=t

Z=a₀ +a₁ X и Z=a₀ +b₁t

Множественная корреляция

Ищут зависимость

Y = b₀ + b₁x₁+ b₂x₂ + b₃x₃ +...+ b_kx_k

Сначала переходят от натурального масштаба к новому, проведя

нормирование

Y_i⁰ =(y_i -Y_cp)/S_y ; X_ij⁰ = (x_ij -X_j⁰ )/S_xj

где i = 1,2,3,...n; j = 1,2,3,..k;

и ищут коэффициенты уравнения

Y⁰ = a₀ + a₁x₁⁰ + a₂x₂⁰ + a₃x₃⁰ +...+ a_kx_k⁰

Коэффициенты уравнения находят из условия

¶Ф/¶a₁=1; ¶Ф/¶a₂=1; ¶Ф/¶a_k =1

Составляют систему нормализованных уравнений

a₁S(x_1i⁰)² + a₂Sx_1i⁰x_2i⁰ + ...+ a_kSx_1i⁰x_ki⁰ =Sx₁⁰y_i⁰

a₁ S(x_2i⁰x_2i⁰) + a₂S(x_2i⁰)² + ...+a_k Sx_2i⁰ x_ki⁰ =Sx_2i⁰ y_i⁰

........

a₁Sx_ki⁰x_1i⁰ + a₂Sx_ki⁰x_2i⁰ + ...+a_kS(x_ki⁰)² =Sx_ki⁰y_i⁰

Если умножить на 1/(n-1) и принять во внимание, что

[1/(1-n)] S(x_ij²) = 1

получаем систему нормальных уравнений вида

a₁r_xkx1+ a₂r_xkx2 + ... + a_k = r_yxk

Далее можно рассчитать коэффициент множественной корреляции.

ПРИЛОЖЕНИЯ

_х

Таблица 1. Функция Лапласа Ф(х)=[1(2p)^1/2]òехр(-х²/2) dх

х	Ф(х)	х	Ф(х)	х	Ф(х)	х	Ф(х)
0,00		0,70	0,2580	1,40	0,4192	2,10	0,4821
0,05	0,0199	0,75	0,2734	1,45	0,4265	2,20	0,4861
0,10	0,0398	0,80	0,2481	1,50	0,4332	2,30	0,4893
0,15	0,0596	0,85	0,3023	1,55	0,4394	2,40	0,4918
0,20	0,0793	0,90	0,3159	1,60	0,4452	2,50	0,4938
0,25	0,0987	0,95	0,3289	1,65	0,4505	2,60	0,4953
0,30	0,1179	1,00	0,3413	1,70	0,4554	2,70	0,4965
0,35	0,1368	1,05	0,3531	1,75	0,4599	2,80	0,4974
0,40	0,1554	1,10	0,3643	1,80	0,4641	2,90	0,4981
0,45	0,1736	1,15	0,3749	1,85	0,4678	3,00	0,49865
0,50	0,1915	1,20	0,3849	1,90	0,4713	3,20	0,49931
0,55	0,2088	1,25	0,3944	1,95	0,4744	3,40	0,49966
0,60	0,2257	1,30	0,4032	2,00	0,4783	3,60	0,49984
0,65	0,2422	1,35	0,4115	2,06	0,4803	4,00	0,499968

Таблица 2. Критерий Стьюдента t: Значения t при данном числе степеней свободы N и данной величине вероятности (уровне значимости) Р.

N	Р= 0,10	P= =0,05	P= =0,02	Р= 0,01	N	Р= 0,10	P= =0,05	P= =0,02	Р= =0,01
	6,31	12,704	31,821	63,7		1,80	2,201	2,718	3,11
	2,92	4,303	6,965	9,93		1,78	2,179	2,681	3,06
	2,35	3,182	4,541	5,84		1,77	2,160	2,650	3,01
	2,13	2,778	3,747	4,60		1,76	2,145	2,624	2,98
	2,02	2,571	3,365	4,03		1,75	2,131	2,602	2,95
	1,94	2,447	3,143	3,71		1,75	2,120	2,583	2,92
	1,90	2,365	2,998	3,50		1,74	2,110	2,567	2,90
	1,86	2,306	2,896	3,36		1,73	2,086	2,528	2,85
	1,83	2,262	2,821	3,25		1,71	2,060	2,485	2,79
	1,81	2,288	2,764	3,17		1,70	2,042	2,457	2,75

- 31 -

Таблица 3.Критерий Фишера: значения F=S₁²/S₂² при Р=0,05 N₁- число степеней свободы (для числителя); N₂- число степней свободы для знаменателя.

N₂	N₁=1	N₁=3	N₁=5	N₁=20
	161,4	215,70	230,2
	18,51	19,16	19,30	19,4
	10,13	9,28	9,01	8,66
	7,71	6,59	6,26	5,80
	6,61	5,41	5,05	4,56
	5,59	4,35	3,97	3,44
	5,32	4,07	3,69	3,15
	5,12	3,86	3,48	2,94
	4,96	3,71	3,33	2,77
		3,49	3,00	2,54

Таблица 4. Критерий Пирсона (согласия) c2 : значения ,соответствующие значениям Р(c2) и числам степеней свободы N.

N	Р=0,95	P=0,05	P=0,02	N	Р=0,95	P=0,05	P=0,02
	0,0039	3,841	5,412		3,32	16,919	19,679
	0,103	5,991	7,824		3,94	18,307	21,161
	0,352	7,815	9,837		7,3	24,996	28,259
	0,71	9,488	11,668		10,9	31,410	35,020
	1,14	11,070	13,388		14,6	37,652	41,566
	2,17	14,067	16,622		18,5	43,773	47,962

Литература

1. Ахназарова С.Л., Кафаров В.В. Методы оптимизации эксперимента в химической технологии.М.,Высщая школа, 1985 г.

2. Кафаров В.В. Методы кибернетики в химии и химической технологии.М.,Химия,1976 г.

3.Глудкин О.П. и др. Статистические методы в технологии производства РЭА, М.,Энергия,1977 г.

4. Джонсон Н.,Лион Ф. Статистика и планирование эксперимента в технике и науке. Методы планирования эксперимента.М.,Мир,1981 г.

5.Адлер Ю.П., Маркова Е.В., Грановский Ю.В., Планирование эксперимента при поиске оптимальных условий.М.,Наука,1976 г.

Приложение 1.

Требования к качеству экспериментов для возможности их планирования.

Успешное применение методов планирования экспериментов возможно только тогда, когда опыты являются воспроизводимыми, а выборочные дисперсии однородными. Чтобы в этом убедиться, необходимо :