Нормальный закон распределения

Очень часто закон распределения непрерывной случайной ве­личины при неограниченном возрастании числа испытаний опи­сывается выражением:

φ(X) = 1/((2π)1/2σ) * e((xa)2/2σ2)1/2

Это распределение называется - нормальный закон распре­деления. Здесь а - математическое ожидание, σ - среднее квад­ратичное отклонение, е - неперово число или основание нату­рального логарифма. Кривая симметрична относительно точки х = а. Величина φ(Х) в этой точке опреде­ляется формулой:

φ(X) = 1/((2π)1/2σ)

т.е. максимальное значение функции φ(Х) зависит от ве­личины среднего квадратич­ного отклонения. Поэтому в экспериментальных распреде­лениях форма кривой может отличаться от теоретического нормального распределения в зависимости от числа изме­рений или от вели­чины σ. Одним из основных положении матема­тической статистики является гипотеза о том, что абсолютное большинство генеральных распре­делений совпадает с каким-то теоретическим распределением, чаще всего с нормаль­ным законом распределения. Однако выборочные эксперимен­тальные распределения могут отличаться и значительно от теоре­тических распределений. В качестве параметров, опреде­ляющих эти отличия, вводят специальные характеристики положения и рас­сеяния, такие как медиана, мода, выборочное среднее, выбо­рочная дисперсия, выборочное среднее квадра­тичное отклонение.

Медиана (Me) - средняя, относительно кото­рой ряд рас­пределения делится на две части; в обе стороны от медианы располагается одинаковое число ранжированных значений из­меренной величины.

Например, для ряда 12, 14, 16, 18, 20, 22, 24, 26, 28 медианой будет число 20: по обе стороны располагаются по 4 значения.vДля ряда с четным числом значений (6, 8, 10, 12, 14, 16, 18, 20, 22, 24) медиана определяется как полусумма централь­ных членов Ме = (14+16)/2= 15

Мода (Мо) - это величина или качественный признак, ко­торый включает наибольшее число вариант.

Интервал (класс), в котором наибольшее число вариант, называется модальным классом.

Медиана определяется по формуле: Me = xn + λ((m2 – m1)/(2m2 – m1 – m3))

где хn - нижняя граница модального класса, λ - ширина модально­го класса, m1, m2, m3 - соответ­ственно: частота класса, предшеству­ющего модальному; частота самого модального класса; частота последующего за модальным классом. В приведенном примере

Me = 11.8 + 0.7((25-23)/(2*25 – 23 -17)) =12.9

На представленном гра­фике дано распределе­ние по возрасту заболевших дифтерией (по верти­кальной оси - количество заболев­ших на 10 тыс. человек, по горизонтальной - возраст). Величина математичес­кого ожидания М(Х)=7,75 практиче­ски не несет ин­формацию о данном заболевании, а величина моды Мо = 3 определяет в каком возрасте наиболее часто происходят заболевания и необходимо осуществ­лять профилактические мероприятия. Кроме медианы и моды для характеристики выборочных рас­пределений используются также рассмотренные выше параметры: математическое ожидание, диспер­сия и среднее квад­ратичное отклонение.

Нормальное теорети­ческое распределение гра­фически представлено чет­ко выраженной симметрич­ной линией (1) на рис.

 

Однако выборочные рас­пределения могут отли­чаться от нормального вы­сотой максимального значения распределения - кривая (2). Это отличие характеризуется специальным параметром - эксцессом распределения. Экспери­ментальное распределение может быть несимметричной кривой (3). Такие отклонения также характери­зуются специальным пара­метром - асимметрией распределения. Для биологических объектов характерно то, что они в боль­шинстве представ­ляют однородные популяции (виды, породы, сор­та и др.). Изучение какого-либо признака у всех особей популяций дало бы множество несколько отличающихся друг от друга значе­ний случайной величины, характеризующей данный признак.

Все множество возможных значений случай­ной величины у всех особей данной популяции называется генеральной сово­купностью.

Однако в эксперименте, в связи с чрезвычайной многочислен­ностью популяций, изучается часть особей.

Множество значений случайной величины, измеренных у отдельных особей, называется выборкой из генеральной сово­купности.

Обозначим: а - математическое ожидание генеральной сово­купности случайной величины X; оно называется истинным зна­чением вели­чины X, ά и σ` - соответственно математическое ожидание и среднее квадратичное отклонение выборки, т.е. серий выборочных измерений этой величины. Величины а и ά , как правило, не совпадают друг с другом и могут отличатся значи­тельно. Задача состоит в том, чтобы правильно выбрать интервал вок­руг – ά - (ά ± ∆ά) , который бы с достаточной степенью на­дежно­сти заключал истинное значение - а. Этот интер­вал назы­вают доверительным интервалом.

Надежностью результата серии измерений называется веро­ятность того, что истинное значение измеряемой величины (а) по­падает в выбранный доверительный интервал выборки. (ά ± ∆ά)

Чем больше величина доверительного интервала, т.е. чем больше (∆ά), тем с большей надежностью величина (а) попадает в этот интервал. Довери­тельный интервал зависит в первую очередь от вели­чин и ∆ά , а также от числа измерений в выборке. При малой выборке значительное отклонение одного из измерений значитель­но изменяет величину ά , при большом количестве измерений (n > 30) значительное отличие одного из измерений практически не меняет ά.

Теория показывает, если n >, 30, то доверитель­ный интервал определяется следующими правилами:

∆ά = σ при надежности 0,68

∆ά = 2σ при надежности 0,95

∆ά = Зσ при надежности 0,997

В медицинских и биологических исследованиях, как правило, считается достаточной надежно­стью - 0,95.

Т.е., чтобы найти величину доверительного интервала (при n >30) нужно определить матема­тическое ожидание а и вели­чину среднеквадра­тичного отклонения σ для данной выборки.

Доверительный интервал равен [ά - 2σ`, ά + 2σ`]

При малых выборках доверительный интервал находят с помо­щью t - критерия Стьюдента (англ. Госсет). Госсетом составлены специальные таблицы для t - критерия в зависимости от числа измерений:

t = ∆ά/σ`; отсюда ∆ά = tσ`

Пример: проводя пять измерений толщины пластины мик­рометром, нашли, что ά = 2,16 мм, σ` = 0,022 мм . Определить доверительный интервал. По таблице Стьюдента определяем для Р = 0,95, n = 5, t = 2,78, ∆ά = 2,78 * 0,022 = 0,06.

Доверительный интервал [2,16 - 0,06, 2,16 + 0,06], т.е. 2,10 < Х < 2,22. С помощью t = критерия Стьюдента решается и обратная за­дача: задав определённый интервал (ά ± ∆ά) вокруг выбо­рочно­го математического ожидания определяют надежность того, что математическое ожидание генеральной совокупности входит в этот интер­вал.

При анализе экспериментальных распределений часто прихо­дится решать три основные задачи:

- относится ли то или иное значение измеренной величины к данной выборке,

- соответствует ли данное выборочное распреде­ление како­му - либо теоретическому распределе­нию,

- являются ли два экспериментальных распреде­ления выбор­ками из одной и той же генеральной совокупности.

Все три задачи сводятся к одной - определить существует ли различие между объектами, указанными в каждой из задач. Это позволяет сформулировать общий подход к решению задач.

Предположение, что различия между объек­тами нет, назы­вают нулевой гипотезой. Существование различия между объектами называют альтернативной гипотезой.

Признание одной из гипотез осуществляется с помощью так называемых критериев различия. Различают два вида критериев различия: пара­метрические и непараметрические. Параметри­чес­кие критерии определяются через параметры распределения: ма­тематическое ожидание, дисперсию, среднее квадратичное откло­нение и др. Наиболее часто употребляемые в статистике парамет­рические критерии: критерий Пирсона, критерий Стьюдента, F-критерий Фишера, критерий χ2 (хи-квадрат). Однако параметри­ческие критерии имеют определенные условия, которые ограничивают их применимость для решения указанных задач. К непара­метрическим критериям относятся: критерий Вилкоксона, крите­рий ван-дер-Вандера, серийный критерий, критерий знаков и др. Сущность и использование всех перечисленных критериев можно найти в любом учебнике по статистике. В качестве примера рассмотрим задачу определения разли­чия между двумя выборками по критерию Стьюдента. Необходимо выяснить эффектив­ность применения некоторого препарата, имею­щего целью повысить сопротивляемость орга­низма по отношению к определенной инфекции. Для этого берут две группы животных. В одной из них (конт­рольной) не вводят препарат, другой (опытной) вводят. Затем обе группы заражают и наблюдают сколько дней переживают живот­ные опытной и контрольной группы. В одной из серий были по­лучены следующие результаты:

Как видно, среднее значение опытной и кон­трольной группы различаются. Но эти различия могут быть обусловлены случайно­стью выборки. Для определения достоверности различия пользу­ются критерием Стьюдента:

1) t =│ά1 - ά2│/(σ`12 + σ`22)1/2, t = │6.25 – 5.22│/(.222 + 0.22)1/2 = 3.4,

2) n = nl+ n2 - 2 = 32 + 23 - 2 = 53,

3) определяют по п и выбранной надежности по таблице t 0,95 = 2,01,10,99 = 2,68,

4) если t > t0,99, то различие считается достовер­ным,

если t0,95< t <t0,99 - то различие сомнительно,

если t < t 0,95 - различия нет.

В нашем примере 3,4 > 2,68. Следовательно, данный препарат обладает защитными свойст­вами. Переменные величины Y и X находятся в функциональной за­висимости одна от другой, если всякому определенному значе­нию одной из них соответствует одно или несколько вполне опре­деленных значений другой. Такие связи представляют все точные законы астрономии, физики, химии.

Например: в законе Бойля - Мариотта давление и объем связаны функциональной зависимостью. Р= C/V, где С= const. Такие зависимости легко можно выразить графически. На практике, особенно в биологии и медицине, изучаются та­кие зависимости, в которых каждому значению одной величины, хотя и соответствуют не­сколько значений другой, но число этих значений и сами значения остаются не вполне определен­ными. Т.е. каждому значению X соответствует не определенное значе­ние, а распределение случай­ной величины Y и наоборот.

Зависимость между X и Y, если она сущест­вует, называют корреляционной или просто корреляцией.

Пример: в таблице представлены данные изме­рения массы и роста мужчин 20 - 25 лет (xi и уi - среднее значение ин­тервалов).

Корреляционная зависимость между ростом и весом в дан­ном примере, если она существует, может быть выражена графи­чески. Для этого определяют среднее значение X для каждого Y и среднее значение Y для каждого X по формулам:

X = ∑xi n/n` , Y = ∑yini/n``

По данным расчета на графике наносят точки и проводят ли­нии, наиболее близко прилежащие к этим точкам. Та­кие линии называются линиями регрессии. По этим линиям можно качественно оценить зависимость между изучаемыми ве­личинами.

 

По их форме можно судить о виде корреляции. В нашем при­мере графиком являются прямые линии. В этом случае говорят о линейной корреляционной зависимости. Линейная корре­ляция яв­ляется самым простым видом зависимо­сти между случайными ве­личинами. Пользуясь специальным математическим аппаратом, можно найти уравнение линий регрессии. В нашем примере: у = b0 + b1х, где b0 и b1 определяются по экспериментальным данным. По расположению этих линий можно судить об отсутствии или наличии связи между изучаемыми признаками. Если линии регрессии перпендикулярны, то связь между величинами полностью исключа­ется. Чем меньше угол между ли­ниями регрес­сии, тем с большим основанием можно говорить о нали­чии такой связи. Если ли­нии регрессии совпадают или параллельны, то связь является функциональной. Количественная оцен­ка корреляции между признаками требует довольно сложных и громоздких математических вычис­лений и не входит в нашу программу. Использу­ется, так называемый коэф­фициент корреляции, который количественно определяет зависи­мость между величинами. Среди методов статистиче­ской обработки экспериментальных данных особо следует выделить дисперсионный анализ. Эта осо­бенность заключается в том, что любая биологическая система представляет собой сложнейший материальный объект, на каж­дый элемент которого действует много факторов внешнего и внутреннего порядка. Характери­стики распределения случайной величины, такие как математическое ожидание и дисперсия не от­ражают влияние отдельных факторов. Основной задачей диспер­сионного анализа и является определение достоверности влияния какого-либо фактора на процессы, происходящие в системе. Не вдаваясь в математические подробности, рассмотрим сущность дисперсионного анализа на конкретном примере. В таблице приведены экспериментальные данные серии опытов по изуче­нию условного рефлекса у 5 собак.

 

Определялось время(в секундах) с момента действия раздражи­теля до начала выделения слюны. Требуется определить: влияют ли индивидуальные особенности животных на условный рефлекс. Из таблицы видно, что вариабельность среднего значения па­раметра времени у каждой собаки довольно большая.

В таблице определена дисперсия математиче­ского ожи­дания параметра времени по индиви­дуальным особенностям животных.

 

Теперь осталось сравнить дисперсию математи­ческого ожида­ния по каждой собаке с общей дисперсией всех опытов по одно­му из критериев различия. В приведенном примере с помощью критерия Фишера было выявлено, что индивиду­альные особенности не влияют на значе­ние вариации времени выработки условного реф­лекса. Указанная схема расчета носит название - однофакторный дисперсионный анализ. Диспер­сионный анализ позволяет также подтвер­дить(или опровергнуть) гипотезу об одновре­менном влиянии двух, трех и более факторов на вариабельность изучаемого признака — это многофакторный дисперсионный анализ. Ситуация использова­ния дисперсионного анализа постоянно возникает в медицине в диагностическом и лечебном процессе при выявлении наиболее эффективных причин заболеваний и методов их лечения. При построе­нии экспериментальных графиков точки, ввиду случайности выборки, как правило, не лежат на одной линии. Су­ществуют определенные правила, которые позволяют провести экс­периментальную линию, наиболее близко к построенным точкам.

Сумма квадратов отклонений функции от ординаты экспе­риментальной линии должна быть наименьшей.

∑∆y I → min

Это правило построения экспериментальных линий получило название метода наименьших квадратов.

Пользуясь правилом наименьших квадратов, можно опре­делить уравнение, выра­жающее зависимость между изучаемыми ве­личинами Y и X.

1)у = ах + b: опре­деляют а и b

2) у = а х2 + bх + с: определяют а, b, с.

В заключение сле­дует указать, что методы статистической обработки экспериментальных результатов даны в лекции схематично, даны только общие подходы. Более де­тально с ними можно познакомиться в специальных руково­дствах.