Предмет и метод математической статистики

Ю. М. ЖУЧЕНКО

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
В БИОЛОГИИ И ХИМИИ

Учебное пособие

 

Гомель 2010


 

Министерство образования Республики Беларусь

Учреждение образования

«Гомельский государственный университет

имени Франциска Скорины»

Ю. М. ЖУЧЕНКО

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
В БИОЛОГИИ И ХИМИИ

УЧЕБНОЕ ПОСОБИЕ

для студентов вузов, обучающихся по специальности
1-31 01 01 «Биология»

 

 

Гомель 2010


УДК 57; 004.9+54; 004.9 (075.8)

ББК 28c51+24c51я73

Ж 834

 

Рецензенты:

А.С. Кобайло доцент, к.т.н., доцент кафедры ИСиТ Белорусского государственного технологического университета;

Н.Г. Еремова доцент, к.б.н., доцент кафедры общей экологии и методики преподавания биологии Белорусского государственного университета.

 

Рекомендовано к изданию научно – методическим советом учреждения образования «Гомельский государственный университет имени Франциска Скорины»

 

Жученко, Ю. М.

Ж 834 Математическая статистика в биологии и химии: учебное пособие для студентов вузов по специальности
1-31 01 01 «Биология» / Ю. М. Жученко; М-во образования РБ, Гомельский гос. ун-т им. Ф. Скорины. – Гомель: ГГУ
им. Ф. Скорины, 2010.– 197 с.

ISBN

 

Целью учебного пособия является оказание помощи студентам в усвоении основ курса математической статистики в биологии и химии, обработки результатов экспериментов с применением возможностей персональных компьютеров.

Учебное пособие адресовано студентам специальности
1-31 01 01 “Биология”.

 

УДК 57; 004.9+54; 004.9 (075.8)

ББК 28c51+24c51я73

 

ISBN Ó Жученко Ю. М., 2010

Ó УО «Гомельский

государственный

университет им Ф. Скорины», 2010

Основные условные обозначения в математической статистике

Xi, Yj, Zk – случайные переменные (дискретные или непрерывные);

р – вероятность ожидаемого дискретного события;

q – вероятность противоположного дискретного события;

m – частота появления ожидаемого события;

n – число испытаний;

pi – вероятность i–го дискретного события;

f(x) – плотность вероятности непрерывной случайной переменной;

E(X) – математическое ожидание случайной переменной;

D2(X) – дисперсия;

D(X) – стандартное (среднеквадратическое отклонение);

μ – среднее арифметическое выборки;

σ2 – дисперсия выборки;

σ – стандартное (среднеквадратическое отклонение) выборки;

– среднее арифметическое генеральной совокупности;

– дисперсия генеральной совокупности;

– стандартное (среднеквадратическое) отклонение генеральной совокупности;

G – средняя геометрическая;

H – средняя гармоническая;

S – средняя квадратическая;

М0 – мода;

Ме – медиана;

ν – число степеней свободы;

V – коэффициент вариации;

– нормированное отклонение;

– средняя суммарной группы;

– стандартное отклонение (сигма) суммарной группы;

А – скошенность (асимметрия) кривой распределения;

Е – крутизна (эксцесс) кривой распределения;

±Δ – доверительные границы;

t – критерий надежности;

F – критерий Фишера;

β1, β2, β3 – три основных порога вероятности безошибочных прогнозов;

χ2 – критерий согласия Пирсона;

λ – критерий согласия Колмогорова – Смирнова;

– ошибка репрезентативности выборочного показателя;

– ошибка коэффициента вариации;

– ошибка разности средних;

– ошибка показателя асимметрии;

– ошибка показателя асимметрии;

– ошибка показателя эксцесса;

r – парный коэффициент корреляции;

– ошибка коэффициента корреляции;

Ry/x – коэффициент регрессии;

– ошибка коэффициента регрессии;

rxy-z, rxz-y, rzy-x – частные коэффициенты корреляции;

Rx-yz, Ry-xz, Rz-yx – множественные коэффициенты корреляции;

ηyx – корреляционное отношение;

– ошибка репрезентативности корреляционного отношения;

Сi – сумма квадратов факториальных, случайной и общей центральных отклонений (СV, СА, СB, САB, CZ, СY);

– сила влияния.


Содержание

Основные условные обозначения в математической статистике 3

Введение 8

ТЕМА 1 Основы теории вероятностей. 9

1.1 Предмет и метод математической статистики. 9

1.2 Понятие случайного события. 12

1.3 Вероятность случайного события. 15

1.4 Основные теоремы теории вероятностей. 17

ТЕМА 2 Случайные переменные. 21

2.1 Понятие случайной переменной. 21

2.2 Математическое ожидание и дисперсия. 24

2.3 Моменты 28

ТЕМА 3 Дискретные распределения. 30

3.1 Биномиальное распределение и измерение вероятностей. 30

3.2 Распределение редких событий (Пуассона) 34

ТЕМА 4 Основные модели теоретических распределений. 37

4.1 Прямоугольное (равномерное) распределение. 37

4.2 Нормальное распределение. 38

4.3 Логарифмически нормальное распределение. 43

ТЕМА 5 Распределения параметров выборки. 46

5.1 t – распределение Стьюдента. 46

5.2 F-распределение Фишера–Снедекора. 49

5.3 χ2–распределение. 50

ТЕМА 6 Основы математической статистики. 53

6.1 Средние величины.. 53

6.2 Средняя арифметическая. 57

6.3 Средняя геометрическая. 65

6.4 Средняя гармоническая. 68

ТЕМА 7 Разнообразие значений признака. 71

7.1 Стандартное (среднеквадратическое) отклонение. 71

7.2 Проверка выпадов (артефактов) 78

7.3 Средняя и сигма суммарной группы.. 79

7.4 Скошенность (асимметрия) и крутизна (эксцесс) кривой распределения 80

ТЕМА 8 Графическое представление распределений. 82

8.1 Вариационный ряд. 82

8.2 Гистограмма и вариационная кривая. 84

8.3 Кумулята 85

8.4 Достоверность различия распределений. 86

ТЕМА 9 Нормальное распределение. 93

9.1 Генеральная совокупность и выборка. 93

9.2 Репрезентативность. 96

9.3 Ошибки репрезентативности и другие ошибки исследований. 97

9.4 Доверительные границы.. 100

ТЕМА 10 Оценка генеральных параметров. 103

10.1 Общий порядок оценки. 103

10.2 Критерий достоверности разности. 113

10.3 Репрезентативность при изучении качественных признаков. 116

10.4 Достоверность разности долей. 119

ТЕМА 11 Парная корреляция. 122

11.1 Коэффициент корреляции. 122

11.2 Ошибка коэффициента корреляции. 127

11.3 Уравнение прямолинейной регрессии. 132

11.4 Ошибки элементов уравнения прямолинейной регрессии. 135

ТЕМА 12 Частная и множественная линейные корреляции и регрессии 138

12.1 Частный коэффициент корреляции. 138

12.2 Множественный коэффициент корреляции. 141

12.3 Линейное уравнение множественной регрессии. 142

ТЕМА 13 Криволинейная корреляция и регрессия. 144

13.1 Корреляционное отношение. 144

13.2 Свойства корреляционного отношения. 149

13.3 Ошибка репрезентативности корреляционного отношения. 150

13.4 Критерий линейности корреляции. 152

ТЕМА 14 Однофакторный дисперсионный анализ. 154

14.1 Сущность и метод дисперсионного анализа. 154

14.2 Однофакторный дисперсионный комплекс. 159

ТЕМА 15 Многофакторный дисперсионный анализ. 162

15.1 Многофакторный дисперсионный комплекс. 162

15.2 Преобразования. 164

15.3 Универсальное использование дисперсий. 165

ТЕМА 16 Классификация. 177

16.1 Дискриминантный анализ. 177

16.2 Кластерный анализ. 181

Литература 188

Приложение. Основные формулы и определения. 189

 

Введение

Предлагаемая работа – учебное пособие по математической статистике в биологии и химии предназначено, прежде всего, для биологов. Этим определяется как принятая в ней тематическая структура, содержание приводимых примеров, так и самый метод изложения материала. Считаясь с тем, что рядовой читатель этой книги не будет иметь математического образования, а только тот запас сведений из этой области, который дается в настоящее время в вузах с биологическим уклоном, во многих случаях сложные математические процедуры опускаются.

В ходе изложения внимание акцентируется главным образом на практическое приложение описываемых методов; упор делается также на то, чтобы выработать у читателя определенную минимальную сноровку в «арифметике» вычисления вероятностей. Если первое необходимо для осознания большой практической ценности математической статистики, то второе может весьма пригодиться при чтении научной литературы по статистике. Довольно значительное число примеров призвано облегчить понимание текста и показать некоторые основные виды проблем, решаемых с помощью математической статистики.

Главная трудность в изложении состоит в том, что в большинстве случаев выборки, с которыми имеют дело в биологических исследованиях, не складываются из независимых наблюдений, что значительно усложняет методы статистической оценки. Существует много важных биолого-экологических проблем, которые можно решить с помощью статистико-математических методов, но методы эти весьма специфичны и, как правило, сложны.

Дано достаточно традиционное изложение. При этом исключены темы, касающиеся статистики эксперимента, и в то же время сделана попытка выделить общие принципы статистической оценки.

Усвоение материала должно помочь читателю в дальнейшем самостоятельном изучении статистических методов, а также тех разделов теории операционных исследований, где рассматриваются вероятностные и статистические модели.

ТЕМА 1 Основы теории вероятностей

1.1 Предмет и метод математической статистики

1.2 Понятие случайного события

1.3 Основные теоремы теории вероятностей

Предмет и метод математической статистики

Предмет математической статистики – изучение свойств массовых явлений в биологии, экономике, технике и других областях. Эти явления обычно представляются сложными, вследствие разнообразия (варьирования) отдельных индивидуумов или единиц. Чтобы получить правильное представление об изучаемых свойствах массовых явлений и дать им определенные количественные оценки, их подвергают совместному рассмотрению и анализу. Отдельные единицы или индивидуумы, обладающие некоторым общим свойством, объединяют в совокупности. Наблюдаемые единицы называют вариантами (данными, датами), а образуемую совокупность единиц – статистической совокупностью.

Статистическая совокупность может быть образована по одному или по нескольким признакам. Она может состоять из одной или нескольких однородных в отношении изучаемого свойства групп. Однако часто бывает целесообразно подразделить отдельные наблюдаемые единицы на группы для достижения большей однородности их внутри этих групп.

Теорию и методы изучения свойств массовых явлений, вычисления и анализа их количественных характеристик излагает наука, носящая название – математическая статистика.

Раньше других начали изучать массовые явления в биологии, главным образом размерные характеристики человека. В 80-е годы XIX в. науку, излагающую методы изучения массовых явлений в биологии, английский ученый Ф. Гальтон назвал биометрией (от лат. bios – жизнь, metron – мера).

Термин «вариационная статистика» был введен позднее. Он шире и точнее отражает сущность данной науки и означает, что вариационная статистика измеряет все массовые явления. Однако и этот термин не единственный. Теория и методы наблюдений и интерпретации массовых явлений излагаются в последнее время под различными названиями, среди которых наиболее общим является термин «статистические методы» или «математическая статистика».

Метод изучения массовых явлений, применяемый статистикой, основан на теории вероятностей. Теория вероятностей устанавливает закономерности событий, наступающих случайно и называемых случайными. Статистика предполагает анализ массовых явлений, имеющих также случайный характер в распределении значений отдельных единиц, составляющих явление.

Вместе с тем, метод статистики принципиально иной. Теория вероятностей имеет дело с исходными явлениями, структура которых известна, например, содержание шаров в урне (сколько белых и сколько черных). В самом общем смысле задача теории вероятностей состоит в том, чтобы математически – дедуктивным путем (идя от общего к частному) вывести теоремы о наступлении того или иного события в серии испытаний.

Дедуктивные выводы имеют такую общую форму:

Большая посылка: все зерна в ящике белые.

Малая посылка: эти зерна (определенная пригоршня) из данного ящика.

Заключение: эти зерна (пригоршня) белые.

Дедуктивное заключение не может быть ошибочным, если посылки правильны. Здесь налицо вся информация, содержащаяся в посылках. Заключение является только выражением подразумеваемой в посылках закономерности.

Статистика имеет дело с открытыми системами, не охваченными сплошным изучением. Центральной задачей математической статистики как метода исследования являются заключения, выходящие за рамки изученного материала, т. е. заключения о свойствах статистических совокупностей, принимая во внимание и неизученную их часть.

Всю статистическую совокупность, в отношении которой делают статистические обобщения и заключения, называют общей, или генеральной совокупностью, а часть ее, охваченную непосредственным наблюдением, называют выборочной совокупностью.

Вариационная статистика применяет метод оценки общей совокупности на основе изученных отдельных единиц или на основе выборочных совокупностей.

Метод изучения явлений, при котором приходят к обобщениям, изучив отдельные случаи этого явления, называется методом индукции (от частного - к общему).

Следовательно, вариационная статистика использует метод индуктивных заключений.

Индуктивное заключение, как общий логический процесс, идущий от большой и малой посылки, имеет такую форму:

Большая посылка: эти зерна (определенная пригоршня) из данного ящика.

Малая посылка: эти зерна белые.

Заключение: все зерна в ящике белые.

Очевидно, что заключение с индуктивной аргументацией шире, чем посылки. В заключение добавляется нечто новое, расширяющее знания об изучаемом явлении. Это потенциальное расширение знаний требует осторожности. Оно может быть плодотворно, но существует некоторая опасность получить необоснованные и ложные выводы.

Логическим основанием индуктивного заключения является предположение о единообразии в системе фактов, относящихся к посылкам и заключению. Это предположение, называемое единообразием в природе, статистической устойчивостью опыта, ограничением независимой вариации в природе, всегда представляет как бы невысказанную посылку индукции.

Если бы единообразие в естественных процессах не проявлялось, природе был бы свойствен полный хаос. При этом никакое нагромождение фактов не могло бы оправдать индукцию. Нельзя было бы ничего сказать об условиях за пределами опыта. Но природе свойственно определенное единообразие в поведении отдельных единиц, составляющих то или иное массовое явление. Однако это единообразие в природе не столь строго, чтобы можно было сделать точную оценку массового (общего) явления наблюдаемых единиц. Поэтому статистические заключения о свойствах генеральных совокупностей по выборочным всегда имеют вероятностный характер, т. е. делаются с определенной степенью безошибочности и никогда не делаются с полной достоверностью.

Следует отметить, что конструкция выборочных оценок оказывается более предпочтительной даже в тех случаях, когда все единицы, составляющие то или иное явление, могут быть измерены,
т. е. относятся к ограниченным генеральным совокупностям. Это положение, затронувшее различные виды генеральных совокупностей, нуждается в более широком пояснении. На практике встречаются обследуемые генеральные совокупности конечные и бесконечные. Примером первой может служить выборочное обследование, допустим, бюджетов семей в определенном городе.

С бесконечными совокупностями имеют дело при различных экспериментальных исследованиях, когда вопрос заключается не в том, чтобы получить точный результат в данном эксперименте, но главным образом в оценке того, каковы будут результаты массового применения данного процесса – биологического, технологического или экономического. Предположим, производится оценка степени всхожести семян на нескольких десятках делянок (в % от обследованных единиц). В данном случае генеральная совокупность бесконечна, ибо для оценки не столь уж важно, сколько взошло семян на данных делянках, как то, каковы будут всходы в производстве. Здесь научный эксперимент становится как бы «механизмом» получения случайной выборки.

Возможны обстоятельства, когда полезно прибегнуть к особой логической конструкции – гипотетической генеральной сверхсовокупности. Иногда мы можем располагать данными даже сплошного обследования реально существующей совокупности, и все же бывает полезно рассматривать эти данные как выборку из некоторой сверхсовокупности. Так поступают, когда не только нужны полученные факты, но и необходимо выявить общую закономерность, по отношению к которой статистический материал представляется лишь частным случаем.

Предположим, что из статистических обследований рождаемости в стране за ряд лет установлено, что 52% из числа родившихся составили мальчики. Эти данные получены путем сплошного обследования и характеризуют явление однозначно. Однако, если нас интересует результат и за пределами обследованных лет или проверяется заключение о том, что мальчиков рождается больше, тогда полученные данные следует рассматривать как выборку из некоторой бесконечной сверхсовокупности различных возможных пропорций рождений по полу. На основе таких данных, пользуясь методами статистики, представляется возможным исследовать, приемлемо ли предположение о более частой рождаемости мальчиков. Заметим, что определяемая таким образом сверхсовокупность не ограничена ни численностью, ни территорией, в которой произведен эксперимент.