Математическая статистика — наука о математических методах систематизации и использования статистиче­ских данных для решения научных и практических задач

Математическая статистика

Методы математической статистики позволяют систематизи­ровать и оценивать экспериментальные данные, которые рассматриваются как случайные величины.

Основные понятия математической статистики

В главе 2 были рассмотрены некоторые понятия и закономерности, которым подчинены массовые случайные явления. Одной из практических задач, связанных с этим, является создание методов отбора данных (статистические данные) из большой сово­купности и их обработки. Такие вопросы рассматриваются в математической статистике.

Математическая статистика — наука о математических методах систематизации и использования статистиче­ских данных для решения научных и практических задач.

Ма­тематическая статистика тесно примыкает к теории вероятностей и базируется на ее понятиях. Однако главным в математической статистике является не распределение случайных величин, а ана­лиз статистических данных и выяснение, какому распределению они соответствуют.

Предположим, что необходимо изучить множество объектов по какому-либо признаку. Это возможно сделать, либо проведя сплош­ное наблюдение (исследование, измерение), либо не сплошное, выбо­рочное.

Выборочное, т. е. неполное, обследование может оказаться предпочтительнее по следующим причинам. Во-первых, естест­венно, что обследование части менее трудоемко, чем обследование целого; следовательно, одна из причин — экономическая. Во-вто­рых, может оказаться и так, что сплошное обследование просто нереально. Для того чтобы его провести, возможно, нужно унич­тожить всю исследуемую технику или загубить все исследуемые биологические объекты. Так, например, врач, имплантирующий электроды в улитку для кохлеарного протезирования (см. § 6.5), должен иметь вероятностные представления о расположении улитки слухового аппарата. Казалось бы, наиболее достоверно та­кие сведения можно было получить при сплошном патологоанатомическом вскрытии всех умерших с производством соответствую­щих замеров. Однако достаточно собрать нужные сведения при выборочных измерениях.

Большая статистическая совокупность, из которой отбирается часть объектов для исследования, называется генеральной сово­купностью, а множество объектов, отобранных из нее, — выбо­рочной совокупностью, или выборкой.

Свойство объектов выборки должно соответствовать свойству объектов генеральной совокупности, или, как принято говорить, выборка должна быть представительной (репрезентативной). Так, например, если целью является изучение состояния здо­ровья населения большого города, то нельзя воспользоваться вы­боркой населения, проживающего в одном из районов города. Ус­ловия проживания в разных районах могут отличаться (различ­ная влажность, наличие предприятий, жилищных строений и т. п.) и, таким образом, влиять на состояние здоровья. Поэтому выбор­ка должна представлять случайно отобранные объекты.

Если записать в последовательности измерений все значения величины х в выборке, то получим простой статистический ряд. Например, рост мужчин (см): 170, 169, ... . Та­кой ряд неудобен для анализа, так как в нем нет последователь­ности возрастания (или убывания) значений, встречаются и по­вторяющиеся величины. Поэтому целесообразно ранжировать ряд, например, в возрастающем порядке значений и указать их повторяемость. Тогда статистическое распределение выборки:171, 172, 172, 168,

 

(3.1)

 

Здесь xi — наблюдаемые значения признака (варианта); ni — число наблюдений варианты xi (частота); рi* — относительная частота.


Общее число объектов в выборке (объем выборки)

всего k вариант. Статистическое распределение — это совокуп­ность вариант и соответствующих им частот (или относительных частот), т. е. это совокупность данных 1-й и 2-й строки или 1-й и 3-й строки в (3.1).

В медицинской литературе статистическое распределение, со­стоящее из вариант и соответствующих им частот, получило на­звание вариационного ряда.

Наряду с дискретным (точечным) статистическим распределе­нием, которое было описано, используют непрерывное (интер­вальное) статистическое распределение:

 

 

(3.2)

 

Здесь xi-1, xi - i-йинтервал, в котором заключено количественное значение признака; ni — сумма частот вариант, попавших в этот интервал; р*i — сумма относительных частот.

В качестве примера дискретного статистического распределения укажем массы новорожденных мальчиков (кг) и частоты (табл. 5).

Таблица 5

 
 

 


 

Общее количество мальчиков (объем выборки)

 

(3.3)

Можно это распределение представить и как непрерывное (интер­вальное) (табл. 6).

Таблица 6

 

2,65 — 2,75 2,75 — 2,85 2,85 — 2,95 2,95 — 3,05 3,05 — 3,15
 

Для наглядности статистические распределения изображают графически в виде полигона и гистограммы.



Полигон частот — ломаная линия, отрезки которой соединяют точки с координатами 1, п1 , (х2; п2), ... или для полигона относительных частот — с координатами 1; р1* ), (х2; р2 *), ... (рис. 3.1). Рис. 3.1 относится к распределению, представленному в табл. 5.

Гистограмма частот — совокупность смежных прямоуголь­ников, построенных на одной прямой линии (рис. 3.2), основания прямоугольников одинаковы и равны а, а высоты равны отноше­нию частоты (или относительной частоты) к а:

 

(3.4)

 

Таким образом, площадь каждого прямоугольника равна соответ­ственно


Следовательно, площадь гистограммы частот , а площадь гистограммы относительных частот

Наиболее распространенными характеристиками статистическо­го распределения являются средние величины: мода, медиана и средняя арифметическая, или выборочная средняя.

Мода (Мо) равна варианте, которой соответствует наиболь­шая частота. В распределении массы новорожденных (см. табл. 5) Мо = 3,3 кг.

Медиана (Me) равна варианте, которая расположена в середи­не статистического распределения. Она делит статистический (ва­риационный) ряд на две равные части. При четном числе вариант за медиану принимают среднее значение из двух центральных ва­риант. В рассмотренном распределении (см. табл. 5) Me = 3,4 кг.

Выборочная средняя в) определяется как среднее арифмети­ческое значение вариант статистического ряда:

(3.5)

(3.6)

Для примера (см. табл. 5)

 

Для характеристики рассеяния вариант вокруг своего среднего значения вводят характеристику, называемую выборочной дисперсией, — среднее арифметическое квадратов отклонения ва­риант от их среднего значения:

 

(3.7)

 

Квадратный корень из выборочной дисперсии называют выбороч­ным средним квадратическим отклонением:

 

(3.8)


Для примера (см. табл. 5)