О статистике и статистических данных

Рассмотрим способ нахождения зависимости частоты заболеваемости жителей города бронхиальной астмой от каче­ства воздуха (третья задача из сформулированных выше). Любому человеку понятно, что такая зависимость существует. Очевидно, что чем хуже воз­дух, тем больше больных астмой. Но это качественное за­ключение. Его недостаточно для того, чтобы управлять уровнем загрязненности воздуха. Для управления требуют­ся более конкретные знания. Нужно установить, какие именно примеси сильнее всего влияют на здоровье людей, как связана концентрация этих примесей в воздухе с числом заболеваний. Такую зависимость можно установить только экспериментальным путем: путем сбора многочисленных данных их анализа и обобщения.

В таких ситуациях на помощь приходит статистика: наука о сборе, измерении и анализе массовых количествен­ных данных. Существуют медицинская статистика, эконо­мическая статистика, социальная статистика и другие. Ма­тематический аппарат статистики разрабатывает раздел науки под названием «Математическая статистика».

Рассмотрим пример из области медицинской статистики.

Известно, что наиболее сильное влияние на бронхиально-легочные заболевания оказывает угарный газ — оксид углерода. Поставив цель определить эту зависимость, специалисты по медицинской статистике проводят сбор данных. Они собирают сведения из разных городов о средней концен­трации угарного газа в атмосфере и о заболеваемости астмой (число хронических больных на 1000 жителей). Полученные данные можно свести в таблицу, а также представить в виде точечной диаграммы (рис. 2.12; приводимые в примере данные не являются официальной статистикой, од­нако правдоподобны).

Статистические данные всегда являются приближенны­ми, усредненными. Поэтому они носят оценочный характер. Однако, они верно отражают характер зависимости величин. И еще одно важное замечание: для достоверности результа­тов, полученных путем анализа статистических данных, этих данных должно быть много.

с, мг/м3 Р, бол./тыс.
2,5
2,9
3,2
3,6
3,9
4,2
4,6

Рис. 2.12. Табличное представление статистических данных

 

Из полученных данных можно сделать вывод, что при концентрации угарного газа до 3 мг/м3 его влияние на заболеваемость астмой несильное. С дальнейшим ростом концентрации наступает резкий рост заболеваемости.

А как построить математическую модель данного явления? Очевидно, нужно получить формулу, отражающую за­висимость числа хронических больных Р от концентрации угарного газа С, т.е. функцию зависимости Р от С: Р(С). Вид такой функции неизвестен, ее следует искать методом подбора по экспериментальным данным.

Понятно, что график искомой функции должен проходить близко к точкам диаграммы экспериментальных данных. Строить функцию так, чтобы ее график точно проходил через все данные точки (рис. 2.13 а), не имеет смысла. Во-первых, математический вид такой функции может оказаться слишком сложным. Во-вторых, уже говорилось о том, что экспериментальные значения являются прибли­женными.

Отсюда следуют основные требования к искомой функ­ции:

‒ она должна быть достаточно простой для использования ее в дальнейших вычислениях;

‒ график этой функции должен проходить вблизи экспериментальных точек так, чтобы отклонения этих точек от графика были минимальны и равномерны (рис. 2.13 б).

 

Рис. 2.13. Два варианта построения графической зависимости по экспериментальным данным

 

Полученную функцию, график которой приведен на рис. 2.13 б, принято называть в статистике регрессионной моделью.