Оценка достоверности разницы статистических величин

При проведении медико-биологических исследований на двух срав­ниваемых совокупностях возникает необходимость определить не только их различие, но и его достоверность.

Для оценки достоверности различия сравниваемых средних вели­чин используется формула:

,а для относительных величин: ,

 

где Μ1, Μ2, P1 и P2 - статистические величины, полученные при проведении выборочных исследований: m1 и m2 - их ошибки репрезен­тативности; t - коэффициент достоверности. Различие достоверно при t>2. что соответствует вероятности безошибочного прогноза равной или более 95%. При величине коэффициента достоверности t<2 степень вероятности безошибочного прогноза менее 95%. При такой степени вероятности мы не можем утверждать, что полученная раз­ность показателей достоверна с достаточной степенью вероятности. В этом случае необходимо получить дополнительные данные, увели­чив число наблюдений. Если после увеличения численности выборки, и. соответственно, уменьшения ошибки репрезентативности, разли­чие продолжает оставаться недостоверным, можно считать доказан­ным, что между сравниваемыми совокупностями не обнаружено разли­чий по изучаемому признаку.

В качестве примера сопоставим уровни общей летальности в двух больницах:

    Больница N1 Больница N2
Количество лечившихся больных 4350 чел. 6780 чел.
Из них умерло 261 чел. 135 чел.
Летальность 6.0% (Р1) 2.0% (P2)

а) рассчитываем средние ошибки показателей летальности (Р1 и Р2).

б) вычисляем критерий достоверности t:

Рассчитанный критерий достоверности равен 10, он больше 2, что указывает на существенную разницу уровней летальности в сравни­ваемых больницах.

Корреляционный анализ

Многие явления в медицине, так же, как в природе и обществе, взаимосвязаны между собой. При проведении статистического иссле­дования часто возникает необходимость проанализировать выявлен­ные связи между различными явлениями и дать обобщающую характе­ристику. Различают 2 Формы проявления связей между явлениями: функциональную и корреляционную.

Функциональная связь означает строгую зависимость одного приз­нака от другого, когда определенному значению одной величины соответствует строго определенное значение другой. Например, ра­диусу круга соответствует определенная площадь круга; скорость свободно падающего тела определяется величиной ускорения, силы тяжести и времени падения. Функциональная связь характерна для физико-химических процессов.

Корреляционная связь - это такая связь, когда изменение како­го-либо одного признака ведет к изменению другого, но на неопре­деленное значение.

Врачи и биологи хорошо знакомы с этим видом связи. Корреля­ционная связь проявляется между ростом детей и их родителей, мас­сой тела и ростом, числом эритроцитов и содержанием гемоглобина, дозой зараженного агента и летальностью животных и т.д.

Корреляционная зависимость отличается по форме, направлению и силе связи.

По форме корреляционная связь может быть прямолинейной и кри­волинейной. Прямолинейная связь - равномерные изменения одного признака соответствуют равномерным изменениям второго признака при незначительных отклонениях. Криволинейная связь - равномер­ные изменения одного признака, соответствуют неравномерным изме­нениям второго признака, причем неравномерность имеет определенную закономерность. Общая тенденция в определенном моменте изме­няет свое направление, дает изгиб.

Направление связи может быть прямое (положительное) или обрат­ное (отрицательное).

Прямая связь - если с увеличением одного признака второй так­же увеличивается или с уменьшением одного признака другой тоже уменьшается. Например, с увеличением роста увеличивается масса тела, с уменьшением заболеваемости уменьшается смертность. Обрат­ная связь - когда с увеличение одного признака, другой, корреля­ционно связанный с ним признак, уменьшается. Например, с увеличе­нием охвата прививками уменьшается заболеваемость инфекционными болезнями, с увеличением санитарной грамотности и образованием матери уменьшается младенческая смертность.

Под силой связи следует понимать степень корреляции.

Таблица 7

Критерии оценки коэффициента корреляции

СТЕПЕНЬ СВЯЗИ Величина коэффициента корреляции
при прямой при обратной
Малая (слабая) от 0 до +0.3 от 0 до -0.3
Средняя (умеренная) от 0.3 до +0.69 от -0.3 до -0.69
Большая (сильная) от 0.7 до +0.99 от -0.7 до -0.99
Функциональная +1 -1

Измерение силы связи осуществляется путем вычисления коэффи­циента корреляции. Рассмотрим два способа расчета коэффициента корреляции.

I. Парный коэффициент корреляции рядов (rху) вычисляется по фор­муле:

Рассмотрим на примере методику расчета коэффициента корреляции этим методом (Таблица 8).

Таблица 8

Показатели Отклонения   Квадрат отклонения  
железа в г%, VX гемогло­бина в %, Vy dx dy dx*dy dx2 dy2  
 
 
 
-4 -4  
-4 -3  
-3 -1  
-2 -1  
-1 -1  
 
 
 
 
     

При сопоставлении показателей содержания железа и гемоглобина в крови отмечается увеличение уровня гемоглобина с ростом коли­чества железа. Следует определить степень связи между этими пока­зателями и достоверность полученного результата.

Вычисления проводятся по следующему алгоритму: 1) Вычисляем средние арифметические рядов X и Y:

2) Определяем отклонения вариант каждого ряда от своей средней (dx и dу): смотри графы 3 и 4 в Таблице 3.

3) Находим произведение dx*dy: смотри графу 5 в Таблице 8. Полу­ченные значения суммируются с учетом знаков.

4) Возводим в квадрат dx и dy и суммируем полученные значения: смотри графы 6 и 7 в Таблице 8.

5) Вычисляем коэффициент корреляции:

Вывод: Отмечается очень сильная корреляционная связь между содер­жанием в крови железа и гемоглобина.

 

Для оценки достоверности коэффициента корреляции вычисляется его средняя ошибка:

- при числе наблюдений более 100;

- при числе наблюдений от 30 до 100;

- при числе наблюдений менее 30.

В рассматриваемом нами примере следует использовать последнюю формулу, поскольку число наблюдений равно 9:

Для оценки величины полученной ошибки следует использовать критерий достоверности (t).

 

При числе наблюдений более 30 коэффициент корреляции достове­рен, если критерий t больше или равен 3. При числе наблюдений ме­нее 30 критерий t оценивается по специальной.

В рассматриваемом нами примере

Это больше табличного значения, что подтверждает достовер­ность выявленной сильной связи и взаимозависимости анализируемых явлений.

II. Ранговый коэффициент корреляции (ρ) относится к непараметри­ческим критериям и предложен Спирменом. Он используется при необ­ходимости получения быстрого результата и основан на определении ранга (места) каждого из значений ряда.

Для вычисления рангового коэффициента корреляции используется следующая формула:

Рассмотрим методику вычисления рангового коэффициента корреля­ции на следующем примере (Таблица 9).

Таблица 9.

Годы Число травм на 100 рабо­чих Число гнойнич­ковых заболе­ваний на 100 ра­бочих Ранги dxy d2xy
х у
5.0 4.0 -1
6.1 3.5 +1
9.0 4.8 +1
8.6 5.5 -1
7.4 4.2

При сопоставлении частоты травматизма и распространенности гнойничковых заболеваний среди рабочих промышленного предприятия отмечается рост гнойничковых заболеваний с увеличением травматиз­ма. Следует определить степень связи между этими показателями и достоверность полученного результата.

Вычисления проводятся по следующему алгоритму:

1) Определяем ранги по значению каждой величины ряда. Важно соот­ветствие. Если первый ряд ранжируется от меньшего значения к большему, то второй ряд следует ранжировать в том же порядке.

2) Отмечаем отклонение значимости рангов первого ряда от второ­го (dxy): смотри графу 6 в таблице 9. Они в сумме с учетом зна­ков равны нулю.

3) Возводим в квадрат полученные отклонения и суммируем их. В на­шем примере d2xy = 4: смотри графу 7 в таблице 9.

4) Рассчитываем ранговый коэффициент корреляции:

Вывод: Корреляция прямая, высокая. Между травматизмом и частотой гнойничковых заболеваний на предприятии существует тесная связь.

Оценка достоверности полученного рангового коэффициента корре­ляции выполняется по методике, которая была разобрана для коэффи­циента корреляции рядов.

Регрессионный анализ

Прямолинейная корреляция отличается тем, что при этой Форме связи каждому значению одного признака соответствует определенное в среднем значение другого признака.

Та величина, на которую в среднем изменяется второй признак при изменении первого на единицу, называется коэффициентом рег­рессии.

Для расчета коэффициента регрессии используется следующая фор­мула:

Рассмотрим методику расчета коэффициента регрессии на примере.

При анализе физического развития 7-летних мальчиков были полу­чены следующие средние значения роста (X) и массы тела (У):

X = 118.4 см х = +/-6.0 см
У = 24.0 кг у = +/-2.6 кг

Коэффициент корреляции между весом и ростом составил +0.7. Расчет коэффициента регрессии выполняется по формуле:

Следовательно, с изменением роста 7-летних мальчиков на 1 см. масса тела в среднем изменяется на 0.3 кг.

С помощью коэффициента регрессии без специальных измерений можно определить величину одного из признаков (например, массы тела), зная значение другого (роста). С этой целью используется уравнение линейной регрессии:

у = My + Rxy(х - Мх),

где у - искомая величина массы тела;

My - среднее значение массы тела, характерное для данного

возраста;

Rxy - коэффициент регрессии массы тела по росту;

х - известная величина роста;

Мх - средне значение роста.

Определим, какова будет масса тела 7-летнего мальчика при рос­те 120 см.

у = Мy + Rxy(х - Мх) = 24 + 0.3(120 - 118) = 24.6 кг

Коэффициенты регрессии и уравнения регрессии широко применяют­ся для составления шкал регрессии, которые используются при инди­видуальной оценке физического развития.

ДИНАМИЧЕСКИЕ РЯДЫ

При изучении динамики какого-либо явления прибегают к построе­нию динамического ряда.

Динамический ряд - это ряд однородных статистических вели­чин, показывающих изменение какого-либо явления во времени и расположенных в хронологическом порядке через определенные промежутки времени.

Числа, составляющие динамический ряд, называются уровнями.

Уровень ряда - размер (величина) того или иного явления, достигнутый в определенный период или к определенному моменту времени.

Уровни ряда могут быть представлены абсолютными, относительны­ми или средними величинами.

Динамические ряды делятся на простые (состоящие из абсолютных величин) и сложные (состоящие из относительных или средних вели­чин).

Простые динамические ряды могут быть моментными и интервальны­ми.

Моментный динамический ряд состоит из величин, характеризую­щих явление на какой-то определенный момент (дату). Примером могут служить статистические сведения, обычно регистрируемые на начало или конец месяца, квартала, года (численность населения на начало года, число врачей, средних медицинских работников на конец года, число лечебных учреждений, коек на конец года и т.д.).

Интервальный динамический ряд состоит из чисел, характеризую­щих явление за определенный промежуток времени (интервал) - за неделю, месяц, квартал, год и т. д. Примером такого ряда могут служить данные о числе родившихся, умерших за год, число инфек­ционных заболеваний за месяц и т. д. Особенностью интервального ряда является то, что его члены можно суммировать (при этом ук­рупняется интервал), или дробить. Например, имея данные о коли­честве заболевших дизентерией, зарегистрированных за каждые день, можно построить динамический ряд с интервалом в неделю, месяц, год.

Динамические ряды могут подвергаться преобразованиям, целью которых является выявление особенностей изменения изучаемого про­цесса, а также достижение наглядности.

Прежде всего ряд может быть охарактеризован самими величинами членов ряда, называемыми уровнями. Величина первого члена ряда носит название начального (исходного) уровня, величина послед­него члена ряда - конечного уровня. Средняя величина из всех чле­нов ряда называется средним уровнем.

Абсолютный прирост (убыль) - величина разности между последующим и предыду­щим уровнями; прирост выражается числами с положи­тельным знаком, убыль - с отрицательным знаком. Значение прироста или убыли отражают изменения уровней динамического ряда за оп­ределенный промежуток времени.

Темп роста (снижения) - показывает отношение каждого после­дующего уровня к предыдущему уровню и обычно выражается в процен­тах.

Темп прироста (убыли) - отношение абсолютного прироста или убыли каждого последующего члена ряда к уровню предыдущего, выра­женное в процентах. Темп прироста может быть вычислен также по формуле: Темп роста - 100%

Абсолютное значение одного процента прироста (убыли) - полу­чается от деления абсолютной величины прироста или убыли на пока­затель темпа прироста или убыли за тот же период.

Для более наглядного выражения нарастания или убывания ряда можно преобразовать его путем вычисления показателей наглядности, показывающих отношение каждого члена ряда к одному из них, приня­тому за сто процентов.

Примеры расчета показателей динамического ряда представлены в таблице 10.

Таблица 10

Младенческая смертность в Индии в 1992-1995гг. (на 1000)

Годы Показатель заболеваем. Абсолютный прирост Темп роста Темп прироста % Показатель наглядности %
95.0 - - - 100%
98.0 + 3.0 103% + 3.2% 103%
96.0 - 2.0 97% - 2.0% 101%
87.9 - 8.1 91% - 8.4% 95.5%

Абсолютный прирост (убыль):

1993: 98.0 - 95.0 = + 3.0

1994: 96.0 - 98.0 = - 2.0

1995: 87.9 - 96.0 = - 8.1

Темп роста (убыли):

;

 

Темп прироста (убыли):

; ;

Показатель наглядности:

1992: = 100%; ;

;

Иногда динамика изучаемого явления представлена не в виде неп­рерывно меняющегося уровня, а отдельными скачкообразными измене­ниями. В этом случае для выявления основной тенденции в развитии изучаемого явления прибегают к выравниванию динамического ряда. При этом могут быть использованы следующие приемы: укрупнение ин­тервала, вычисление групповой средней, вычисление скользящей средней, выравнивание методом наименьших квадратов.

Укрупнение интервала производят путем суммирования данных за ряд смежных периодов. В результате получаются итоги за более про­должительные промежутки времени. Этим сглаживаются случайные ко­лебания и более четко определяется характер динамики явления.

Вычисление групповой средней заключается в определении сред­ней величины каждого укрупненного периода. Для этого необходимо суммировать смежные уровни соседних периодов, а затем сумму раз­делить на число слагаемых. Этим достигается большая ясность изме­нений во времени.

Вычисление скользящей средней в некоторой степени устраняет влияние случайных колебаний на уровни динамического ряда и более заметно отражает тенденцию явления. При ее вычислении каждый уро­вень ряда заменяется на среднюю величину из данного уровня и двух соседних с ним. Чаще всего суммируются последовательно три члена ряда, но можно брать и больше

Пример выравнивания динамического ряда данных о заболеваемости дизентерией по месяцам года представлен в таблице 11.

Таблица 11.

Число заболеваний дизентерией по месяцам года

Месяцы Число больных Число боль­ных за квартал Групповая средняя Скользящая средняя
    -
8:3=2.6 2.7
    3.7
    4.7
20:3=6.6 6.7
    9.0
    13.0
45:3=15 15.0
    15.7
    12.7
20:3=9.6 9.7
    -

Увеличивая в данном динамическом ряду интервал до 3 месяцев получаем число заболевших за квартал (графа 3, табл.11). Получен­ные данные указывают на постепенное возрастание числа заболевших дизентерией и его максимум в 3 квартале, после чего заболевае­мость снижается.

Разделив каждую полученную сумму на 3 (число месяцев в квар­тале), получаем средние величины по группам, отражающие ту же за­кономерность (графа 4. табл.11).

Скользящая средняя обычно вычисляется как средня арифметичес­кая из 3 смежных уровней (данного, предыдущего и последующего). Для первого и последнего уровней скользящая средняя не рассчиты­вается (графа 5, табл.11).

Для 2-го уровня: = 2,7; для 3-го уровня: = 3.7 и т. д.

Метод наименьших квадратов - один из наиболее точных способов выравнивания динамического ряда. Этот метод преследует цель ус­транить влияние временно действующих причин, случайных факторов и выявить основную тенденцию в динамике явления, вызванную воздей­ствием только длительно действующих факторов. Выравнивание произ­водится по линии, наиболее соответствующей характеру динамики изучаемого явления, при наличии основной тенденции к росту или снижению частоты явления. Такой линией является обычно прямая, которая наиболее точно характеризует основное направление изменений. Этот метод позволяет дать количественную оценку выявлен­ной тенденции и на этой основе рассчитать прогнозируемые уровни на следующий год.

ГРАФИЧЕСКИЕ ИЗОБРАЖЕНИЯ

Результаты статистического исследования могут быть представле­ны в виде графических изображений, что позволяет более наглядно продемонстрировать полученные результаты и облегчает проведение анализа.

Существует несколько видов графических изображений, наиболее часто используют диаграммы (линейные, радиальные, столбиковые, ленточные, гистограммы, секторные и др.), картограммы, карто­диаграммы (рис. 1-8)

При построении графических изображений необходимо соблюдать следующие правила:

- данные на графике должны размещаться слева направо и снизу вверх;

- обязательное условие при построении графика - соблюдение мас­штабности;

- нулевые точки шкал при наличии возможности должны быть изобра­жены на диаграмме)

- цифры, показывающие деление шкал, помещаются слева или внизу соответствующей шкалы;

- линии, представляющие диаграмму изображаемого явления, сле­дует делать иного вида, нежели вспомогательные линии;

- на кривой, отражающей динамику явления, необходимо отметить все точки, соответствующие отдельным наблюдениям;

- в диаграммах, показывающих структуру, должна быть оттенена как линия нулевая, так и 100-процентная;

- изображенные графические величины должны иметь цифровые обоз­начения на самом графике или в прилагаемой к нему таблице;

- символы, используемые при построении диаграммы (цвет, штри­ховка, фигуры, знаки), должны быть пояснены;

- каждый график должен иметь четкое, краткое название, отражаю­щее его содержание;

- название диаграммы должно размешаться под рисунком.

 

Линейные диаграммы позволяют изображать динамику явления (изменение показателей во времени). Линейная диаграмма строится в системе прямоугольных координат, при ее построении следует учи­тывать соотношение между основанием и высотой - абсциссой х и ор­динатой у, основанное на принципе "золотого сечения": это соотно­шение должно быть 1,6:1. На горизонтальной оси (оси абсцисс) откладываются отрезки, обозначающие периоды времени. На верти­кальной оси (оси ординат) откладываются размеры изучаемого явле­ния. Обязательное условие при построении графика - масштабность. На одной диаграмме можно изобразить несколько линий, отличающих­ся друг от друга цветом, толщиной или формой пунктира (Рис.1).

Радиальные диаграммы (диаграммы полярных координат, линей­но-круговые диаграммы, векторные диаграммы) применяются для изображения сезонных (подекадных, помесячных, поквартальных) и других колебаний, имеющих замкнутый, циклический характер (за сутки, неделю и т.д.). Для их построения круг делится на столько секторов, на сколько частей разделен период времени, взятый для изучения явления (например, на 12 - при изучении помесячных коле­баний в течение года; на 7 - при изучении явления за неделю). На каждом из радиусов с соблюдением масштабности отмечаются показа­тели, полученные точки соединяют прямыми линиями. Начало марки­ровки радиусов начинается с радиуса, соответствующего нулю граду­сов, и продолжается по часовой стрелке (Рис.2).

Рис. 2 Сезонное распределение заболевае­мости дизентерией в Ираке в 1997 году (1-12 - месяцы года)

Столбиковые диаграммы строятся по такому же принципу, как и линейные, в системе координат, с соблюдением масштабности, но в которых вертикально или горизонтально проводимым линиям соответ­ствуют прямоугольники. Эти диаграммы используются для изображе­ния сравнительной величины явления в какой-либо определенный про­межуток времени, например, сравнительной численности населения по странам мира; обеспеченности населения врачами в разные годы и т.д. (Рис.3).

Рис. 3 Средние значения уровней младен­ческой смертности в странах Восточного Средиземноморья

Гистограммы - в виде прямоугольников, треугольников, фигур позволяют изобразить однородные статистические показатели, не связанные друг с другом. Эти диаграммы используются для графичес­кого изображения статистических величин, характеризующих статику явления в разных совокупностях. Они также строятся в системе пря­моугольных координат с соблюдением масштабности. Например, гис­тограммы применяются для графического изображения уровней смер­тности в разных возрастных группах населения; для демонстрации показателей больничной летальности в различных стационарах города; для изображения распространенности туберкулеза в различных со­циально-бытовых группах населения и т.д. (Рис.4).

Рис.4 Численность медперсонала (на 100000 насе­ления) по регионам мира: 1-Африка; 2-Восточное Средиземноморье: 3 — Юго—Восточная Азия

Секторные диаграммы используются для демонстрации структуры изучаемого явления, изображения части явления в целом. Они пред­ставляют собой круг, принимаемый за целое (100%), в котором от­дельные секторы соответствуют частям изображаемого явления. Этот вид диаграмм применяется для графического изображения экстенсив­ных показателей. В секторных диаграммах секторы, изображающие от­дельные части изучаемого явления, располагаются в порядке возрас­тания или убывания по движению часовой стрелки и имеют разный цвет или штриховку (Рис.5).

Условные обозначения:

1 - инфекционные болезни

2 - болезни системы кровообращения

3 - злокачественные новообразования

4 - болезни органов дыхания

5 - перинатальные причины

6 — другие причины

Рис. 5 Структура причин смерти в развиваю­щихся странах в 1996 году


Внутристолбиковые диаграммы также могут применяться для изоб­ражения структуры явления. При этом высота столбика принимается за 100%, весь столбик делится на составные части, которые соот­ветствуют долям явления в процентах (Рис.6).

Условные обозначения:

1 - 0-14 лет

2 - 15-59 лет

3 - 60 лет и старше

Рис.6 Возрастная структура населения Ирана в 1996

Картограммы - это графические изображения, нанесенные на схе­мы географической карты, на которой различным цветом или штрихов­кой изображены степени распространенности явления по территории (Рис.7).

Рис. 7. Распределение зарегистрированных случаев лепры в мире в 1996 г.

Картодиаграммы - такие графические изображения, при построе­нии которых на карту или схему карты изучаемой территории прос­тавляются диаграммы (столбиковые, фигурные, линейные) (Рис.8).

Рис. 8. Стандартизованные показатели заболеваемости взрослых раком шито-видной железы.

- 1961-1965гг. - 1990-1994гг.

ЛИТЕРАТУРА

1. Каминский Л.С. Статистическая обработка лабораторных и клини­ческих данных. Ленинград. Медгиз, 1964.

2. Марков A.M.. Поляков Л.Е. Санитарная статистика (пособие для врачей). Ленинград. "Медицина". 1974.

3. Методические указания для студентов и аспирантов по примене­нию основных статистических методов обработки научных иссле­дований. Под ред. В.А.Минаева. Ленинград. 1989.

4. Плохинский Н.А. Биометрия. Москва. МГУ. 1870.

5. Поляков И.В., Соколова И. С. Практическое пособие по медицин­ской статистике. Ленинград, Медицина. 1874.

6. Руководство к практическим занятиям по социальной гигиене и организации здравоохранения. Под ред. Ю.П.Лисицына и Н.Я.Ко­пыта. Москва, "Медицина", 1984.

7. Случанко А.С. Теория и методика санитарно-статистического ис­следования. Москва. 1986.

8. Социальная гигиена и организация здравоохранения. Под ред. А.Ф.Серенко и В.В.Ермакова. Москва. "Медицина", 1984.

9. Урбах В.Ю. Биометрические методы. Москва, 1964. 10. Учебное пособие по медицинской статистике (для студентов са­нитарно-гигиенических факультетов). Под ред. Е.Л.Белицкой. Ле­нинград. "Медицина". 1972.