РАЗДЕЛ II. ОСНОВНЫЕ ПОНЯТИЯ И ТЕРМИНЫ

БИОЛОГИЧЕСКОЙ СТАТИСТИКИ

Генеральная совокупность и выборка

 

Пусть требуется изучить множество однородных объектов (это множество называет­ся статистической совокупностью) относительно некоторого каче­ственного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количествен­ным — контролируемый размер детали.

Лучше всего произвести сплошное обследование, т. е. изучить каждый объект. Однако в большинстве случаев по разным причи­нам это сделать невозможно. Препятствовать сплошному обследо­ванию может большое число объектов, недоступность их. Если, на­пример, нужно знать среднюю глубину воронки при взрыве снаря­да из опытной партии, то, производя сплошное обследование, мы уничтожим всю партию.

Если сплошное обследование невозможно, то из всей совокуп­ности выбирают для изучения часть объектов.

Множество объектов, конечное или бесконечное, относительно которого делаются статистические выводы, носит название генеральной совокупности. Реально же мы имеем дело с конечными генеральными совокупностями, размеры которых, правда, могут колебаться в очень широких пределах.

Например, вся генеральная совокупность уссурийских тигров насчитывает около двухсот особей, в то время как число таких деревьев, как березы или осины, измеряется миллионами. В статистических выводах важен не сам по себе объем генеральной совокупности, а та доля от него, которую составляет выборка. Во всех случаях, когда объем выборки меньше сотой части всей генеральной совокупности, последнюю по отношению к выборке принято считать практически бесконечной и использовать математический аппарат, основанный на таком представлении.

Множество объектов, случайно отобранных из генеральной совокупности, называется выборкой.

Плоды одного дерева (200 штук) обследуют на на­личие специфического для данного сорта вкуса. Для этого отби­рают 10 шт. Здесь 200 — объем генеральной совокупности, а 10 — объем выборки.

Число объектов генеральной совокупности и выборки называ­ется соответственно объемом генеральной совокупности и объемом выборки.

Если выборку отбирают по одному объекту, который обследу­ют, и снова возвращают в генеральную совокупность, то выборка называется повторной. Если объекты выборки уже не возвращаются в генеральную совокупность, то выборка называется бесповторной. На практике чаще используется бесповторная выборка. Если объем выборки составляет небольшую долю объема генеральной совокупности, то разница между повторной и бесповторной незначительна.

 

Непреднамеренный отбор. Метод последовательных номеров.

Случайный и механический методы отбора

 

Особенностью биологических исследований является то, что подопытный материал, находящийся в распоряжении исследователя, поступает к нему случайно. Поэтому не всегда удается соблюсти метод случайного отбора. Пренебрежение методами случайного отбора приводит к тому, что результаты одинаковых исследований различны у различных исследователей.

Можно опять применить случайный отбор по таблице случайных чисел. Кроме этого существует метод, называемый механическим (Россия) или систематическим (США, Англия). Сущность этого метода в следующем: делят общее число случаев на число случаев, за которыми надо наблюдать, и получают так называемую интервальную стопу. Затем по таблице находят первое число и 5, 10, 15, 20.

Признаки и показатели

 

ПРИЗНАКОМ в статистике называют свойство, характерную черту или иную особенность единиц совокупности, которые могут быть наблюдаемы и измерены. Признаки, принимающие различные значения или видоизменения у отдельных единиц совокупности, называются варьирующими, а отдельные их значения или видоизменения - вариантами.

В литературе приняты различные принципы клас­сификации признаков по шкалам измерений. Классификация в за­висимости от числа допустимых арифметических операций над признаками, измеренными в данных шкалах, включает:

Номинальные признаки (признаки с неупорядоченными состо­яниями, классификационные признаки), например: велосипед, мотоцикл, автомобиль. Номинальные признаки могут быть оциф­рованы — 0,1,2, однако смысла эти цифры, за исключением воз­можности различать признаки между собой, не имеют. Частным случаем номинальных признаков являются бинарные (каче­ственные, дихотомические) признаки, представляющие собой но­минальные признаки с двумя градациями, например: «нет» — 0, «да» — 1. Рекомендуется для бинарных признаков использо­вать оцифровку типа 0 и 1, а не какую-либо иную (например, -1 и +1), так как только эти две цифры предполагается исполь­зовать в методах анализа бинарных признаков.

Порядковые признаки (признаки с упорядоченными состояния­ми, ординальные признаки), например: отлично, хорошо, удов­летворительно, плохо. Порядок состояний имеет смысл, призна­ки могут быть осмысленно оцифрованы (в данном примере: 5, 4, 3, 2) и могут сравниваться между собой, однако расстояния между ними не определены. Как и предыдущие, подобного типа признаки часто используются в задачах диагностики, в том числе медицинской.

Количественные (численные, вариационные) признаки, иногда подразделяемые на интервальные и относительные, различаю­щиеся положением нулевой отметки на шкале измерения. На­пример, год рождения — относительный количественный признак, а срок службы в рядах вооруженных сил — интервальный коли­чественный признак. Если в первом примере определены только операции различения, сравнения и вычитания, то во втором к ним добавляются операции сложения и отношения. Числен­ные признаки определяют измеряемые или исчислимые количе­ства (величины) и являются истинными количественными, при­чем могут измеряться как непрерывные, так и целочисленные признаки.

 

Действия над признаками, измеренными в различных шкалах

Шкала измерения Допустимые действия Пример применения
Номинальная Различение Наличие или отсутствие симптома
Порядковая Различение, сравнение Школьная оценка
Количественная Различение, сравнение, все арифметические операции Температура, масса, время, длина

 

Шкалы могут приводиться одна к другой: количественная шкала — к порядковой или номинальной, порядковая шкала — к номиналь­ной. Обратные операции считаются некорректными. Приведение одной шкалы к другой обычно называют понижением шкалы. При­ведение признаков к шкале, отличной от тех, в которых первоначально признаки были измерены, необходимо при анализе групп призна­ков, измеренных в разных шкалах. Понижение шкалы ведет к потере некоторой части информации об изучаемых признаках.

 

Правила ранжирования

Использование порядковой шкалы позволяет присваивать ранги объектам по какому-либо признаку. Таким образом, метрические значения переводятся в ранговые. При этом фиксируются различия в степени выраженности свойств. В процессе ранжирования следует придерживаться 2 правил.

Правило порядка ранжирования. Надо решить, кто получает первый ранг: объект с самой большей степенью выраженности какого-либо качества или наоборот. Чаще всего это абсолютно безразлично и не отражается на конечном результате. Традиционно принято первый ранг приписывать объектам с большей степенью выраженности качества (большему значению – меньший ранг). Например, чемпиону присуждают первое место, а не наоборот. Хотя, и здесь если бы был принят обратный порядок, то результаты от этого не изменились бы. Так что порядок ранжирования каждый исследователь вправе определять сам. Например, Е.В. Сидоренко рекомендует меньшему значению приписывать меньший ранг. В некоторых случаях это удобнее, но непривычнее.

Например: имеется неупорядоченная выборка, данные которой необходимо проранжировать. {2, 7, 6, 8, 11, 15, 9}. После упорядочивания выборки ранжируем ее.

 

Метрические данные Ранги Альтернативный вариант: Метрические данные Ранги
 
 
 
 
 
 
 

 

Отдельно следует сказать следующее. Существует группа редко используемых непараметрических критериев (Т-критерий Вилкоксона, U-критерий Манна-Уитни, Q-критерий Розенбаума и др.), при работе с которыми всегда надо меньшему значению приписывать меньший ранг.

Правило связанных рангов. Объектам с одинаковой выраженностью свойств приписывается один и тот же ранг. Этот ранг представляет собой среднее значение тех рангов, которые они получили бы, если бы не были равны. Например, надо проранжировать выборку, содержащую ряд одинаковых метрических данных: {4, 5, 9, 2, 6, 5, 9, 7, 5, 12}. После упорядочивания выборки следует вычислить среднее арифметическое значение связанных рангов.

 

Метрические данные Предварительное ранжирование Окончательное ранжирование
(2+3)/2=2,5
(2+3)/2=2,5
(6+7+8)/3=7
(6+7+8)/3=7
(6+7+8)/3=7

 

Рассмотренная классификация признаков по шкалам измерений не исчерпывает всех мыслимых типов классификаций. Так, для при­менения статистических методов, оперирующих частотами распре­делений, более существенной может оказаться классификация по такому критерию, как непрерывность теоретической функции эмпи­рического распределения. Для других методов определяющим яв­ляется решение вопроса о том, какому теоретическому типу распре­деления соответствует эмпирическое распределение либо, в более узком смысле, является ли распределение нормальным. Если же различать условия исследования того или иного явления, признаки могут подразделяться на факториальные признаки (причина) и ре­зультативные признаки (следствие). Успех применения любого метода зависит от того, насколько хо­рошо анализируемые данные соответствуют основным предположе­ниям, принятым при разработке статистического метода. Методы анализа, разработанные для определенного типа призна­ков, могут привести к совершенно неверным выводам при их при­менении к признакам другого типа, поэтому нужно быть особенно внимательным при выборе метода, адекватного анализируемым дан­ным. Тип исходных данных определяет, какими методами эти дан­ные могут быть обработаны. Формулы нельзя применять слепо и автоматически, без рассмотрения вопроса об их пригодности в каждом данном случае.

ПОКАЗАТЕЛЬ - одно из основных понятий статистики, под которым имеется в виду обобщенная количественная характеристика явлений и процессов в их качественной определенности в условиях конкретного места и времени. Примерами конкретных показателей служат: численность населения, плодородие почв, уровень производительности труда и др.

Величина показателя определяется в результате измерения объектов (элементов) и меняется в зависимости от методологических особенностей его построения обусловленных, в свою очередь степенью охвата изучаемых процессов.

Показатели называются натуральными, когда они выражены в единицах счета или в различных физических единицах измерения (в мерах линейных, площади, объема, массы и др.), и денежными, или стоимостными, когда они представляют собой денежную оценку экономических объектов.

ВАРИАЦИЯ - различия в значениях того или иного признака у отдельных единиц, входящих в данную статистическую совокупность. Например, студенты учебной группы различаются по успеваемости, затратам времени на подготовку к занятиям, любимым занятиям в свободное время, росту, полу и т. д. Для изучения вариации используют ряды распределения и показатели размеров вариации. Изучение вариации позволяет судить об исходных данных с точки зрения их однородности. Чем больше вариация, больше различия между единицами, тем более неоднородны исходные данные.