Стратифицированная выборка

Стратифицированная,или расслоенная, выборка — это процесс, состоя­щий из двух этапов, в котором совокупность делится на подгруппы (слоu, страты, strata). Слои должны взаимно исключать и взаимно дополнять один другого, чтобы каждый элемент сово­купности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется ме­тод простой случайной выборки. Формально, выбор элементов из каждого слоя может осущест­вляться только с помощью простого случайного метода. Однако на практике иногда применяется систематический от­бор и другие вероятностные выборочные методы. Отличие стратифицированной выборки от квотной состоит в том, что элементы в ней выбираются скорее случайно, а не из удобства или на основании мнения исследователя. Главная задача стратифицированной выборки — увели­чение точности.

Переменные, используемые для деления совокупности на слои, называются стратифика­ционными переменными. Критерии для их выбора: однородность, неоднородность и взаимосвя­занность. Элементы, относящиеся к одному слою, должны быть как можно более однородными, а относящиеся к разным слоям— наоборот, как можно более разнородными. Кроме того, стратификационные переменные должны быть тесно связаны с исследуемой ха­рактеристикой. Чем больше переменные соответствуют этим критериям, тем эффективнее уменьшение нежелательных отклонений в выборке. В конце концов, переменные должны снижать стоимость процесса расслоения, будучи простыми в оценке и применении. Как правило, длястратификации используют такие переменные, как демографические характеристики (как показано на примере квотной выборки), разновидность покупателя (владельцы кредитной карточки или те, кто ее не имеет), величина фирмы или отрасль промышленности. Для стра­тификации можно использовать несколько переменных, однако больше двух применяют ред­ко, поскольку это непрактично и экономически неоправданно. Несмотря на то, что количество слоев в расслоенной выборке остается предметом спора, опыт показывает, что использовать нужно не больше шести. При использовании больше шести слоев любое повышение точности сводится на нет увеличением стоимости расслоения и отбора.

Другое важное решение связано с использованием пропорциональной или непропорцио­нальной выборки (см. схему). При пропорциональном стратификационном отборе объем выборки, полученной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности. При непропорциональном стратификационном отборе объем выборки, полу­ченной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности и среднеквадратичному отклонению распределения исследуемой характеристики среди всех элементов этого слоя. Логика непропорциональной выборки проста. Во-первых, слои относи­тельно большего размера больше влияют на определение средней для генеральной совокупно­сти. Следовательно, эти слои больше влияют на формирование результатов выборочного на­блюдения. Таким образом, слои должны быть представлены большим количеством элементов. Во-вторых, для повышения точности оценки следует отбирать больше элементов из слоев с большим среднеквадратичным отклонением, и меньше элементов — из слоев с меньшим сред­неквадратичным отклонением.(Если все элементы слоя идентичны, выборка, состоящая из одного элемента, обеспечит получение полной информации.) Важно, что эти ме­тоды идентичны при условии, что исследуемая характеристика имеет одно и то же среднеквад­ратичное отклонение в каждом слое.

При применении непропорционального отбора необходимо рассчитать среднеквадратичное отклонение распределения исследуемой характеристики среди элементов слоя. Поскольку эта информация не всегда доступна, исследователю часто приходится полагаться на интуицию и логику, определяя объем выборки для каждого слоя. Например, в крупных розничных магази­нах можно ожидать большего отклонения в объемах продаж некоторых продуктов, чем в не­больших магазинах. Поэтому крупные магазины представлены в выборке непропорционально большим количеством элементов. Когда исследователя в первую очередь интересует выявление различий между слоями, обычно создают одинаковые по объему выборки из каждого слоя.

Стратификационный метод обеспечивает наличие в выборке всех важных подгрупп. Это особенно важно, если исследуемая характеристика неравномерно распределена среди элементов генеральной совокупности. Например, распределение дохода семей неравномерно, так как годовой доход большинства семей составляет меньше 50 тысяч долларов, и лишь немногие се­мьи имеют годовой доход, равный 125 тысяч долларов и выше. Если применить простую слу­чайную выборку, семьи с доходом 125 тысяч долларов и выше могут не быть адекватно пред­ставлены. Стратифицированная выборка позволяет обеспечить соответствующее количество таких семей в выборке. Она сочетает в себе простоту метода простой случайной с возможностью повышения точности. Поэтому данный метод формирования выборки весьма популярен.

 

Кластерная выборка

В кластерной выборкеизучаемая совокупность сначала делится на взаимо­исключающие и взаимодополняющие подгруппы, или кластеры. Затем с помощью ве­роятностного метода выборки, формируется случайная выборка кластеров. В выборку включаются либо все элементы отобранного кластера, либо проводится их отбор веро­ятностным методом. Если в выборку включаются все элементы каждого отобранного кластера, то такая процедура называется одноступенчатой кластерной выборкой. Если выборка получена с помощью вероятностного отбора из каждого выбранного кластера, такая процедура называет­ся двухступенчатой кластерной выборкой. Как показано на рис., существуют два вида двухступенчатой кластерной выборки — простая двухступенчатая кластерная выборка с ис­пользованием простого случайного метода и вероятностная выборка, пропорциональная объему (PPS). Кроме того, кластерная выборка может состоять из нескольких (больше двух) этапов, выступая как много­ступенчатая кластерная выборка.

Основное различие между кластерной и стратифицированной выборкой состоит в том, что в первом случае используются только отобранные подгруппы (кластеры), в то время как в стратифицированной выборке все подгруппы (слои) используются для дальнейшего отбо­ра. Эти методы преследуют разные цели. Цель кластерной выборки — увеличить эффектив­ность выборки, уменьшив затраты на ее проведение. Цель стратифицированной выборки — увеличение точности. По однородности и неоднородности критерии формирования класте­ров прямо противоположны критериям формирования слоев. Элементы кластера должны быть максимально разнородны, а сами кластеры — как можно более однородными. В идеале каждый кластердолжен представлять собой небольшую модель генеральной совокупности. При кластерной выборке основа выборочного наблюдения необходима только для кластеров, которые вошли в выборку.

Распространенная форма кластерной выборки — территориальная выборка, в которой кластеры состоят из географических территорий, таких как округа, жилые районы или кварталы. Если отбор основных элементов проводится в один этап (например, исследователь выбирает некоторые кварталы, а затем все семьи, живущие в этих кварталах, включаются в вы­борку), такой выборочный метод называется одноступенчатой территориальной выборкой. Ес­ли отбор основных элементов проводится в два (или больше) этапа (исследователь выбирает кварталы, а затем в каждом таком квартале отбирает семьи, которые будут включены в выбор­ку), такой метод называется двухступенчатой (или многоступенчатой) территориальной вы­боркой. Отличительная черта одноступенчатой территориальной выборки заключается в том, что все семьи из выбранных кварталов (или географических регионов) включаются в выборку.

Как показано на рис., существует два типа двухэтапной кластерной выборки. В одном из них простой случайный метод применяется как на первом этапе (т.е. при выборе кварталов), так и на втором (т.е. при отборе семей в кварталах). Этот метод называется простой двухступенчатой кластерной выборкой. При использовании этого метода количество элементов (семей), отобранных на вто­ром этапе, одинаково для каждого выбранного кластера (отобранного квартала). Следующий пример иллюстрирует применение двухступенчатой территориальной выборки.

Этот метод подходит в том случае, когда все кластеры равны по объему, т.е. каждый кла­стер содержит примерно одинаковое количество единиц. Однако, если объемы различны, простая двухступенчатая кластерная выборка может привести к ошибочным результатам. Иногда, объединив различные кластеры, можно сделать их равными по объему. Если объе­динить кластеры нельзя, следует воспользоваться вероятностной выборкой, пропорцио­нальной объему (PPS).

При вероятностной выборке, пропорциональной объему кластеры отбираются с вероятностью, пропорциональной их объему. Объем кластера определяется количеством входящих в него единиц выборки. Поэтому на первом эта­пе большие по объему кластеры имеют большую вероятность включения в выборку. На втором этапе вероятность отбора единицы из выбранного кластера обратно пропорциональна его объе­му. Поэтому вероятность включения в выборку будет равной для всех выборочных единиц, по­скольку неравная вероятность включения на первой стадии отбора компенсируется неравной вероятностью включения на второй стадии.

Кластерная выборка обладают двумя основными преимуществами — выполнимость и низ­кая себестоимость. Во многих ситуациях единственными легко доступными инструментариями для изучения совокупности будут не элементы, а кластеры. Часто невозможно составить список всех потребителей, входящих в состав определенной совокупности, принимая во вни­мание ресурсы данного исследования и связанные с ним ограничения. Однако перечень гео­графических территорий, телефонных кодов определенного района и других кластеров потре­бителей получить довольно легко. Кластерная выборка наиболее эффективна с точки зрения затрат. Однако несмотря на это преимущество, ей присущ ряд ограничений. В результате отбора по кластерам создаются относительно неточные выборки. Кроме того, сложно сформировать неоднородные кластеры, так как, например, семьи, живущие в одном квартале, имеют больше схожих признаков, чем различий. После кластерной выборки сложно рассчитать и оценить статистику.