Стратифицированная выборка
Стратифицированная,или расслоенная, выборка — это процесс, состоящий из двух этапов, в котором совокупность делится на подгруппы (слоu, страты, strata). Слои должны взаимно исключать и взаимно дополнять один другого, чтобы каждый элемент совокупности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется метод простой случайной выборки. Формально, выбор элементов из каждого слоя может осуществляться только с помощью простого случайного метода. Однако на практике иногда применяется систематический отбор и другие вероятностные выборочные методы. Отличие стратифицированной выборки от квотной состоит в том, что элементы в ней выбираются скорее случайно, а не из удобства или на основании мнения исследователя. Главная задача стратифицированной выборки — увеличение точности.
Переменные, используемые для деления совокупности на слои, называются стратификационными переменными. Критерии для их выбора: однородность, неоднородность и взаимосвязанность. Элементы, относящиеся к одному слою, должны быть как можно более однородными, а относящиеся к разным слоям— наоборот, как можно более разнородными. Кроме того, стратификационные переменные должны быть тесно связаны с исследуемой характеристикой. Чем больше переменные соответствуют этим критериям, тем эффективнее уменьшение нежелательных отклонений в выборке. В конце концов, переменные должны снижать стоимость процесса расслоения, будучи простыми в оценке и применении. Как правило, длястратификации используют такие переменные, как демографические характеристики (как показано на примере квотной выборки), разновидность покупателя (владельцы кредитной карточки или те, кто ее не имеет), величина фирмы или отрасль промышленности. Для стратификации можно использовать несколько переменных, однако больше двух применяют редко, поскольку это непрактично и экономически неоправданно. Несмотря на то, что количество слоев в расслоенной выборке остается предметом спора, опыт показывает, что использовать нужно не больше шести. При использовании больше шести слоев любое повышение точности сводится на нет увеличением стоимости расслоения и отбора.
Другое важное решение связано с использованием пропорциональной или непропорциональной выборки (см. схему). При пропорциональном стратификационном отборе объем выборки, полученной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности. При непропорциональном стратификационном отборе объем выборки, полученной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности и среднеквадратичному отклонению распределения исследуемой характеристики среди всех элементов этого слоя. Логика непропорциональной выборки проста. Во-первых, слои относительно большего размера больше влияют на определение средней для генеральной совокупности. Следовательно, эти слои больше влияют на формирование результатов выборочного наблюдения. Таким образом, слои должны быть представлены большим количеством элементов. Во-вторых, для повышения точности оценки следует отбирать больше элементов из слоев с большим среднеквадратичным отклонением, и меньше элементов — из слоев с меньшим среднеквадратичным отклонением.(Если все элементы слоя идентичны, выборка, состоящая из одного элемента, обеспечит получение полной информации.) Важно, что эти методы идентичны при условии, что исследуемая характеристика имеет одно и то же среднеквадратичное отклонение в каждом слое.
При применении непропорционального отбора необходимо рассчитать среднеквадратичное отклонение распределения исследуемой характеристики среди элементов слоя. Поскольку эта информация не всегда доступна, исследователю часто приходится полагаться на интуицию и логику, определяя объем выборки для каждого слоя. Например, в крупных розничных магазинах можно ожидать большего отклонения в объемах продаж некоторых продуктов, чем в небольших магазинах. Поэтому крупные магазины представлены в выборке непропорционально большим количеством элементов. Когда исследователя в первую очередь интересует выявление различий между слоями, обычно создают одинаковые по объему выборки из каждого слоя.
Стратификационный метод обеспечивает наличие в выборке всех важных подгрупп. Это особенно важно, если исследуемая характеристика неравномерно распределена среди элементов генеральной совокупности. Например, распределение дохода семей неравномерно, так как годовой доход большинства семей составляет меньше 50 тысяч долларов, и лишь немногие семьи имеют годовой доход, равный 125 тысяч долларов и выше. Если применить простую случайную выборку, семьи с доходом 125 тысяч долларов и выше могут не быть адекватно представлены. Стратифицированная выборка позволяет обеспечить соответствующее количество таких семей в выборке. Она сочетает в себе простоту метода простой случайной с возможностью повышения точности. Поэтому данный метод формирования выборки весьма популярен.
Кластерная выборка
В кластерной выборкеизучаемая совокупность сначала делится на взаимоисключающие и взаимодополняющие подгруппы, или кластеры. Затем с помощью вероятностного метода выборки, формируется случайная выборка кластеров. В выборку включаются либо все элементы отобранного кластера, либо проводится их отбор вероятностным методом. Если в выборку включаются все элементы каждого отобранного кластера, то такая процедура называется одноступенчатой кластерной выборкой. Если выборка получена с помощью вероятностного отбора из каждого выбранного кластера, такая процедура называется двухступенчатой кластерной выборкой. Как показано на рис., существуют два вида двухступенчатой кластерной выборки — простая двухступенчатая кластерная выборка с использованием простого случайного метода и вероятностная выборка, пропорциональная объему (PPS). Кроме того, кластерная выборка может состоять из нескольких (больше двух) этапов, выступая как многоступенчатая кластерная выборка.
Основное различие между кластерной и стратифицированной выборкой состоит в том, что в первом случае используются только отобранные подгруппы (кластеры), в то время как в стратифицированной выборке все подгруппы (слои) используются для дальнейшего отбора. Эти методы преследуют разные цели. Цель кластерной выборки — увеличить эффективность выборки, уменьшив затраты на ее проведение. Цель стратифицированной выборки — увеличение точности. По однородности и неоднородности критерии формирования кластеров прямо противоположны критериям формирования слоев. Элементы кластера должны быть максимально разнородны, а сами кластеры — как можно более однородными. В идеале каждый кластердолжен представлять собой небольшую модель генеральной совокупности. При кластерной выборке основа выборочного наблюдения необходима только для кластеров, которые вошли в выборку.
Распространенная форма кластерной выборки — территориальная выборка, в которой кластеры состоят из географических территорий, таких как округа, жилые районы или кварталы. Если отбор основных элементов проводится в один этап (например, исследователь выбирает некоторые кварталы, а затем все семьи, живущие в этих кварталах, включаются в выборку), такой выборочный метод называется одноступенчатой территориальной выборкой. Если отбор основных элементов проводится в два (или больше) этапа (исследователь выбирает кварталы, а затем в каждом таком квартале отбирает семьи, которые будут включены в выборку), такой метод называется двухступенчатой (или многоступенчатой) территориальной выборкой. Отличительная черта одноступенчатой территориальной выборки заключается в том, что все семьи из выбранных кварталов (или географических регионов) включаются в выборку.
Как показано на рис., существует два типа двухэтапной кластерной выборки. В одном из них простой случайный метод применяется как на первом этапе (т.е. при выборе кварталов), так и на втором (т.е. при отборе семей в кварталах). Этот метод называется простой двухступенчатой кластерной выборкой. При использовании этого метода количество элементов (семей), отобранных на втором этапе, одинаково для каждого выбранного кластера (отобранного квартала). Следующий пример иллюстрирует применение двухступенчатой территориальной выборки.
Этот метод подходит в том случае, когда все кластеры равны по объему, т.е. каждый кластер содержит примерно одинаковое количество единиц. Однако, если объемы различны, простая двухступенчатая кластерная выборка может привести к ошибочным результатам. Иногда, объединив различные кластеры, можно сделать их равными по объему. Если объединить кластеры нельзя, следует воспользоваться вероятностной выборкой, пропорциональной объему (PPS).
При вероятностной выборке, пропорциональной объему кластеры отбираются с вероятностью, пропорциональной их объему. Объем кластера определяется количеством входящих в него единиц выборки. Поэтому на первом этапе большие по объему кластеры имеют большую вероятность включения в выборку. На втором этапе вероятность отбора единицы из выбранного кластера обратно пропорциональна его объему. Поэтому вероятность включения в выборку будет равной для всех выборочных единиц, поскольку неравная вероятность включения на первой стадии отбора компенсируется неравной вероятностью включения на второй стадии.
Кластерная выборка обладают двумя основными преимуществами — выполнимость и низкая себестоимость. Во многих ситуациях единственными легко доступными инструментариями для изучения совокупности будут не элементы, а кластеры. Часто невозможно составить список всех потребителей, входящих в состав определенной совокупности, принимая во внимание ресурсы данного исследования и связанные с ним ограничения. Однако перечень географических территорий, телефонных кодов определенного района и других кластеров потребителей получить довольно легко. Кластерная выборка наиболее эффективна с точки зрения затрат. Однако несмотря на это преимущество, ей присущ ряд ограничений. В результате отбора по кластерам создаются относительно неточные выборки. Кроме того, сложно сформировать неоднородные кластеры, так как, например, семьи, живущие в одном квартале, имеют больше схожих признаков, чем различий. После кластерной выборки сложно рассчитать и оценить статистику.