Программные требования к выборке

 

В подавляющем большинстве случаев социолог использует тот или иной способ выделения из большой совокупности явлений и объектов изучения некоторую их часть в надежде, что на этой выборочной совокупности могут быть выявлены свойства объекта исследования в целом. 19

19 В отличие от идеализированного обекта исследования, как определенной области социальной реальности, содержащей предмет изучения, здесь имеется ввиду эмпирический объект: конкретные индивиды, группы, организации, регионы, локализованные во времени и пространстве.

 

Тип и способы выборки прямо зависят от целей исследования и его гипотез. Чем конкретнее цель, чем яснее сформулированы гипотезы, тем правильнее будет решен вопрос о выборе.

Наиболее строгие требования предъявляются к выборкам десриптивных и аналитико-экспереминтальных исследваний, наименее строгие – к исследованиям по разведывательному плану. В последнем случае отбор "единиц наблюдения" на объекте подчиняется довольно простым правилам: следует выделять полярные группы по существенным для анализа критериям. Численность таких несистематических выборок строго не определяется. Все зависит от состояния полученной информации. Наблюдение или опрос в таком исследовании продолжаются до тех пор, пока не обнаружится, что получится информация, достаточно разнообразная для формулировки гипотез. Следовательно, состав и объем выборки заранее не фиксируется, а устанавливаются опытным путем по мере развития исследования.

В исследовании дескриптивного плана вборка, напротив, должна быть строго репрезентативной. 20

20 Мы рассматриваем лишь принципиальные проблемы выборочных исследований. Методы и процедуры осуществления выборок разного типа см. [12. Гл. V; 118; 128; 196. С. 31-38; 198. Гл. III; 218. Гл VI; 262. Ч.1; 287], а также в прил. 2 "Аннотированный список литературы"

 

Требования репрезентативной выборки означают, что по выделенным параметрам (критериям) состав обследуемых должен приближаться к соответствующим пропорциям в генеральной совокупности. Между тем, строго репрезентативную выборку по всем важным для проблематики исследования параметрам обеспечить невозможно, и поэтому следует гарантировать репрезентацию по главному направлению анализа данных.

Прежде всего, надо уяснить, какие из имеющихся сведений о характеристиках генеральной совокупности существенны для целей исследования. Во многих случаях это половозрастной, социально-профессиональный, имущественный состав обследуемых, их пространственная локаклизация. Половозрастная структура "замыкает" на себя многие показатели семейного состояния, уже известные по другим данным. Возраст содержит указания на жизненный опыт и, как правило, не рабочий или профессиональный стаж. Социально-професси­ональные, социально-статусные характеристики — это свидетельства о различиях в системе реального положе­ния людей и их особых интересов, позиций. Простран­ственная локализация (по территории, подразделениям предприятий и учреждений, по другим административ­ным и производственным "локалам") важна и с точки зрения особенностей условий этой деятельности (на­пример, центр и периферия, основные и вспомогательные службы), и с точки зрения адресности итоговых выводов и рекомендаций, которые должны быть "привязаны" к административным или производственным ячейкам, имеющим четкие границы и часто самоуправляемым. В сочетании трех названных параметров — половозраст­ной структуры, социального состава, пространственной локализации — можно, как правило, быть уверенным, что выборка будет представительна для анализа многих социальных проблем. Понятно, что это правило имеет исключения в зависимости от конкретных условий и особых целей исследования (например, в этнически неоднородной среде существенно иметь в виду репрезен­тацию по критерию национальной принадлежности).

Мера подобия выборочной модели структуре гене­ральной совокупности оценивается ошибкой выборки, а пределы допустимой ошибки опять-таки зависят от цели исследования.

Иногда требуется повышенная надежность, как это имеет место в экономических и демографических обсле­дованиях, например при переписях населения. Здесь су­щественные ошибки оборачиваются миллионными поте­рями материальных ресурсов и просчетами планирова­ния.21

21 Аккуратная репрезентативная территориальная выборка в со­временной России требует систематических коррекций. Это связано с тем, что территориальные административные границы (именно они яв­ляются основами официальной статистики населения) формировались Для целей, не совпадающих с социально-исследовательскими и помимо того состав и структура населения в периоды реформации неустойчи­вы. Как показывает М. С. Косолапов [128], достоверные расчеты обще­национальной и региональных представительных выборок — сложная исследовательская задача. Экономная выборка предполагает также ак­куратные расчеты маршрутов исследователей (интервьюеров и др.), что составляет особую проблему в данном регионе.

 

Гораздо чаще социологические обследования проводятся для уяснения общих тенденций, общей ориенти­ровки в сфере социальной политики.

Весьма полезна следующая приблизительная оценка надежности результатов выборочного обследования [301. С. 36].22

22 Формулы расчета ошибок выборки см. в литературе, указанной в сноске 19.

 

Повышенная надежность допускает ошиб­ку выборки до 3%, обыкновенная — до 3—10% (довери­тельный интервал распределений на уровне 0,03—0,1), приближенная —от 10 до 20%, ориентировочная — от 20 до 40%, а прикидочная — более 40%.

В аналитических и экспериментальных исследова­ниях проблема статистической репрезентативности выборки оказывается второстепенной в сравнении с необходимостью обеспечить качественное представи­тельство изучаемых социальных объектов,

Рассмотрим следующий пример. В изучении образа жиз* ни населения некоторого города мы, следуя правилам деск­риптивного обследования, хотим обеспечить представительство всех групп населения соответственно их пропорциям в составе генеральной совокупности с отклонением ±5% от истинного распределения. Такая выборка, представительная в качествен­ном отношении, будет также и статистически репрезентатив­ной, но следует решить, нужно ли это.

Напомним, что репрезентативные выборки необходимы лишь в том случае, если целью исследования является получе­ние суммарных данных в отношении изучаемого объекта в це­лом. В нашем примере — это все население данного города. Тогда в выводах социолог имеет право сообщить, что в сред­нем горожане так-то оценивают различные условия жизни и деятельности, в среднем такая-то доля населения проявляет высокую активность в таких-то видах деятельности, а такая-то — низкую и т. п. Но с практической точки зрения, не го­воря уже о теоретических задачах изучения образа жизни, нам гораздо важнее выявить специфику условий и образа жиз­ни различных групп населения и в том числе тех, которые, буду­чи малочисленными, нуждаются в специальном внимании.

Допустим, что в составе населения города имеется 370 вете­ранов Отечественной войны. Чтобы получить более или менее достоверную информацию об условиях их жизни и их пробле­мах, надо обеспечить должное численное представительство этой категории граждан в выборочной совокупности. Но поскольку выборка статистически репрезентативна, то при численности на­селения города, скажем, в 100 тыс. и численности выборочной совокупности в 2 тыс., т. е. при двухпроцентной выборке, доля ветеранов в выборочной совокупности составит 60 человек. Много это или мало? Возможно, этой численности достаточно для того, чтобы сделать статистически достоверные заключения о простейших частных показателях условий их жизни, напри­мер об уровне обеспеченности жилищем ветеранов войны, в сравнении со среднестатистическими показателями на всю вы­борку населения города. Но как только мы захотим углубить анализ, мы обнаружим, что численность подвыборки ветеранов явно мала. К примеру, важно установить, какова доля ветеранов войны, проживающих в отдельной квартире и без семьи, т. е. одиноких. В таком случае придется составить табличку раз­мерностью 2X2 (две градации "проживают с семьей" и "одиноч­ки" 4- две градации по критерию наличия своей комнаты или квартиры). В каждой клеточке этой таблицы может быть в пределе по 15 единиц наблюдения (60:4=15). Конечно, реальное распределение окажется иным. Так, ветеранов-одиночек, не имеющих собственной комнаты, не будет вовсе. Зато одиночек, проживающих в отдельной квартире, может оказаться, допус­тим, 5—10 человек. Вместе с тем именно зга категория ветера­нов и составляет предмет особого внимания. Однако при чис­ленности подвыборки в 10 человек никакой дальнейший статистический анализ уже невозможен.

Следовательно, если мы хотим изучить в статисти­ческих показателях особенности условий и образа жиз­ни каких-то определенных групп населения, репрезента­тивная выборка должна быть заменена целевой, в кото­рой численность каждой интересующей нас группы бу­дет достаточна для более основательного анализа. Такая выборка, будучи качественно представительной в отноше­нии целей исследования, не является статистически реп­резентативной в отношении генеральной совокупности.

Во многих случаях необходимы именно целевые вы­борки23.

23 Иногда целевую выборку называют "социологической", в ней обеспечивается представительство по признакам, выявленным в преды­дущих социологических исследованиях, а для реализации таких выбо­рок могут использоваться таксономические процедуры (см. ниже: с. 318—322, а также [84; 107].

Особенно это важно в исследованиях экспери­ментального плана. Скажем, проверяется эффективность введения новой формы организации труда. Ясно, что для этого следует отобрать подразделения, где введена новая организация, и для сравнения — аналогичные, где работа идет по-старому. Следует гарантировать в выбор­ке равную численность экспериментальных подразделе­ний или организаций и "контрольных", работающих по прежней системе. При этом важно так подобрать эти подразделения, чтобы они были аналогичны по всем су­щественным характеристикам, кроме факта наличия или отсутствия новой формы организации труда. Фор­мы собственности, профессиональный и квалифициро­ванный состав работников, их половозрастная структура и, возможно, другие показатели должны быть сопостави­мы. Решающее значение имеет здесь отнюдь не пропор­циональность выборочной доли экспериментальных подразделений фирмы или предприятия в отношении к их доле в генеральной совокупности, но именно каче­ственное представительство экспериментальных и конт­рольных объектов соответственно цели исследования.

Численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы. Но степень однородности социального объекта зависит, в сущности, от того, насколько детально мы намерены его исследовать. Практически любой, самый "элементар­ный" объект оказывается чрезвычайно сложным. Лишь в анализе мы представляем его как относительно про­стой, выделяя те или иные его свойства. Чем более ос­новательным и детальным будет анализ, чем больше свойств данного объекта мы намерены принять во внимание в их сочетании, а не изолированно, тем боль­ше должен быть объем выборки.

Для решения такого рода задач как раз и необходи­мы целевые аналитические выборки. В них учитывается не только структура изучаемой совокупности, но и огра­ничения, накладываемые на объем выборки целями ис­следования, глубиной анализа проблем.

Используя статистический критерий Стьюдента, можно рассчитать объем выборок в зависимости от за­данного уровня доверительного интервала ошибки выво­да [227. С. 19—21]. Чем меньше объем сравниваемых подвыборок (пусть это будут ветераны-одиночки и се­мейные), тем больше должно быть различие каждой па­ры сопоставляемых статистик (например, процентные различия оценок условий быта теми и другими). Если численность сравниваемых подвыборок неодинакова, за базу определения допустимой ошибки следует брать наименьшую подвыборку.

В зависимости от объема подвыборки существен­ность процентных различий определяется таблицей:

Объем подвыборок по их численности Значимая разность в % при ошибке не более 5 % Объем подвыборок по их численности Значимая разность в % при ошибке на более 5%
6,3
11,5 4,5

 

Допустим, что удовлетворительно оценивают условия быта 85% ветеранов-женщин и 79% мужчин, проживающих с семья­ми, и соответственно 32% женщин и 38% мужчин-одиночек. Разности в процентах составляют здесь: 85—79=6 и 42— 38,4=3,6%. При численности подвыборок до 150 человек и при 5-процентном уровне ошибки эти различия нельзя признать су­щественными, так как они должны перекрывать 11,5%. Но разлиния между соответствующими оценками одиночек и семей­ных будут существенны. Онисоставят для женщин 85—32=53% и79—38=41% для мужчин. Такие различия значимы уже при выборках около 50 человек. Достоверный вывод зву­чит так: решающей является ситуация проживания ветеранов с семьей или одиноко. В какой мере эти обстоятельства боль­ше переживаются мужчинами или женщинами, сказать труд­но; наших данных для этого недостаточно.

Авторы приведенных расчетов отмечают, что выбор­ки на уровне 500 человек позволяют анализировать табт лицы сопряженности с 4 признаками из трех градаций каждый, а выборки в 1000 единиц расширяют возмож­ности уверенного анализа до таблиц с 6 признаками из пяти градаций. Все это при условии обеспечения дове­рительного интервала, не превышающего 5% стат^сти-чески значимой ошибки.

Общее правило таково: объем выборки при задан­ном уровне доверительного интервала должен быть не менее чем пК единиц наблюдения, где п — объем под-выборки по столбцу, а К — число столбцов.

Объем выборки зависит также от уровня довери­тельного интервала допустимой ошибки, каковая, как уже говорилось, задается целесообразной точностью ито­говых обобщений: от повышенной до ориентировочной. Однако здесь имеются в виду так называемые случай­ные ошибки, связанные с природой любых статистичес­ких погрешностей. Именно они и вычисляются как ошибки репрезентативности вероятностных выборок.

В. И. Паниотто приводит следующие расчеты репре­зентативной выборки с допущением 5-процентной ошибки [199. С. 81].

 

Объем генеральной совокупности Объем выборки
Объем генеральной совокупности Объем выборки

Для совокупности более 100000 выборка составляет 400 единиц. Если же иметь в виду генеральные совокупности численностью от 5 тыс. и больше, то, по расче там того же автора, можно указать величины фактичес кой ошибки выборки в зависимости от ее объема [200 С. 82], что для нас весьма важно, памятуя, что величин; допустимой ошибки зависит от цели исследования и необязательно должна приближаться к 5-процентном; уровню.

 

Объем выборки, если гене­ральная совокупность ≥5000 625…
Фактическая ошибка при данном объема выборки, %

 

Наряду со случайными возможны ошибки систе­матического характера. Они зависят от организации выборочного обследования. Это разнообразные смеще­ния выборки в сторону одного из полюсов выборочно­го параметра.

Объем, выборки определяется аналитическими за­дачами исследования, а ее репрезентативность целе­вой установкой программы. Именно программа задает образ необходимой генеральной совокупности для про­ведения выборки. Будет ли это все население или осо­бые его структурные образования, все элементы изу­чаемого объекта или только выделяемые по заданным программой критериям.

Генеральную совокупность составляют все едини­цы определенного в программе объекта. Теперь .следует обеспечить равную их вероятность попадания в выбороч­ную совокупность.

При небольших по численности генеральных сово­купностях применяют случайную бесповторную выбор­ку, где обеспечивают равную вероятность попадания в исследование всех ее единиц по полному их списку из генсовокупности. Имея полный список работников предприятия (например, 2000 человек) и определив объ­ем выборочной совокупности (например, в 2000 чело­век), устанавливаем шаг выборки делением первого на второе (2000:200) и получаем шаг отбора — каждый 10-й из списка. Здесь важно не допустить системати­ческой ошибки из-за отсутствия в списке, скажем, како­го-то подразделения, например работающих в филиале предприятия.

При больших генеральных совокупностях, как это имеет место в опросах населения, используют многосту­пенчатый отбор по районам, т. е. крупным структур­ным составляющим генеральной совокупности: регио­ны, типы поселений, кварталы города. На каждой ступе­ни отбора следует обеспечить требования представитель­ности населения, т. е. обоснованно отобрать регионы так, чтобы не было смещения по какому-то важному пара­метру (например, по этнонациональному). То же самое и на последующих ступенях отбора. В конечном счете от­бор производится опять-таки систематически с установ­ленным шагом отбора по списку граждан (из списков из­бирателей или иных), списку хозяйств на селе, путем по­сещения каждой, скажем, 20-й квартиры в списке квар­тир каждого 50-го дома выделенного квартала города.

Многие обстоятельства усложняют проблему расчета ошибки и нередко могут привести к тому, что формаль­но-статистически репрезентативная выборка'окажется качественно непредставительной.

Итак, качество выборки зависит от трех условий: (а) от меры однородности социальных объектов по наиболее существенным для исследования характерис­тикам; (б) от степени дробности группировок анали­за, планируемых по задачам исследования; (в) от це­лесообразного уровня надежности выводов из предпри­нимаемого исследования.

Очень часто малоопытный социолог не улавливает разницы между проблемой ошибки репрезентативности выборки и ошибки вывода из данного конкретного рас­пределения в рамках выборочной совокупйости.

Пусть выборка достаточно репрезентативна и ошиб­ка по тому или иному параметру выборки незначительна. Оценка уровня достоверности вывода по каждому конкретному распределению остается при этом пробле­мой самостоятельного анализа.24

24 Приемы расчета разнообразных ошибок вывода рассматривает К. В. Кемниц, который подчеркивает, что формально-статистические методы расчета ошибок вывода должныпредваряться "инженерным"

(т. е, содержательным, — В. Я.) изучением распределения [108. С. 4]

 

Несколько заключительных замечаний. Из сказан­ного выше может показаться, что обеспечить представи­тельство данных в выборочном обследовании если и удается, то ценой непомерных усилий, разумность зат­рат которых часто сомнительна. Рекомендуется, во-пер­вых, не отчаиваться и, во-вторых, рассуждать здраво, имея в виду программные цели исследования.

Если перед нами стоит задача выполнить дескрип­тивное обследование большой общественной значимос­ти, в итоге которого должны быть сделаны заключения относительно генеральной совокупности в целом, следу­ет, конечно, максимально реализовать все требования репрезентативной выборочной процедуры. Затраченные усилия будут не только оправданны, они просто необхо­димы, так как ошибки в выводах такого исследования недопустимы. Здесь ложная информация опаснее ее от­сутствия (достаточно сослаться на ошибки прогнозов ис­хода выборов вследствие ошибок выборки опросов элек­тората или ошибки в исследованиях рынка).

Если же задачи исследования более скромные, уро­вень надежности планируемых выводов с точки зрения их статистической точности можно смело понизить, но надо принять все меры к качественному представитель­ству выборочной совокупности. Преувеличенное внима­ние к формально-статистическим критериям досто­верности выводов (и тем более их абсолютизация) за счет качества исходной информации и качества анали­за — свидетельство профессиональной неопытности со­циолога. Подчеркивая статистическую надежность данных, он вводит в заблуждение и себя, и, хуже того, тех, кто привык верить в убедительность математических расчетов. Нельзя забывать о реальной природе того, что кроется за цифрами и математическими формулами. Ведь сами исходные характеристики, получаемые иссле­дователем путем опросов или другими способами, лишь условно переводятся в количественные показатели. Час­то эти количественные сведения весьма приблизительно отражают существо социальных процессов. Поэтому усилия, направленные на строгость статистического обо­снования результатов, приобретают смысл только при условии серьезного качественного анализа проблемы, со­держательного ее изучения. Бывает и так, что непред­ставительные в статистическом смысле данные, много­кратно повторяемые на разных подвыбо^рках, как раз свидетельствуют об определенной социальной тенден­ции лучше, чем статистически достоверный вывод, сде­ланный на одной единственной выборке.

Следует постоянно помнить, что социолог призван сосредоточить внимание именно на существе соци­альных проблем, активно привлекать к постановке задач исследования других специалистов, практиков и теоре­тиков, внимательно следить за литературой по широко­му кругу вопросов, относящихся к предмету исследова­ния. Наконец, для решения собственно статистических задач, касающихся типа и объема выборки, он прежде всего обязан максимально четко сформулировать конк­ретные вопросы, подлежащие решению, и уже после это­го обращаться к соответствующим расчетам разнооб­разных статистик.