А. Крыштановский Эксперимент с выборками

Для оценки ошибки различных видов неслучай­ных и «квазислучайных» выборок я провел сле­дующий эксперимент: соединил данные не­скольких ВЦИОМовских исследований и полу­чил генеральную совокупность. Ее объем — 40 тысяч человек. По специальным схемам из это­го массива я сделал 100 простых случайных выборок, каждая по 500 респондентов. То есть я пытался имитировать ситуации различных выборочных стратегий. Затем я сопоставил свои данные с ВЦИОМовскими. Оценки распределе­ния ответов на 5 вопросов анкеты должны были лежать в рамках доверительных интервалов, оп­ределяемых статистической теорией. Напри­мер, я взял вопрос «Что бы Вы могли сказать о своем настроении в последние дни?» с пятью вариантами ответа.

В генеральной совокупности ВЦИОМа вариант ответа «Нормальное, ровное состояние» выбра­ло 41,3% респондентов. Из моих 100 выборок только в пяти процентах случаев ответы вышли за границы 95% доверительного интервала. Иными словами, статистическая теория полно­стью подтвердилась.

Неприятность, однако, состоит в том, что в ис­следовании мы оцениваем не одну градацию, а все. Выход же за границы доверительного ин­тервала хотя бы одной градации фактически

означает ошибку в оценке вопроса в целом. В рамках проведенного эксперимента из 100 слу­чайных выборок в 26 был зафиксирован выход за границы доверительных интервалов значений хотя бы одной из пяти градаций. Таким образом, следует отдавать себе отчет, что 95%-ный дове­рительный интервал вовсе не гарантирует, что только в 5% случаев результаты исследования

по какому-то вопросу могут быть ошибочными. В ходе эксперимента ошибки в вопросе были зафиксированы в 26% случаев. Если вспомнить, что мы рассматриваем не один вопрос анкеты, то станет ясно, что ошибки в ис­следованиях встречаются гораздо чаще, чем в обычно подразумеваемых 5% случаев. В моем эк­сперименте с пятью вопросами лишь в 42 выбор­ках из 100 ответы на все 5 вопросов лежали в гра­ницах доверительных интервалов. Сокращено и адаптировано по источнику: Встреча маркетологов в ГУ-ВШЭ // http://marketing.spb.ru/ conf/hse/02/report. htm

Особенно важной проблема ошибок становится в маркетинговых исследова­ниях, где используются не очень большие выборки. Обычно они составляют не­сколько сотен, реже — тысячу респондентов. Здесь исходным пунктом расчета вы­борки выступает вопрос об определении размеров выборочной совокупности. Чис­ленность выборочной совокупности зависит от двух факторов: (1) стоимости сбора информации и (2) стремления к определенной степени статистической достовер­ности результатов, которую надеется подучить исследователь. Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генеральной совокуп­ности в целом, тем более надежны и достоверны полученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает де­сятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информа­ции (включающая оплату тиражирования инструментария, труда анкетеров, по­левых менеджеров и операторов по компьютерному вводу) зависит от той сум­мы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается второго фактора, то мы остановимся на нем чуть подробнее.

Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сде­лать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необходимо узнать, какая часть потребителей пива предпо­читает именно его марку, а не сорт его конкурента, — 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.

Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри генеральной совокупности, кото­рую мы исследуем. Например, если нам нужно узнать, какое количество пива по­требляется, то мы обнаружим, что внут­ри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом слу­чае мы будем изучать потребление хлеба и установим, что у разных людей оно раз­личается гораздо менее существенно (го­могенная генеральная совокупность). Чем больше различия (или гетерогенность) внутри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказы­вает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выборки зависит от уровня однородности или раз­нородности изучаемых объектов. Чем более они однородны, тем меньшая чис­ленность может обеспечить статистически достоверные выводы»31.

Ядов В.А. Социологическое исследование. С. 72.

По мнению Г.С. Батыгина: «При отсутствии лучшего критерия следует согласиться с тем, что если выборка выходит за приемлемые рамки по из­вестным переменным, она непригодна и по изучаемой переменной. И все-таки важно сознавать, что одна и та же совокупность единиц описывается многообразными характеристиками, каждой из которых присуща своя сте­пень вариации. Иначе говоря, по одним характеристикам генеральная со­вокупность "хорошо перемешана" и является однородной, по другим — дифференцированной. Например, по признаку "грамотность — неграмот­ность" современное российское общество практически однородно: мож­но, опросив нескольких человек, уверенно утверждать, что подавляющее большинство людей грамотны. Иное дело — дифференциация доходов. Она столь велика, что малой выборкой не обойдешься. Отсюда следует, что не существует выборки на все случаи социологической жизни. Лучшая выборка — не обязательно большая. Даже очень маленькая выборка мо­жет быть вполне представительной. Главное, чтобы она была хорошо пе­ремешана в генеральной совокупности»32.

Сегодня многие трудные расчеты берет на себя техника, а статистические программы можно получить по Интернету. Вот и с расчетом выборки лениво­му социологу предоставили такую возможность на веб-сайте Аналитического центра «Бизнес и маркетинг» (http://www.brna.ru/enter.htm) где пользователю надо лишь внести необходимые данные, а затем нажать на кнопку «Рассчитать».