Определение ошибки выборки

При выборочном наблюдении регистрируется только часть еди­ниц генеральной совокупности. Но эта часть по объему должна быть такова, чтобы получаемые сведения оказались репрезента­тивными, т. е. достаточно верно отражали содержание и законо­мерности изучаемого явления в целом. Под репрезентативностью понимается свойство выборочной совокупности воспроизводить ха­рактеристики генеральной совокупности.

Разность между данными генеральной и выборочной совокуп­ностей называют ошибкой репрезентативности, или ошибкой вы­борки. Например, генеральная совокупность правонарушителей составляет 500 человек. Удельный вес лиц, воспитанных в непол­ной семье, среди них равен 30%. При выборочном наблюдении было изучено 50 человек, среди которых удельный вес таких лиц оказался 25%. Ошибка выборки равна: 30% — 25% = 5% (0,5). Ана­логичным образом выводится ошибка репрезентативности и для количественного признака. Предположим, что средняя арифмети­ческая величина возраста преступников в генеральной совокупно­сти была равна 28,3 года. В выборочной совокупности она состави­ла 26,5 года. Ошибка равна: 28,3 — 26,5 = 1,8 года.

Ошибки бывают тенденциозными, или систематическими, и случайными. Первые — результат неправильного или преднаме­ренного отбора исследователем тех или иных показателей, вто­рые — результат случайностей неполного отбора.

Тенденциозные ошибки возникают тогда, когда исследователь неправильно сформировал выборку, не знал научных правил отбора единиц совокупности, сознательно отобрал наиболее по­казательные единицы. Например, исследуя правосознание граж­дан, анкетер в целях экономии времени воспользовался аудито­рией студентов-юристов и опросил их. Полученные данные, ес­тественно, отражали правовые взгляды лишь этих респондентов и не соответствовали взглядам всех граждан. Выводы, сделанные на основе тенденциозных выборок, будут ошибочными. Они мо­гут причинить вред делу.

Истории известны многие курьезы, связанные с пренебреже­нием правилами выборочного наблюдения. Один из них произо­шел в США в 1936 г. при прогнозировании исхода президентских выборов. Журнал «Литерари Дайджест», используя телефонные книги, опросил свыше 2 млн человек. По итогам опроса президентом должен быть избран Ландон. Социологи Геллап и другие опросили только 4 тыс. жителей и пришли к однозначному выво­ду: победит Рузвельт. Их прогноз оправдался. В чем причина таких расхождений? Первая выборка отражала мнение лишь состоятель­ных консервативных слоев населения, которые имели телефоны, вторая — всех слоев населения. Она оказалась более представи­тельной, хотя была в 500 раз меньше первой. Роковую роль сыг­рали тенденциозные ошибки.

Научно-практическая задача выборочного наблюдения сводится не только к тому, чтобы при малых затратах сил и средств макси­мально приблизить данные выборки к данным всей генеральной совокупности, но и к тому, чтобы точно измерить, в каких преде­лах результаты выборки отличаются от данных генеральной сово­купности. Здесь и встает вопрос о характере ошибок.

Тенденциозные (систематические) ошибки нельзя измерить. Они могут быть самыми разными по величине и содержанию. Тен­денциозные ошибки тем меньше, чем выше квалификация ис­следователя, чем лучше он знаком с объектом изучения и воз­можными источниками систематических ошибок.

Измерить можно лишь случайные ошибки, т. е. ошибки, обус­ловленные неполнотой изучения реально существующей сово­купности. Случайные ошибки — непреднамеренные неточности статистического наблюдения, которые могут быть направлены как в сторону преувеличения показателей признака, так и в сто­рону их преуменьшения. При относительно большом изучении случайные ошибки взаимопогашаются (вспомним третий этап эксперимента по извлечению пронумерованных карточек, ког­да было сделано 30 выборок по 40 извлечений каждая), в ре­зультате чего данные выборочной совокупности становятся близ­кими к данным генеральной. Оставшиеся различия можно отно­сительно точно измерить на основе теории вероятностей, зако­на больших чисел и закономерностей распределения случайных величин.

Для того чтобы избежать тенденциозных ошибок, необходи­мо строго соблюдать правила случайного отбора единиц выбо­рочной совокупности. Случайные ошибки в выборочном наблю­дении объективны. Их нельзя избежать, но можно уменьшить пу­тем увеличения объема выборки и точно вычислить.

Необходимость в точном расчете ошибки выборки возникает тогда, когда произведенное выборочное наблюдение надо оценить с точки зрения его репрезентативности и достоверности. Фор­мула для вычисления ошибки выборки в общем виде выглядит так:

где W — ошибка выборки; а — средний квадрат отклонения (дисперсия); о — среднее квадратическое отклонение; п — число единиц выборки.

Исходя из этой формулы, ошибка репрезентативности пря­мо пропорциональна дисперсии или среднему квадратическо-му отклонению и обратно пропорциональна числу единиц вы­борки. Ошибка выборки будет тем меньше, чем меньше дис­персия (колеблемость признака) и чем больше численность выборки. Объем выборочной совокупности, как правило, все­гда известен, если исследование уже произведено. Остается вычислить дисперсию, порядок расчета которой мы излагали в предыдущем параграфе. Подставляя значение дисперсии в фор­мулу ошибки выборки для качественного и количественного признака получаем:

w =w =I/

Эти формулы позволяют рассчитывать ошибку выборки на ос­нове исходных показателей. Рассчитаем ее по данным предыду­щих примеров. Дисперсия качественного признака — состояния опьянения, удельный вес которого в структуре изучаемых пре­ступлений составлял 35%, оказалась равной 0,23. Численность вы­борки определим в 100 единиц (уголовных дел, статкарт, приго­воров). В этом случае

W = ,/0,0023 = 0,048, или 4,8

Это означает, что при правильной случайной выборке в 100 единиц удельный вес лиц, совершивших преступления в состоя­нии опьянения, будет колебаться относительно удельного веса данного признака в генеральной совокупности в пределах ± 4,8%, т. е. 35% ± 4,8% или от 30,2 до 39,8%. Если мы увеличим выборку вчетверо, т. е. до 400 единиц, то ошибка выборки уменьшится вдвое и будет составлять ± 2,4%. При максимальной дисперсии качественного признака (0,25) и 100 единицах выборки ошибка выборки будет равняться 0,05, или ± 5%, а при 400 единицах выборки — 0,025, или ± 2,5%.

Обратимся к примеру с количественными признаками --к 100 осужденным к разным срокам лишения свободы. Дисперсия количественного признака равнялась 2,29 года. Рассчитаем ошиб­ку выборки:

w = V0.0229 = ± 0,048 года.

При увеличении выборки вчетверо, т. е. до 400 единиц, ошибка выборки уменьшится вдвое и составит ±0,075 года.

Приведенные примеры наглядно показывают, что при пра­вильном отборе выборочной совокупности даже при небольшом объеме в 100 единиц ошибка репрезентативности может быть при­знана вполне допустимой, а при выборке в 400 единиц -- тем более. При максимальной дисперсии качественного признака и выборке в 100 единиц ошибка выборки, например, не превыша­ла ± 5%. Эти величины постоянные, что и используется в заранее рассчитанных таблицах.

Дисперсия и ошибка выборки количественных признаков вы­ражаются не в относительных числах (процентах, долях), как у качественных показателей, а в именованных числах, т. е. в годах, рублях, классах, часах и т. д. Они могут иметь самые разные со­держательные и численные значения. Их нельзя рассчитать зара­нее безотносительно к конкретному признаку, и поэтому гото­вых таблиц ошибок выборки для количественных признаков нет.

Все предшествующие формулы и расчеты ошибки репрезента­тивности имеют значение для повторной выборки. При ней каждая отобранная из генеральной совокупности единица (например, статкарта на преступление) вновь возвращается в массив. Поэтому не исключена возможность ее повторного отбора. Наряду с таким от­бором есть отбор бесповторный. При нем каждая отобранная еди­ница исключается из числа единиц генеральной совокупности, а поэтому может попасть в выборку лишь один раз. В связи с этим ошибка выборки для качественных и количественных признаков вычисляется соответственно по разным формулам:

 

где и — число выборочной совокупности; N — число генеральной совокупности.

Проанализируем эти формулы на конкретном примере. Пред­положим, что в одном из городов бесповторным способом был произведен опрос 300 граждан о знании ими УК РФ. Удельный вес лиц, которые не знали ничего о кодексе, составил 20%. Об­щая численность взрослого населения города составила 15 тыс. человек. Необходимо установить репрезентативность произведен­ного изучения. В данном случае W =0,2(1-0,2) 30015000J= Г'V 300(1 - 0,02) = ±0,022

Однократная ошибка выборки составила ± 0,022, или ± 2,2%, а двукратная -- ± 4,4%. Если опрос граждан производился при строгом соблюдении процедуры, то удельный вес тех из них, которые не знают ничего об УК, в структуре всех граждан может колебаться в пределах 20 ± 4,4% или от 15,6 до 24,4%. Возможные отклонения существенны, но для практических целей результаты могут быть признаны вполне удовлетворительными.

Анализ формул ошибки бесповторной выборки показывает, что дополнительный множитель (1— n/N) не может быть больше единицы, следовательно, он лишь уменьшает величину ошибки выборки. В данном случае этот множитель составил 0,98 и умень­шил все подкоренное выражение на 0,00001, а ошибку выбор­ки — на 0,1%. В других случаях это уменьшение может быть боль­шим. Таким образом, наличие данного множителя позволяет бо­лее точно вычислить ошибку бесповторной выборки, причем в сторону ее минимизации. Поэтому, если исследователю неизвес­тна численность генеральной совокупности, а он произвел бесповторную выборку, то можно рассчитать ошибку репрезента­тивности по формуле повторной выборки. Незначительной не­точностью, связанной с завышением расчетной ошибки, можно пренебречь, поскольку социально-правовые исследования не тре­буют особой точности.

При рассмотрении закономерностей нормального распреде­ления (рис. 6) говорилось о правиле трех сигм. Вспомним, что если площадь выборки заключена в пределах Зс, то она составит 99,7% (0,997) всей площади, ограниченной кривой распределе­ния, если в пределах 2о — 95,4% (0,954), если в пределах 1о -68,3% (0,683). Эта закономерность используется для расчета коэф­фициента доверия (t).

Не вникая в математическую сторону этого вопроса, скажем, что вероятность отклонения изучаемого признака, как качествен­ного, так и количественного, в пределах однократной ошибки репрезентативности, т. е. при /= 1, равна 0,683. Это означает, что из 1000 изучаемых единиц 683 будут находиться в пределах одно­кратной ошибки выборки, а остальные 317 единиц — за ее пре­делами. При коэффициенте доверия, равном 2 (/=2), вероятность отклонения изучаемого признака будет находиться в пределах двукратной ошибки репрезентативности и равняться 0,954, те. из 1000 изучаемых единиц 954 будут находиться в пределах дву­кратной ошибки. При коэффициенте доверия, равном 3 (/=3), из 1000 изучаемых единиц 997 будут находиться в пределах трех­кратной ошибки.

Символ t именуют коэффициентом кратности ошибки репре­зентативности, или коэффициентом доверия. Его увеличение по­вышает репрезентативность выборки, но не само по себе, а через увеличение выборочной совокупности. Если, например, при про­ведении криминологического или социально-правового изучения есть необходимость в том, чтобы ошибка репрезентативности не превышала ± 4,8%, как было в нашем примере, а коэффициент доверия был равен не 1, а 3, т. е. t— 3, то численность выбороч­ной совокупности придется увеличить в 6 раз, или до 600 единиц. При t=2 численность выборки должна быть увеличена в 4 раза, т. е. до 400 единиц.

Выше говорилось, что если уменьшить ошибку выборки в 2 раза, то выборочную совокупность следует увеличить в 4 раза. Поставим задачу по-иному. Если нас удовлетворяет величина ошибки выбор­ки, но необходимо повысить коэффициент доверия до 1=2, чтобы в 954 случаях из 1000 величина единиц изучения не отклонялась от заданной ошибки, также надо увеличить объем выборочной сово­купности в 4 раза. Ошибка сохраняется та же, а коэффициент дове­рия повышается. При криминологических, социально-правовых ис­следованиях и при изучении в практических оперативных целях может быть допустима точность с коэффициентом доверия /= 1. При ре­шении важных научных или практических вопросов желательно, чтобы ошибка репрезентативности принималась с коэффициентом доверия t = 2. Изучение с коэффициентом доверия / = 3 в юридичес­кой статистике практически нигде не требуется.

Предельная ошибка выборки обозначается греческой буквой А (дельта). Она равна произведению однократной ошибки выборки на соответствующий коэффициент доверия Д = W't. Заменив W соответствущими формулами для повторной выборки, полу­чим:

 

Для бссповторной выборки эти формулы будут иметь следую­щий вид:

 

Избежать сложных математических расчетов при определении пределов ошибки репрезентативности качественных характерис­тик при заданном числе наблюдений помогают специальные таб­лицы, рассчитанные математиками (табл. 5).

Таблица 5 Предел ошибки при заданном числе наблюдений и t = 2, %

 

Удельный вес наблюдений, % Число наблюдений
5 (95) 10 (90) 15 (85) 20 (80) 25 (75) 30 (70) 35 Г6М 4,4 6,0 7,2 8,0 8,7 9,2 SU 9,9 10,0 10,0 3,1 4,3 5,1 5,7 6,2 6,5 6,8 7,0 7,1 7,1 2,8 3,5 4,1 4,6 5,0 5,3 5,5 5,6 5,7 5,8 2,5 3,0 3,6 4,0 4,3 4,6 4J& 4,9 5,0 5,0 1,9 2,7 3,2 3,6 3,9 4,1 4,3 4,4 4,5 4,5 1,8 2,5 2,9 3,3 3,5 3,7 3,9 4,0 4,1 4,1 1,6 2,3 2,7 3,0 3,3 3,5 3,6 3,7 3,8 3,8 1,5 2,1 2,5 2,8 3,1 3,2 3,4 3,5 3,5 3,5 1,4 2,0 2,4 2,7 2,9 3,1 3,2 3,3 3,3 3,3 1,4 1,9 2,3 2,5 2,7 2,9 3,0 3,1 3,1 3,2
40 (60) 45 (55)

Используя эту далеко не полную таблицу, определим пре­дельную ошибку репрезентативности по уже известным данным о лицах, совершивших преступления в состоянии опьянения. Вспомним эти данные: удельный вес указанных лиц составлял 35%, объем выборочной совокупности 100 и 400 единиц. Ошибка репрезентативности, рассчитанная по формулам, оказалась равной соответственно ± 4,8 и ± 2,4%. Если наши расчеты были вер­ными, то они совпадут с данными табл. 5.

Находим в графе 1 таблицы значение показателя, равное 35% (оно подчеркнуто). На этой же строке в графе 2, соответствую­щей 100 наблюдениям, находим ошибку репрезентативности ± 9,6%, а в графе 5, соответствующей 400 наблюдениям, — ошибку репрезентативности ± 4,8%. Сопоставим расчетные ошибки с таб­личными. Последние оказались вдвое больше тех, которые были получены путем расчета. Однако никакой ошибки здесь нет. Пре­делы ошибок, указанные в табл. 5, рассчитаны при коэффициен­те доверия, равном 2 (/=2), а мы рассчитывали без учета коэф­фициента доверия (т. е. при /= 1). Если использовать формулы рас­чета предельных ошибок с /= 2, то получим те же самые данные, которые указаны в табл. 5.

д = tW = 2 • 4,8 = ±9,6%; Д = tW = 2 • 2,4 = ±4,8%.

Коэффициент доверия, равный 2, означающий, что в 954 слу­чаях из 1000 единицы изучения не будут выходить за пределы заданной ошибки репрезентативности, практически надежен. По­этому таблицы предельных ошибок рассчитаны применительно к нему.