Математическая теория выборочного метода

Выборочный метод исследования – метод, позволяющий по результатам изучения сравнительно небольшой части всей совокупности получить с достаточной для практики достоверностью необходимую информацию.

Различные значения признака, встречающиеся у членов совокупности, называются вариантами (xi). Число, показывающее с6колько раз вариант встречается в совокупности, называется частотой (ni).

Вариационным рядом называется ранжированным (то есть расположенный в порядке возрастания и убывания) ряд вариантов с соответствующими частотами.

Вариационный ряд называется дискретным, если значения признака отличаются друг от друга на некоторую постоянную величину, и непрерывным, если значения признака могут отличаться на сколь угодно малую величину.

Графически вариационные ряды изображают в виде полигона и гистограммы.

Полигон, как правило, служит для изображения дискретного вариационного ряда и представляет собой ломаную, вершины которой имеют координаты (xi, ni).

Гистограмма служит только для изображения интервальных вариационных рядов и представляет собой фигуру из прямоугольников с основаниями, равными интервальным разностям и высотами, равными частотам.

Основными характеристиками вариационного ряда являются: средняя арифметическая , дисперсия , среднее квадратическое отклонение s= .

Упрощенные формулы вычисления характеристик:

, ,

где C – значение варианты с наибольшей частотой; k – наибольший общий делитель разностей xi-C.

Эмпирические числовые характеристики выборки считаются точечными оценками этих же характеристик всей генеральной совокупности.

Точечной оценкой генеральной средней (математического ожидания) является выборочная средняя . При достаточно большом объеме выборки n выборочную среднюю можно с достаточной степенью точности считать нормально распределенной случайной величиной с параметрами M(X)=a, σ(X)= , где – среднее квадратическая ошибка выборки, она вычисляется по одной из следующих формул в зависимости от цели и вида выборки.

Цель Выборка
Повторная Бесповторная
для средней
для доли

Доверительная вероятность определяется по формуле P(|Xa|≤Δ)=Ф(Δ/σ).

Если обозначить Δ/σ=t, то предельная ошибка выборки Δ=t .

Зная предельную ошибку выборки, можно найти ( –Δ; +Δ) – доверительный интервал для генеральной средней, или (ω–Δ; ω+Δ) – доверительный интервал для генеральной доли.

Необходимый объем выборки при фиксированных предельной ошибке Δ и доверительный вероятности p вычисляется в зависимости от вида и цели выборки по одной из следующих формул:

Цель Выборка
Повторная Бесповторная
для средней
для доли

Если объем генеральной совокупности не задан, то либо в условии задачи указывается, что N значительно превосходит n, либо это выясняется из содержания задачи. В таких случаях, полагая N→∞, получим 1–n/N→1, тогда , . Это значит, что расчетные формулы для повторной и бесповторной выборок будут одинаковыми.

Заметим, что при одних и тех же точности и надежности оценок объем бесповторной выборки n' всегда меньше объема повторной выборки n. Этим объясняется тот факт, что на практике, в основном, используется бесповторная выборка.

Пример. Для определения средней заработной платы 200 рабочих совхоза по схеме собственно-случайной бесповторной выборки было отобрано 50 рабочих. Результаты выборки приведены в таблице:

Зарплата, руб. 1000-1800 1800-2600 2600-3400 3400-4200 свыше 4200 Всего
Число рабочих 4 6 20 12 8 50

Найти: 1)вероятность того, что средняя заработная плата всех рабочих совхоза отличается от средней заработной платы в выборке не более, чем на 100 рублей по абсолютной величине;

2)границы, в которых с вероятностью 0,869 заключена доля рабочих совхоза, имеющих заработную плату не менее 3000 рублей;

3)каким должен быть объем выборки, чтобы с вероятностью 0,9011 можно было утверждать, что отклонение средней заработной платы всех рабочих совхоза от средней заработной платы в выборке составит не более 150 рублей.

Решение. Найдем основные характеристики выборки по упрощенным формулам для чего составим таблицу вспомогательных расчетов (предварительно проведя «замыкание» вариационного ряда и переходя к дискретному распределению).

xi ni xic
-1600 -800 -2 -1 -8 -6 16 6 0 12 32
Всего 50 14 66

Возьмем c=3000, k=800. Используя упрощенные формулы, найдем

(руб) – средняя заработная плата рабочих в выборке,

- дисперсия,

s= ≈891,42 (руб) – среднее квадратичное отклонение.

1) Вероятность того, что средняя заработная плата всех рабочих совхоза отличается от средней заработной платы в выборке не более, чем на 100 рублей, найдем по формуле доверительной вероятности P(|X-a|≤Δ)=Ф(Δ/σ), где Δ=100, a= =3224, = , n=50, N=200, s2=794624,

≈109,18,

P=Ф(100/109,18)=Ф(0,92)=0,6424.

2) Для того, чтобы найти доверительный интервал для генеральной доли, найдем долю рабочих в выборке, у которых заработная плата не менее 3000 рублей:

,

предельная ошибка выборки Δ=t , где t найдем из условия P=Ф(t)=0,869, откуда t=1,51, а величина

= =0,049.

Следовательно, Δ=1,51∙0,49≈0,07, а доверительный интервал имеет границы (ω–Δ;ω+Δ)=(0,8–0,07;0,8+0.07)=(0.73;0,87).

1) Необходимый объем выборки , где ; по условию P=Ф(t)=0,9011, значит t=1,65; Δ=150. Имеем , (человек).

 

Упражнения.

8.1. Для определения средней зарплаты 1000 учителей города было отобрано выборочным путем 100 учителей. Полученное при обследовании распределение приведено в таблице:

 

Зарплата, тыс.руб 500 – 1000 1000 - 1500 1500 - 2000 2000 –2500 2500 - 3000 Свыше 3000 Итого
Число учителей

Найти: 1) границы, в которых с вероятностью 0,95 заключена средняя зарплата учителей города; 2) определить, каким должен быть объем выборки, чтобы те же границы можно было гарантировать с вероятностью 0,99? 3) вероятность того, что в данном городе доля учителей, зарплата которых более 2000 рублей, отличается от доли таких учителей в выборке не более, чем не 5% . (Выборка бесповторная).

8.2. Результаты обследования 50 человек из группы мигрирующего населения по их возрасту приведены в таблице:

 

Возраст мигрирующего населения, лет До 30 30-40 40-50 50-60 Свыше 60 Итого
Количество человек

Найти: 1) границы, в которых с вероятностью 0,9949 заключен средний возраст всего мигрирующего населения, если объем генеральной совокупности велик по сравнению с объемом выборки; 2) вероятность того, что доля мигрантов в возрасте до 40 лет в выборке отличается от доли их во всей генеральной совокупности не более, чем на 0,05 (по абсолютной величине).

8.3. С земельного массива в 8000 га путем бесповторного отбора получены данные об урожайности гречихи:

Урожайность, ц/га 11-12 12-13 13-14 14-15 15-16 16-17 Всего
Число га

Найти: 1) вероятность того, что средняя урожайность на всем массиве отличается от средней выборочной не более, чем на 0,08 ц/га (по абсолютной величине); 2) границы, в которых с вероятностью 0,9512 заключена доля гектаров с урожайностью не менее 14 ц; 3) каким должен быть объем выборки, чтобы с вероятностью 0,992 гарантировать те же границы для доли гектаров с урожайностью не менее 14 ц.

8.4. По схеме собственно-случайной бесповторной выборки было отобрано 100 студентов из 500 обучающихся и получены следующие данные о времени решения задачи по теории вероятностей:

Время решения задачи, мин 5-8 8-11 11-14 14-17 17-20 Итого
Количество студентов

Найти: 1) вероятность того, что среднее время решения задачи в выборке отличается от времени решения задачи во всей генеральной совокупности не более чем на 1 мин (по абсолютной величине); 2) число студентов, которое нужно отобрать в выборку, чтобы то же отклонение гарантировать с вероятностью 0,9876; 3) границы, в которых с вероятностью 0,9596 заключена доля студентов, решавших задачу не более 11 мин.

8.5. С лесного массива, насчитывающего 20 000 взрослых деревьев, с помощью выборочного метода были получены следующие данные:

Количество деловой древесины, м3 0,4-0,6 0,6-0,8 0,8-1,0 1,0-1,2 1,2-1,4 1,4-1,6 Итого
Число деревьев

Найти: 1) вероятность того, что среднее количество древесины в одном дереве во всем лесном массиве и в выборке отличается по абсолютной величине не более чем на 0,02 м3; 2) границы, в которых с вероятностью 0,992 заключено среднее количество деловой древесины в дереве; 3) определить, каким должен быть объем выборки, чтобы те же границы можно было гарантировать с вероятностью 0,899?