Распределение числа рабочих по разрядам

 

Необходимо определить с вероятностью 0,997 пределы, в которых находится средний разряд рабочих механического цеха.

Определим выборочные средние по бригадам и общую среднюю:

,

Определим межсерийную дисперсию:

.

Рассчитаем среднюю ошибку выборки:

.

 

Вычислим предельную ошибку выборки с вероятностью 0,997: .

С вероятностью 0,997 можно утверждать, что средний разряд рабочих механического цеха находится в пределах .

При бесповторном серийном отборе средняя ошибка выборки для доли определятся по формуле:

,

где — межсерийная дисперсия доли.

Пример.

200 ящиков деталей упакованы по 40 шт. в каждом. Для проверки качества деталей был проведён сплошной контроль деталей в 20 ящиках (выборка бесповторная). В результате контроля установлено, что доля бракованных деталей составляет 15%. Межсерийная дисперсия равна 49. С вероятностью 0,997 определим пределы, в которых находится доля бракованной продукции в партии ящиков.

Определим среднюю ошибку выборки для доли: .

Предельная ошибка выборки для доли с вероятностью 0,997 равна: .

С вероятностью 0,997 можно утверждать, что доля бракованных деталей в партии будет находиться в пределах от 10,59% до 19,41%.

Пример

Для определения скорости расчетов с кредиторами в порядке механической выборки отобрали 50 платежных документов, по которым средний срок перечисления денег оказался равным 28,2 дня со среднеквадратическим отклонением 5,4 дня. Требуется определить средний срок всех платежей в течение данного года с вероятностью 0,95.

Решение. Предельная ошибка выборки

дня.

Тогда с вероятностью 0,95 можно утверждать, что средняя продолжительность расчетов предприятия данного треста находится составляет не менее 26,7 дня (28,2 – 1,49) и не более 29,7 дня (28,2 + 1,49).

Пример

Генеральная совокупность N состоит из 100 000 единиц, разбитых на 200 равных по объему серий. Произведена бесповторная выборка (m) 50% серий и по 20% единиц из каждой серии. Средняя из серийных дисперсий оказалась равной 12, а межсерийная 5. Требуется определить среднюю ошибку выборки.

Определяем общее число единиц, отобранных серийно: . Число единиц, составляющих индивидуальную выборку: По формуле средней ошибки для бесповторного отбора находим:

.

Можно сделать выборку такого же объема 100000 единиц, отобрав 20% серий и 50% единиц из каждой серии. При тех же значениях средней из серийных дисперсий и межсерийной дисперсии средняя ошибка этой выборки увеличилась бы в два раза.

 

Распределение значений выборочных средних всегда имеет нормальный закон распределения (ли приближается к нему) при , независимо от характера распределения генеральной совокупности. Однако в случае малых выборок действует иной закон распределения – распределение Стьюдента. В этом случае коэффициент доверия находится по таблицам -распределений Стьюдента в зависимости от величины доверительной вероятности и объема выборки . Для отдельных значений и доверительная вероятность малой выборки определяется по специальным таблицам Стьюдента (табл. 9), в которых даны распределения стандартизированных отклонений:

.

Таблица 9.

n t
  0,5 1,0 1,5 2,0 3,0
0,347 0,609 0,769 0,861 0,942
0,362 0,637 0,806 0,898 0,970
0,368 0,649 0,823 0,914 0,980
0,371 0,657 0,832 0,923 0,985
0,376 0,666 0,846 0,936 0,992
0,377 0,670 0,850 0,940 0,993

Поскольку при проведении малой выборки в качестве доверительной вероятности практически принимается значение 0,95 или 0,99, то для определения предельной ошибки малой выборки используются следующие показания распределения Стьюдента (табл. 10)

Таблица 10.

n
  0,95 0,99
3,183 5,841
2,777 4,604
2,571 4,032
2,447 3,707
2,364 3,500
2,307 3,356
2,263 3,250
2,119 2,921
2,078 2,832

Пример.

При контрольной проверке качества поставленной в торговлю колбасы получены данные о содержании поваренной соли в пробах. По данным выборочного обследования нужно установить с вероятностью 0,95 предел, в котором находится средний процент содержания поваренной соли в данной партии товара.

Составляем расчётную таблицу и по её итогам определяем среднюю пробу малой выборки (табл.11).

 

Таблица 11.

Пробы
4,3 0,2 0,04
4,2 0,1 0,01
3,8 0,3 0,09
4,3 0,2 0,04
3,7 - 0,4 0,16
3,9 - 0,2 0,04
4,5 0,4 0,16
4,4 0,3 0,09
4,0 - 0,1 0,01
3,9 - 0,2 0,04
41,0 0,68

Определяем дисперсию малой выборки:

Определяем среднюю ошибку малой выборки:

Исходя из численности выборки (n=10) и заданной вероятности =0,95, устанавливается по распределению Стьюдента (см. табл. 10.) значение коэффициента доверия t=2,263.

Предельная ошибка малой выборки составит:

Следовательно, с вероятностью 0,95 можно утверждать, что во всей партии колбасы содержание поваренной соли находится в пределах:

, т.е. от 4,1% - 0,2%=3,9% до 4,1%+0,2%=4,3%.

 

Пример

Требуется построить 99%-ный доверительный интервал для оценки генерального среднего диаметра изделия по выборке из 10 деталей, обработанных на токарном автомате, если отклонения размеров этих деталей от середины поля допуска оказались следующими (табл.12):

Таблица 12.

№ деталей
Отклонение размеров, мк +2 +1 –2 +3 +2 +4 –2 +5 +3 +4

 

Выборочная средняя мк. Выборочная дисперсия равна 5,2:

. Средняя квадратическая ошибка выборки со­ставит 0,76 мк: мк.

При Р = 0,99 и числу степеней свободы k = 9 по таблице нахо­дим, что значение t равно 3,25. Тогда с вероятностью 0,99 можно предполагать, что ошибка выборочной средней будет не больше 2,47 мк (3,25 х 0,76), а допустимые значения параметра генеральной совокупности лежат в интервале от – 0,47 до +4,47 кг (2,0 ± 2,47).

4. Определение необходимой численности выборки. Перед непосредственным проведением выборочного наблюдения всегда решается вопрос, сколько единиц исследуемой совокупности необходимо отобрать для обследования. Численность выборкиможет быть определена в соответствии с положениям:

· вид предполагаемой выборки;

· способ отбора (повторный или бесповторный);

· выбор оцениваемого параметра (среднего значения признака или доли).

Кроме того, следует заранее определиться со значением дове­рительной вероятности, устраивающей потребителя информации, и с размером допустимой предельной ошибки выборки.

Эти задачи решаются на основе теорем П. Чебышева и А. Ляпунова. Величина предельной ошибки выборки для собственно случайной, механической выборки определяется следующим образом:

.

Отсюда:

Для собственно-случайной и механической выборки с бесповторным способом отбора необходимый объем выборки для средней количественного признака вычисляется по формуле

.

При определении по материалам выборки доли признака, а не средней его величины, объем выборочной совокупности опреде­лится по следующим формулам.

Для повторного отбора:

Для бесповторного отбора:

 

Величина , характеризующая дисперсию в генеральной совокупности, зачастую бывает неизвестна. В математической статистике доказано, что соотношение между генеральной и выборочной дисперсиями определяется равенством

.

Так как при достаточно больших – величина, близкая к единице, то можно принять, что . Поэтому на практике используют выборочную дисперсию в качестве оценки генеральной дисперсии. Заметим, что к началу проведения выборочного наблюдения показатели вариации неизвестны, поэтому определение необходимого объема выборки часто составляет серьезную проблему, связанную с определением показателя вариации изучаемого признака. Приблизительно показатель вариации определяют одним из следующих способов:

· берут из предыдущих исследований;

· если структура и условия развития достаточно стабильны, или же зная примерную величину средней, дисперсию находят из соотношения ;

· если известны и , то можно определить среднее квадратическое отклонение в соответствии с правилом «трех сигм»: , так как в нормальном распределении в размахе вариации укладывается . Если распределение заведомо асимметричное, то ;

при изучении альтернативного признака для случая, когда частость даже приблизительно неизвест­на, можно брать максимальную величину дисперсии доли, равную 0,25, т.е. . В этом случае имеем для повторного отбора, для бесповторного отбора;

· проводят «пробную» выборку, по которой рассчитывают показатель вариации, используемый в качестве оценки генеральной совокупности.

Поскольку генеральная дисперсия оценивается приближенно, величину объема выборки округляют в большую сторону как при повторной, так и при бесповторной выборке, поскольку всегда должен иметься некоторый «запас» числа обследованных единиц для обеспечения требуемой точности результатов.

Нередко на практике задается не величина абсолютной пре­дельной ошибки , а величина относительной погрешности , выраженная в процентах к средней:

, откуда .

Подставив величину , выраженную через относительную погрешность, в формулу для определения , получим следующее выражение для определения необходимого объема выборки:

Как известно, отношение представляет собой коэф­фициент вариации , откуда

При бесповторном отборе численность выборки рассчитывается по формуле

.

Если задана предельная ошибка выборки и объем выборки , то можно определить величину коэффициента , зная которую, по таб­лице можно определить вероятность .

Пример

Сколько турагентов нужно обследовать в турпредприятиях региона, чтобы получить характеристику среднего уров­ня оплаты труда этой категории работников в регионе? Известно, что разница между наивысшим и наи­меньшим уровнем оплаты труда турагентов в регионе составляет 300 тыс. руб.

Для нормального распределения в промежуток ± 3s включается 99,7% всех вариантов значений признака, а это означает применительно к рассматриваемой задаче, что 300 тыс. руб. примерно равно шести средним квадратическим отклонени­ям (300 » 6s). Поэтому примерная оценка среднего квадратического отклонения заработной платы в генеральной совокупности турагентов региона составит 50 тыс. руб. ( ). Для дальнейших расчетов достаточно, чтобы с вероятностью 0,954 пре­дельная ошибка выборки не превышала 10 тыс. руб. Тогда, зная, что s = 50 тыс. руб., a t = 2, и используя формулу (5.6) для определения необходимого объема выборки, получим: чел.

Таким образом, при заданных условиях нужно обследовать размер заработной платы у 100 турагентов региона.

Пример

Какого объема должна быть выборка из совокупности, включающей 8 000 молодых вкладчиков, чтобы с вероятностью 0,954 относительная предельная ошибка составила не более 1%, если известно, что коэффициент вариации признака для всей совокупности составляет 0,125, то есть 12,5%?

При V=12,5%, =1%, t=2 имеем чел.

Пример

Используя выборочный опрос определенной группы населения (N = 5 000), требуется определить долю семей, которые на данный момент не имеют импортного автомобиля. Предельная ошибка выборки должна быть не больше 0,01 с вероятностью 0,954. Можно предполагать, что доля в генеральной совокупности меньше 0,2. Каков должен быть объем выборки?

Имеем

домохозяйств.

Доля домохозяйств, не имеющих импортного автомобиля, составляет . Если в этом примере не учитывать объема совокупности, то расчеты приводят к бессмысленному результату:

.

Пример

В вы­борке объемом 1000 единиц доля бракованных изделий соста­вила 2%. Какова вероятность того, что во всей партии изделий (10 000 штук) доля бракованных изделий будет находиться в пре­делах от 1,5 до 2,5%?

Доверительная вероятность, которую требуется определить, является функцией t. Последняя находится из формулы предельной ошибки выборки , откуда . Величина предельной ошибки выборки может быть определена как разность между максимально допустимой генеральной долей (по условию она рав­на 2,5%) и долей бракованных изделий в выборке (по условию 2%).

Таким образом, = 0,5% (2,5% – 2,0%). Так как выборка – слу­чайная бесповторная, то величина средней ошибки выборки на­ходится по формуле

Находим величину коэффициента доверия: .

По таблицам интегральной функции Лапласа вероятность, соответствующая данной величине коэффи­циента t, равна 0,76595.

 

5. Способы распространения выборочных данных на генеральную совокупность.Выборочный метод чаще всего применяется для получения характеристик генеральной совокупности по соответствующим показателям выборки. В зависимости от целей исследований, используют два способа распространения выборочного наблюдения на генеральную совокупность: прямого пересчета показателей выборки для генеральной совокупности или посредством расчёта поправочных коэффициентов.

Способ прямого пересчётасостоит в том, что показатели выборочной доли или средней распространяется на генеральную совокупность с учётом ошибки выборки. При этом генеральная средняя определяется как , а генеральная доля – .

Так, в торговле определяется количество поступивших в партии товара нестандартных изделий. Для этого (с учётом принятой степени вероятности) показатели доли нестандартных изделий в выборке умножаются на численность изделий во всей партии товара.

Пример.

При выборочном обследовании партии нарезных батонов 2 000 ед. доля нестандартных изделий в выборке составляет: 0,1 (10 : 100) при установленной с вероятностью =0,954 предельной ошибке выборки .

На основе этих данных доля нестандартных изделий во всей партии составит: или от 0,04 до 0,16.

Способом прямого пересчёта можно определить пределы абсолютной численности нестандартных изделий во всей партии: минимальная численность — 2 000 : 0,04 = 80 шт.; максимальная численность — 2 000 : 0,16 = 320 шт.

Способ поправочных коэффициентовприменяется в случаях, когда целью выборочного метода является уточнение результатов сплошного наблюдения.

В статистической практике этот способ используется при уточнении данных ежегодных переписей скота, находящегося у населения. Для этого после обобщения данных сплошного учета практикуется 10%-ное выборочное обследование с определением так называемого “процента недоучета”.

Так, например, если в хозяйствах населения поселка по данным 10%-ной выборки было зарегистрировано 52 головы скота, а по данным сплошного учета в этом массиве значится 50 голов, то коэффициент недоучета составляет 4% [(2*50):100]. С учетом полученного коэффициента вносится поправка в общую численность скота, находящегося у населения данного поселка.

6. Статистическая проверка гипотез. Гипотеза – это научное предположение об особенностях явлений, которые их определяют, требующее проверки и доказательства.

Статистическая гипотеза – это определенное предположение, касающееся параметров или формы распределения генеральной совокупности, которое можно проверить, опираясь на результаты выборочного наблюдения. Суть проверки гипотез заключается в том, чтобы проверить, согласуются или нет результаты выборки с гипотезой, случайными или неслучайными являются расхождения между гипотезой и данными выборки.

Может быть выдвинута гипотеза о нормальном, биномиальном, распределении Пуассона и т.д.. Причиной частого обращения к нормальному распределению является то, что в этом типе распределения выражается закономерность, возникающая при взаимодействии множества случайных причин, когда ни одна из них не имеет преобладающего влияния. В социально-экономи­ческой статистике нормальное распределение встречается редко, но сравнение с ним важно для выяснения степени и характера отклонения от него фактического распределения. При проверке гипотез имеется возможность совершить ошибки двоякого рода:

а) ошибка первого рода– проверяемая гипотеза (её обычно называют нулевой гипотезой) является в действительности верной, но результаты проверки приводят к отказу от неё;

б) ошибка второго рода – проверяемая гипотеза в действительности является ошибочной, но результаты проверки приводят к её принятию.

Чаще всего гипотеза, которую необходимо проверить, формулируется как отсутствие расхождений между неизвестным параметром генеральной совокупности и заданной величиной (нулевая гипотеза), обозначается . Содержание гипотезы записывается после двоеточия, например .

Статистическим критерием называется правило, согласно которому нулевая гипотеза принимается или отклоняется. Для каждого вида проверяемых гипотез разработаны специальные критерии, среди которых чаще всего используют - критерий нормального распределения и распределения Стьюдента, -критерий Фишера, распределения Пирсона («хи-квадрат») и другие.

Для построения статистического критерия, позволяющего проверить некоторую гипотезу, необходимо следующее:

1) Сформулировать проверяемую гипотезу . Наряду с проверяемой гипотезой формулируется также конкурирующая гипотеза (альтернативная);

2) выбрать уровень значимости , контролирующий допустимую вероятность ошибки первого рода;

3) определить область допустимых значений и так называемую критическую область;

4) принять то или иное решение на основе сравнения фактического и критического значений критерия.

Уровень значимости ( ) – это такое малое значение вероятности попадания критерия в критическую область при условии справедливости гипотезы, что появление этого события может расцениваться как следствие существенного расхождения выдвинутой гипотезы и результатов выборки. Обычно уровень значимости принимают равным 0,05 или 0,01.

Мощность критерия– это вероятность отклонения испытуемой нулевой гипотезы, когда правильною является альтернативная гипотеза. То есть мощностью критерия является вероятность того, что не будет допущена ошибка. Конечно, желательно иметь более мощный критерий, так как это обеспечит минимальную вероятность допущения ошибки второго рода.

Статистические критерии, используемые для проверки гипотез, бывают двух видов:

1) Параметрическими называю критерии, которые обосновываются на допущении: распределение случайной величины в совокупности подчиняется какому-либо известному закону (например, нормальному, биноминальному, Пуассона). К таким критериям относятся критерии .

2) Непараметрическими (порядковыми) называют критерии, использование которых не связано со знанием закона распределения случайной величины. Их можно использовать тогда, когда распределение значительно отличается от нормального. К таким критериям относятся критерий знаков Вилкоксона, Уайта, Манна-Уитни.

По сравнению с параметрическими тестами непараметри­ческое тестирование имеет следующие преимущества и не­достатки.

Преимущества:

1. Меньше предположений о генеральной совокупности. Наиболее важное из них то, что совокупность не должна быть нормально распределенной или приблизительно нормальной.

2. Методы непараметрического тестирования могут быть применены даже тогда, когда выборка очень мала.

3. Могут использоваться данные, представленные в любых шкалах измерения (номинальные, порядковые).

4. Простота вычислений, которые могут проводиться на мик­рокалькуляторе. Это прежде всего связано с малым числом на­блюдений, к которым применяются непараметрические тесты.

Недостатки:

1. Информа­ция о данных используется менее эффективно, и мощность тестов ниже, чем параметрических.

Непараметрическое тестирование больше зависит от статистических таблиц, если не используется специальный пакет прикладных программ.

Этапы работы по проверке статистической гипотезы:

1) оценка входной информации и описание статистической модели выборочной совокупности;

2) формирование нулевой и альтернативной гипотезы;

3) установление уровня значимости, с помощью которого контролируют ошибку первого рода;

4) выбор мощного критерия для проверки нулевой гипотезы (это даёт возможность контролировать появление ошибки второго рода);

5) вычисление по определённому алгоритму фактического значения критерия;

6) определение критической области и области согласия с нулевой гипотезой, то есть установление табличного значения критерия;

7) сравнение фактического и табличного значений критерия и формулирование выводов по результатам проверки нулевой гипотезы.

Число наблюдений, по которому строится эмпирическое распределение, невелико и представляет собой выборку из исследуемой генеральной совокупности. Эмпирические данные связаны со случайными ошибками, величина которых неизвестна. С увеличением числа наблюдений и одновременно с уменьшением величины интервала зигзаги полигона начинают сглаживаться и в пределе переходят к плавной кривой – кривой распределения.

Кривая распределения характеризует теоретическое распределение, то есть которое получилось бы при полном гашении всех случайных причин, затемняющих основную закономерность.

Исследование закономерности (формы) распределения включает:

· выяснение общего характера распределения;

· выравнивание эмпирического распределения, то есть на основании эмпирического распределения строится кривая с заданной формой;

· проверку соответствия найденного теоретического распределения эмпирическому.

Однородные совокупности характеризуются одновершинными распределениями. Многовершинность свидетельствует о неоднородности изучаемой совокупности. В этом случае необходима перегруппировка данных с целью выделения более однородных групп.

Выяснение общего характера распределения предполагает оценку степени однородности, а также вычисление показателей асимметрии и эксцесса.

Симметричнымназывается распределение, в котором частоты любых двух вариантов, равноотстоящих от центра распределения, равны между собой. Для симметричного распределения .

Для сравнительного анализа асимметрии нескольких распределений рассчитывается относительный показатель асимметрии:

.

Величина может быть положительной и отрицательной. Положительная величина указывает на наличие правосторонней асимметрии (правая ветвь относительно максимальной ординаты более вытянута, чем левая) (рис.1):

 

 

Рис.1. Мо<Ме<

Отрицательный знак показателя асимметрии свидетельствует о наличии левосторонней асимметрии (рис.2).

 

 

Рис.2. Мо>Ме>

 

 

Наиболее распространенным является показатель асимметрии, исчисляемый по формуле

,

где – центральный момент третьего порядка.

.

Применение этого показателя дает возможность определить не только степень асимметрии, но и наличие или отсутствие асимметрии в распределении признака в генеральной совокупности. Оценка осуществляется с помощью средней квадратической ошибки:

,

где n – число наблюдений.

Если >3, асимметрия существенна и распределение признака в генеральной совокупности не является симметричным. Если <3, асимметрия несущественна и ее наличие может объясняться влиянием случайных обстоятельств.

 

Критерием согласия называют критерий проверки гипотезы на ожидаемый закон неизвестного распределения в генеральной совокупности. Есть ряд критериев согласия: Пирсона, Колмогорова, Смирнова, Ястремского. Эти критерии дают возможность установить: согласуются или нет опытные распределения с теоретическими, а также насколько существенны расхождения между распределениями.

Одним из наиболее употребляемых критериев согласия является критерий К. Пирсона («Хи-квадрат»):

 

,

где - соответственно частоты эмпирического и теоретического распределения в - том интервале.

Чем больше разность между наблюдаемыми и теоретическими частотами, тем больше величина критерия Пирсона. Чтобы отличить существенные значения от значений, которые могут возникнуть в результате случайностей выборки, рассчитанное значение критерия сравнивается с табличным значением при соответствующем числе степеней свободы и заданном уровне значимости.

Определив значение критерия Пирсона по данным конкретной выборки, можно встретиться с такими вариантами:

1) , то есть попадает в критическую область. Это означает, что расхождение между эмпирическими и теоретическими частотами существенно и его нельзя объяснить случайными колебаниями выборочных данных. В таком случае гипотеза о близости эмпирического распределения к нормальному отвергается.

2) , то есть рассчитанный критерий не превышает максимально возможную величину расхождений эмпирических и теоретических частот, которая может возникнуть в силу случайных колебаний выборочных данных. В этом случае гипотеза о близости эмпирического распределения к нормальному не отвергается.

Табличное значение критерия Пирсона определяется при фиксированном уровне значимости и соответствующем числе степеней свободы.

Число степеней свободы = , где - число условий, которые предполагаются выполненными при вычислении теоретических частот, - число групп. Понятие числа степеней свободы связано с тем, что в статистических совокупностях приходится учитывать линейные связи, ограничивающие свободу изменения случайных величин. Например, при исчислении дисперсии в совокупности мы располагаем степенями свободы, так как любое значение признака мы можем определить, зная значений и среднюю арифметическую.

При расчете критерия Пирсона нужно соблюдать следующие условия:

1. Число наблюдений должно быть достаточно велико

2. Если теоретические частоты в некоторых интервалах меньше 5, то такие интервалы объединяют так, чтобы частоты были больше 5.

Пример

Требуется проверить соответствие распределения предприятий области по средней стоимости основных фондов нормальному закону распределения, используя критерий .

Следует проверить гипотезу о том, что выборка получена из нормально распределенной генеральной совокупности (в данной совокупности 30,3; 8,44).

Для ответа на вопрос составим вспомогательную таблицу 13.

Таблица 13

Группы строительных предприятий по объему выполненных подрядных работ, млн руб. Наблюдаемая частота     Округленные частоты
10–15 15–20 20–25 25–30 30–35 35–40 40–45 45–50 50–55 -2,41 -1,81 -1,22 -0,63 -0,04 0,56 1,15 1,74 2,33 -1,81 -1,22 -0,63 -0,04 0,56 1,15 1,74 2,33 2,93 -0,984 -0,930 -0,778 -0,471 -0,032 0,425 0,750 0,918 0,980 -0,930 -0,778 -0,471 -0,032 0,425 0,750 0,918 0,980 0,997 0,027 0,076 0,153 0,220 0,228 0,163 0,084 0,031 0,008 3,9 10,9 21,9 31,4 32,6 23,3 12,0 4,4 1,2
0,18 3,226 1,48 0,173 0,333
0,2
Итого - - -   - - - 5,512

 

Для первого интервала

; ,

, 143*0,027 = 3,9 4.

Число групп после объединения малочисленных составило 7. Критическое значение при 7 – 3 = 4 степенях свободы и значимости 0,05 составит 9,49. Значит, вероятность расхождения распределения с нормальным меньше 0,05 и вероятность соответствия его нормальному закону больше 0,95. при = 0,1 равна 7,78, что также больше фактического. Гипотеза о соответствии распределения данной совокупности нормальному закону не может быть отвергнута.

С помощью критерия можно проверить не только гипотезу о согласии эмпирического распределения с нормальным, но и с любым другим известным законом распределения, например распределением Пуассона. Это распределение встречается при рассмотрении маловероятных событий, имеющих место в большой серии независимых испытаний. Вероятность появления этих редких событий

,

где – среднее число появления события А в n одинаковых независимых испытаниях, то есть ; Р – вероятность события при одном испытании; е = 2,71828; m – частота данного события.

Например, для проведения внутреннего контроля качества оформления платежных требований в случайном порядке были выбраны 100 документов. Среднее количество ошибок составило . Требуется проверить, используя критерий , соответствие эмпирического распределения распределению Пуассона (табл. 14).

 

Таблица 14

Количество ошибок Число проверенных документов
0,6771 0,2641 0,0515 0,0067 0,0007 67,7 26,4 5,15 0,7 0,1 0,7859 0,4100 0,0043 8,1148 13,3877
Итого 1,0000 26,400

 

Значение = 26,4. Число степеней свободы df = 5 – 1 = 4. (Для распределения Пуассона: df = к – 1 – r, где r = 1 или r = 0, если оценка происходит по выборке.) Табличные значения ; . Так как , гипотеза о распределении Пуассона отклоняется.

Для оценки степени соответствия эмпирических и теоретических распределений по данному критерию используются специальные таблицы.

В случае отсутствия специальных таблиц, критерий «хи-квадрат» можно заменить критерием В.И.Романовского:

,

где – число степеней свободы.

Для нормального распределения, распределения Шарлье , где – число интервалов (групп).

Расхождение между эмпирическими и теоретическими частотами считаются случайными, если значение меньше трех.

Помимо данных критериев рассмотрим непараметрические критерии, актуальность исполь­зования которых непрерывно возрастает.

Критерий знаков Вилкоксона (случай одной выборки) приме­няется, когда в отношении генеральной совокупности может быть выдвинута гипотеза о медиане. Нулевая и альтернативная гипотезы могут быть представлены в таблице 15.

Таблица 15

Гипотеза Двусторонний тест Левосторонний тест Правосторонний тест
Нулевая гипотеза Н0 Альтернативная гипотеза Н1

 

– медиана в генеральной совокупности; – значение, которое проверяется.

Порядок расчета критерия Вилкоксона W:

1. Для всех наблюдаемых величин рассчитываются разнос­ти .

2. Исключаются наблюдения, для которых , остальные значения ранжируются так, что наименьшему значе­нию присваивается ранг 1. В случае появления связанных рангов они рассчитываются как средние из соответствующей суммы мест.

3. Для наблюдений, у которых , ранги записываются в особую колонку .

4. Рассчитывается критерий W как сумма значений колонки , то есть W = .

5. Для различных уровней значимости даются верхнее и нижнее значения на заданном п (где п – число наблюдений, для которых ).

Область от­клонения Н0 может быть либо с одной, либо с двух сторон в зависимости от того, какая нулевая гипотеза испытывается. В случае отсутствия специальных таблиц W-статистики может быть использовано стандартное нормальное распределение, то есть Z-статистика с учетом п.

Пример

Требуется, используя критерий знаков Вилкоксона, решить вопрос о значимости превышения значения медианы прибыли в исследуемой совокупности фирм, занимающихся сделками с недвижимостью, нулевого значения (5%-й уровень значимости). Нулевая и альтернативная гипотезы будут записаны так: Но : m < 0; Н1 : m > 0.

Таблица 16

 

Расчет критерия Вилкоксона

 

Фирма Наблюдаемые значения (прибыль как процент от продаж) Ранг
-5 -5 9,5 9,5 9,5 15,5 9,5 2,0 15,5 9,5 13,5 13,5 9,5 9,5 9,5 9,5 15,5 9,5 2,0 15,5 9,5 13,5 - 9,5     13,5
Итого - - - - 139,5 13,5

 

Для фирм с ранги вынесены в отдельную графу R+. Сумма значений в этой графе дает статистику Вилкоксона: W= 139,5. (Графа R– не участвует в анализе, но рассчитывается, чтобы избежать ошибок.)

Критическое значение критерия W может быть найдено из таблиц.

Для 17 ненулевых разностей и = 0,05 нижнее критическое значение W = 42, верхнее – 111. Фактическое значение = 139,5 не находится в интервале табличных значений. Следовательно, нулевая гипотеза может быть отвергнута на 5%-ном уровне значимости.

Критерий знаков Вилкоксона для сравнения двух выборок может быть применен как непараметрический критерий решения задачи, для которой ранее использовался параметрический t-критерий. Характеристики одной совокупности обозначаются x1, а дру­гой y1. Методика расчета аналогична применению критерия к одной выборке.

Пример

Каждому члену аналитической группы из 17 человек показали две рекламы. Испытуемые оценили творческий уровень каждой из рекламы в баллах от 1 до 5. Оценить творческий уровень каждой из реклам на 5%-ном уровне значимости.

Поскольку заранее неизвестно, какая из реклам имеет более высокий творческий уровень, нулевая и альтернативная гипотезы формулируются следующим образом.

Н0: , то есть медиана величины в генеральной совокупности равна нулю (творческие уровни рекламы одинаковы);

Н1: , то есть медиана величины в генеральной совокупности не равна нулю.

В столбце рассчитаны разности для каждой пары наблюдений. Эти разности, взятые по абсолютной величине, проранжированы. Ранг 1 присвоен минимальному значению . Ранги положительных разностей показаны в графе R+ . Сумма рангов положительных разностей дает кри­терий Вилкоксона W = = 21,5. По данным расчетной таблицы, для 13 ненулевых значений разностей (п = 13) и = 0,05 кри­тические значения критерия Вилкоксона – нижнее и верхнее равны 18 и 73 соответственно (см. приложение 3). Наблюдаемое значение W = 21,5 попадает в эти пределы, следовательно, нулевая ги­потеза принимается. Вывод: сравниваемые рекламные про­дукты имеют одинаковый творческий уровень.

Таблица 17

Номер испытуемого Творческий уровень, баллов Ранг R+ R–
Реклама 1 Реклама 2
–2 –3 –1 –2 –1 –2 –1 –1 –3 9,5 9,5 – – 12,5 – 9,5 9,5 – 12,5 9,5             9,5   12,5   9,5   9,5     12,5
Итого 21,5 69,5
                 

Критерий суммы рангов Вилкоксонадля сравнения двух независимых выборок эквивалентен тесту Манна – Уитни. Иногда его называют двухвыборочным критерием Вилкоксона. Предполагается, что выборки различаются по объему. Нулевая гипотеза может формулироваться как двусторонняя либо как односторонняя (табл. 18).

Таблица 18

Гипотеза Двусторонний тест Левосторонний тест Правосторонний тест
Нулевая гипотеза Н0 Альтернативная гипотеза Н1

– медианы генеральных совокупностей.

Меньшая выборка обычно обозначается номером 1. Если обе выборки равного размера, то номером 1 обозначается лю­бая из них. Затем обе выборки объединяются и данные ран­жируются в порядке возрастания, как если бы это была еди­ная выборка. Наименьшее значение получает ранг 1, следую­щее – ранг 2 и т. д. Если значения совпадают, им присваива­ются связанные ранги, которые определяются как средние из соответствующих порядковых номеров. Ранги для данных вы­борки 1 записываются в графу , ранги для данных из вы­борки 2 записываются в графу R2. Наблюдаемое (фактическое) значение критерия Вилкоксона рассчитывается по формуле W = .

Пример.Фирме предъявлен иск о дискриминации сотрудников по признаку пола. Требуется, используя представленные данные о заработной плате (табл. 19), определить на 5%-ном уровне значимости, имеют ли оба распределения одинаковую медиану.

Таблица 19

Данные о дискриминации сотрудников по полу

    Месячная заработная плата, тыс руб.
 
Женщины 11,2 10,5 8,3 10,2 14,4 8,5 5,0        
7,5       = 43,5
Мужчины 9,1 18,3 14,1 21,9 10,5 13,8 14,6 8,6 13,4 10,6  
7,5

 

Поскольку нет оснований полагать, что месячная заработная плата у одной группы сотрудников больше, чем для дру­гой, нулевая и альтернативная гипотезы формулируются как двусторонние:

Н0: ,

Н1: ,