Основы статистического вывода

- некоторое утверждение об изучаемой генеральной совокупности на основании результатов изучения выборочной совокупности;

- некоторое утверждение о параметрах ГС на основании изучения выборочных статистик.

Все исследования делятся на 2 типа:

1) сплошные (изучаются все единицы генеральной совокупности) – перепись населения;

2) выборочные (изучается часть ГС).

Математическая статистика рассматривает не любые утверждения о генеральной совокупности, а лишь те, которые касаются числовых характеристик, таких как среднее, мода, медиана, показатель вариации, доли положительных значений признака.

Числовые характеристики, описывающие генеральную совокупность, - параметры генеральной совокупности. Числовые характеристики, описывающие выборку, - выборочные статистики. Каждой конкретной ВС соответствует конкретный параметр ГС. (1) Статистический Вывод основывается на понятии выборочного распределения – теоретическое частотное распределение, которое могло бы быть получено в результате осуществления очень большого (практически бесконечного) числа выборок.

Если мы имеем некоторую бесконечную ГС, мы можем выбрать из нее бесконечное число выборок определенного объёма, а именно n. В каждой выборке мы можем определить статистики, а имеено Х среднее. Из полученных Х средних мы можем составить вариационный ряд. И этот ВР определяется как выборочное распределение. Считается, что Среднее ВР, составленного из средних значений выборок и будет искомым параметром ГС. (2) В реальных исследованиях изучают 1 выборочную совокупность, вычисляют Х среднее и делают следующее предположение: параметр ГС находится где-то недалеко от значения статистики, а именно находится в некотором интервале с центром в Х среднее. Такое предположение можно сделать, опираясь на следствия из центральной предельной теоремы. Следствие из ЦПТ: если из Б ГС методом простого случайного отбора извлекакется бесконечное число выборок одного и того же объёма n, то выборочное среднее имеет НР (распределяются по нормальному закону) с параметрами. (3) Статистический вывод подразделяется на 3 основных вида:

1) точечное оценивание – приравнивание неизвестного параметра ГС к выборочной статистике. (4) Преимущество – простота. Недостаток – невозможность оценить вероятность случайной ошибки. Свойства:

- несмещенность – среднее выборочного распределения оценки равно величине параметра. Дисперсия является смещенной оценкой. Не совпадает с параметром.

- состоятельность – свойство оценки при увеличении объёма выборки приближаться к значению оцениваемого параметра. Дисперсия – смещенная состоятельная оценка неизвестного параметра

- эффективность – чем меньше дисперсия, тем меньше отличаются оценки, полученные в разных выборках, тем выше эффективность оценки.

Характеризуют качество оценки. Сфера применения ограничена;

2) интервальное оценивание – построение некоторого интервала, который параметр ГС попадает с заданной вероятностью. Вероятность, с которой параметр попадает в доверительный интервал, - доверительная вероятность. Задается исследователем и стандартно может быть равна следующим значениям: 90%, 95% либо 99%. 0,1%, 0,95%, 0,99%. Вероятность допустить случайную ошибку обозначается б и связана с ДВ формулой (6). 0,1; 0,05; 0,01. Строим интервал от -а до а, и утверждаем, что с вероятностью β параметр µ попадает в заданный интервал (формула!!!).

При построении ДИ необходимо знать значение квантилей -а и а.

 

Количественный признак: ---> – для расчёта ОВС на основе количественных признаков, при условии, что ГС бесконечна.

– признак, полученный из таблицы СНР. Для расчета объёма выборки n:

1) пользоваться значением дисперсии, полученным в предыдущем исследовании;

2) пользоваться справочной литературой, в которой описываются подобные исследования;

3) определить максимальное значение дисперсии по формуле: .

Δдоп – предельно допустимая ошибка выборки, которая назначается исследователем самостоятельно на этапе проектирования исследования.

Качественный признак: ---> – для расчёта ОВС на основе качественных признаков, при условии, что ГС бесконечна. --//-- +:

p – доля положительных значений признака для ГС. Как правило, неизвестна, поэтому при расчёте ОВС:

1) используют долю + значение признака предыдущего исследования;

2) используют справочную литературу;

3) используют максимальное значение. р(1-р) максимально тогда, когда р = 0,5.

3) проверка статистических гипотез.

N – объём ГС.