Основные определения и формулы

ПЕРВИЧНАЯ ОБРАБОТКА ВЫБОРКИ И ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ

Под генеральной совокупностью с функцией распределения F(x) будем понимать гипотетическую совокупность всех возможных значений случайной величины . Вместо функции распределения F(x) может использоваться плотность распределения f(x), либо закон распределения , заданный в виде таблицы.

Набор n значений случайной величины, полученных в результате эксперимента, называется выборкой объема n из генеральной совокупности, а числа х1, х2, ..., хn – выборочными значениями случайной величины .

Выборке {х1, х2, ..., хn} поставим в соответствие случайную величину, принимающую эти значения с вероятностями 1/n:

и будем называть ее выборочным распределением.

Первичная обработка выборки включает следующие операции:

1) упорядочение по возрастаниюх1 < х2 < ... < хn, приводит исходные данные к выборке, которая называется вариационным рядом;

2) вычисление частоты ni элемента zi в том случае, когда z1, …, zk представляют разные (не равные между собой) числа в исходной выборке {х1, х2, ..., хn} так, что ni равно числу повторяющихся элементов, соответствующих zi (i = 1, …, k); полученная таким образом новая выборка {zi, ni} называется статистическим рядом;

3) вычисление относительной частоты i = ni/n и последовательных сумм 1+ 2 + …+ i, которые представляют накопленные частоты элемента zi.

Для получения статистического ряда {zi, ni} может использоваться и более общий механизм, когда zi представляет не просто равные элементы, а близкие в определенном смысле. Например, это могут быть элементы, попадающие в i-й полуинтервал вида [xi, xi+1).

Если функция распределения зависит то некоторого параметра , то есть F(x) = F(x, ), то можно рассмотреть задачу оценивания этого параметра по n значениям выборочных данных {х1, х2, ..., хn}. Функцию n от этих значений будем называть оценкой параметра.

Если в качестве оценок используются выборочные характеристики случайной величины, оценки называются точечными. Такими оценками являются:

§ выборочное среднее

,

для нахождения которого в Excel используется функция СРЗНАЧ (x1;x2;…,xn);

§ выборочная дисперсия

для нахождения которой в Excel используется функция ДИСП (x1; x2; …, xn).

Если для параметра можно указать некоторый интервал (1, 2), для которого

p (1 < < 2) = 1 – ,

где малое число, называемое уровнем значимости, то говорят об интервальных оценках. Интервал (1, 2) называется доверительным интервалом для параметра с доверительной вероятностью 1 – . В рассматриваемых упражнениях будем строить симметричные интервалы вида (1, 2) = (n - , n + ) для точечной оценки n параметра .

При известной дисперсии 2 нормальной генеральной совокупности значение для математического ожидания задается формулой

,

где z1-/2 вычисляется c помощью функции Excel НОРМСТОБР(вероятность).

Пример 1

В ходе исследования рецидивной преступности из документов были собраны данные о числе повторных судимостей двадцати случайно отобранных человек, имевших в прошлом одну или более судимостей. Число повторных судимостей приведено в таблице:

Задача:

· Провести первичную обработку рассматриваемых данных, построить график накопленных относительных частот и найти доверительный интервал с уровнем значимости = 0,05