Расчет асимптотической нотны, рационального объема выборки и доверительных интервалов при оценивании математического ожидания и дисперсии

Пример 1.Оценивание математического ожидания.Пусть необходимо оценить математическое ожидание случайной величины с помощью обычной оценки - среднего арифметического результатов наблюдений:

Тогда Т.о., нотна полностью известна и не зависит от многомерной точки, в к-ой берется. Если каждый результат наблюдения известен с точностью до , то и среднее арифметическое известно с той же точностью. Ведь возможна систематическая ошибка - если к каждому результату наблюдению добавить , то и среднее арифметическое увеличится на .

Поскольку то в обозначениях предыдущего пункта

Следовательно, рациональный объем выборки равен:

Для практического использования полученной формулы надо оценить дисперсию результатов наблюдений. Можно доказать, что, поскольку мало, это можно сделать обычным способом, например, с помощью несмещенной выборочной оценки дисперсии:

Здесь и далее рассуждения часто идут на двух уровнях. Первый - это уровень "истинных" случайных величин, обозначаемых "х", описывающих реальность, но неизвестных эконометрику. Второй - уровень известных эконометрику величин "у", отличающихся погрешностями от истинных. Погрешности малы, поэтому функции от х отличаются от функций от у на некоторые бесконечно малые величины. Эти соображения и позволяют использовать s2(y) как оценку D(x1).

Итак, выборочной оценкой рационального объема выборки -

Уже на этом первом примере видно, что рациональный объем выборки находится не где-то вдали, а непосредственно рядом с теми объемами, с которыми имеет дело любой практически работающий эконометрик. Например, если статистик знает, что то nrat = 36. А именно такова погрешность контрольных шаблонов во многих технологических процессах!

Доверительный интервал для математического ожидания (для заданной доверительной вероятности ) имеет вид:

где - квантиль порядка (1+ )/2 стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1.

Пример 2. Оценивание дисперсии. Для статистики f(y) = s2(y), где s2(y) - выборочная дисперсия (несмещенная оценка теоретической дисперсии), имеем:

Можно показать, что нотна Nf(y) сходится к

по вероятности с точностью до , когда n→ ∞. Это же предельное соотношение верно и для нотны Nf(х), вычисленной для исходных данных. Т.о., в данном случае справедлива формула с константой C > 0,

Известно, что случайная величина - асимптотическая нормальная с мат.ожиданием 0 и дисперсией

Из сказанного вытекает, что в статистике интервальных данных асимптотический доверительный интервал для дисперсии (соответствующий доверительной вероятности ) имеет вид: где

где обозначает тот же самый квантиль стандартного нормального распределения, что и выше в случае оценивания мат.ожидания.

Рациональный объем выборки для дисперсии:

а выборочную оценку рационального объема выборки можно вычислить, заменяя теоретические моменты на соотв-щие выборочные и используя доступные эконометрику результаты наблюдений, содержащие погрешности.

Что можно сказать о численной величине рационального объема выборки? Как и в случае оценивания математического ожидания, она отнюдь не выходит за пределы обычно используемых объемов выборок. Так, если распределение результатов наблюдений является нормальным с мат.ожиданием 0 и дисперсией , то в результате вычисления моментов случайных величин в предыдущей формуле получаем, что Например, если то Это меньше, чем при оценивании мат.ожидания в предыдущем примере.

 

 

Кластеризация (кластер-анализ)

 

При кластеризации и группировке целью является выявление и выделение классов. Синонимы: построение классификации, распознавание образов без учителя, автоматическая классификация без учителя, таксономия и др. Задача кластер-анализа состоит в выяснении по эмпирическим данным, насколько элементы "группируются" или распадаются на изолированные "скопления", "кластеры" (от cluster (англ.) - гроздь, скопление). Иными словами, задача - выявление естественного разбиения на классы, свободного от субъективизма исследователя, а цель - выделение групп однородных объектов, сходных между собой, при резком отличии этих групп друг от друга.

 

Принципиальное различие между кластер-анализом и задачами группировки.

Если классы реальны, естественны, существуют на самом деле, четко отделены друг от друга, то любой алгоритм кластер-анализа их выделит. Следовательно, в качестве критерия естественности классификации следует рассматривать устойчивость относительно выбора алгоритма кластер-анализа.

Агломеративные иерархические алгоритмы ближнего соседа, дальнего соседа и средней связи основаны на использовании некоторой меры близости d(x,y) между объектами x и у.

Алгоритм средней связи: расстояние между объектами рассчитывается как средняя связь (отсюда и название алгоритма), т.е. как среднее арифметическое расстояний между парами объектов, один из которых входит в первый кластер, а другой - во второй.

Алгоритм ближайшего соседа: расстоянием между кластерами называется минимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой - во второй.

Алгоритм дальнего соседа: расстоянием между кластерами называется максимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой - во второй

Общий алгоритм (по шагам)

1. Каждый объект рассматривается как отдельный кластер.

2. На каждом следующем шаге объединяются две ближайших кластера.

3. В конце концов все объекты объединяются вместе, и результат работы алгоритма представляет собой дерево последовательных объединений (в терминах теории графов), или "Дендрограмму".

4. Из нее можно выделить кластеры разными способами. Один подход - исходя из заданного числа кластеров. Другой - из соображений предметной области. Третий - исходя из устойчивости (если разбиение долго не менялось при возрастании порога объединения - значит оно отражает реальность).