Расчет асимптотической нотны, рационального объема выборки и доверительных интервалов при оценивании математического ожидания и дисперсии
Пример 1.Оценивание математического ожидания.Пусть необходимо оценить математическое ожидание случайной величины с помощью обычной оценки - среднего арифметического результатов наблюдений: 
Тогда
Т.о., нотна полностью известна и не зависит от многомерной точки, в к-ой берется. Если каждый результат наблюдения известен с точностью до
, то и среднее арифметическое известно с той же точностью. Ведь возможна систематическая ошибка - если к каждому результату наблюдению добавить
, то и среднее арифметическое увеличится на
.
Поскольку
то в обозначениях предыдущего пункта 
Следовательно, рациональный объем выборки равен: 
Для практического использования полученной формулы надо оценить дисперсию результатов наблюдений. Можно доказать, что, поскольку
мало, это можно сделать обычным способом, например, с помощью несмещенной выборочной оценки дисперсии: 
Здесь и далее рассуждения часто идут на двух уровнях. Первый - это уровень "истинных" случайных величин, обозначаемых "х", описывающих реальность, но неизвестных эконометрику. Второй - уровень известных эконометрику величин "у", отличающихся погрешностями от истинных. Погрешности малы, поэтому функции от х отличаются от функций от у на некоторые бесконечно малые величины. Эти соображения и позволяют использовать s2(y) как оценку D(x1).
Итак, выборочной оценкой рационального объема выборки - 
Уже на этом первом примере видно, что рациональный объем выборки находится не где-то вдали, а непосредственно рядом с теми объемами, с которыми имеет дело любой практически работающий эконометрик. Например, если статистик знает, что
то nrat = 36. А именно такова погрешность контрольных шаблонов во многих технологических процессах!
Доверительный интервал для математического ожидания (для заданной доверительной вероятности
) имеет вид: 
где
- квантиль порядка (1+
)/2 стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1.
Пример 2. Оценивание дисперсии. Для статистики f(y) = s2(y), где s2(y) - выборочная дисперсия (несмещенная оценка теоретической дисперсии), имеем: 
Можно показать, что нотна Nf(y) сходится к 
по вероятности с точностью до
, когда n→ ∞. Это же предельное соотношение верно и для нотны Nf(х), вычисленной для исходных данных. Т.о., в данном случае справедлива формула
с константой C > 0, 
Известно, что случайная величина
- асимптотическая нормальная с мат.ожиданием 0 и дисперсией 
Из сказанного вытекает, что в статистике интервальных данных асимптотический доверительный интервал для дисперсии
(соответствующий доверительной вероятности
) имеет вид:
где 
где
обозначает тот же самый квантиль стандартного нормального распределения, что и выше в случае оценивания мат.ожидания.
Рациональный объем выборки для дисперсии: 
а выборочную оценку рационального объема выборки
можно вычислить, заменяя теоретические моменты на соотв-щие выборочные и используя доступные эконометрику результаты наблюдений, содержащие погрешности.
Что можно сказать о численной величине рационального объема выборки? Как и в случае оценивания математического ожидания, она отнюдь не выходит за пределы обычно используемых объемов выборок. Так, если распределение результатов наблюдений
является нормальным с мат.ожиданием 0 и дисперсией
, то в результате вычисления моментов случайных величин в предыдущей формуле получаем, что
Например, если
то
Это меньше, чем при оценивании мат.ожидания в предыдущем примере.
Кластеризация (кластер-анализ)
При кластеризации и группировке целью является выявление и выделение классов. Синонимы: построение классификации, распознавание образов без учителя, автоматическая классификация без учителя, таксономия и др. Задача кластер-анализа состоит в выяснении по эмпирическим данным, насколько элементы "группируются" или распадаются на изолированные "скопления", "кластеры" (от cluster (англ.) - гроздь, скопление). Иными словами, задача - выявление естественного разбиения на классы, свободного от субъективизма исследователя, а цель - выделение групп однородных объектов, сходных между собой, при резком отличии этих групп друг от друга.
Принципиальное различие между кластер-анализом и задачами группировки.
Если классы реальны, естественны, существуют на самом деле, четко отделены друг от друга, то любой алгоритм кластер-анализа их выделит. Следовательно, в качестве критерия естественности классификации следует рассматривать устойчивость относительно выбора алгоритма кластер-анализа.
Агломеративные иерархические алгоритмы ближнего соседа, дальнего соседа и средней связи основаны на использовании некоторой меры близости d(x,y) между объектами x и у.
Алгоритм средней связи: расстояние между объектами рассчитывается как средняя связь (отсюда и название алгоритма), т.е. как среднее арифметическое расстояний между парами объектов, один из которых входит в первый кластер, а другой - во второй.
Алгоритм ближайшего соседа: расстоянием между кластерами называется минимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой - во второй.
Алгоритм дальнего соседа: расстоянием между кластерами называется максимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой - во второй
Общий алгоритм (по шагам)
1. Каждый объект рассматривается как отдельный кластер.
2. На каждом следующем шаге объединяются две ближайших кластера.
3. В конце концов все объекты объединяются вместе, и результат работы алгоритма представляет собой дерево последовательных объединений (в терминах теории графов), или "Дендрограмму".
4. Из нее можно выделить кластеры разными способами. Один подход - исходя из заданного числа кластеров. Другой - из соображений предметной области. Третий - исходя из устойчивости (если разбиение долго не менялось при возрастании порога объединения - значит оно отражает реальность).