К 12-месячным цепным средним

Метод корригированных средних принимает во внимание и правильно учитывает влияние длительно действующих факторов только тогда, когда тенденция развития, вызванная влиянием этих факторов, прямолинейна. Однако тенденция в развитии явлений, может быть какой угодно.

По сравнению с методами обычных и корригированных средних данный метод имеет то преимущество, что позволяет учесть влияние длительно действующих факторов независимо от того, какова форма тенденции развития - прямолинейная или криволинейная.

Ход работы

1. Вычисляют 12-месячные цепные средние. Следует отметить, что при этом цепные осреднения не могут быть вычислены для первых шести месяцев первого года и за последние 5 месяцев последнего года. Усреднение на этом этапе работы проводится для устранения временно действующих и сезонно действующих причин. Следовательно в каждой из 12-месячной цепной средней осталось только влияние длительно действующих факторов.

2. Делят фактические данные каждого месяца отдельно на 12-месячные цепные средние и полученный результат умножают на 100. Это действие производится для исключения учета влияния временно действующих и сезонно действующих факторов. Следует напомнить, что фактические данные отражают на себе влияние как длительно действующих, так и временно и сезонно действующих причин, а 12-месячные цепные средние - влияние только длительно действующих причин. Следовательно принимая за основание деления 12-месячные цепные средние, исключают влияние временно и сезонно действующих причин.

3. Полученные таким образом результаты усредняют помесячно и получают 12 месячных средних. Это делается для устранения временно действующих случайных причин. Следовательно в полученных месячных средних осталось влияние только сезонно действующих причин.

4. Производят усреднение 12-месячных средних и получают общую среднюю. В этой средней устранено влияние сезонно действующих причин.

5. Находят индексы сезонных колебаний путем отношения каждой из месячных средних к общей средней, результат умножают на 100 для получения результатов в процентах.

Ошибки, допускаемые при количественной характеристике

Сезонных колебаний

1. Иногда, для того чтобы выразить сезонные колебания, пользуются месячными экстенсивными показателями. Для этого годовое число принимают за 100 %, а месячные числа распре-деляют в процентах по отношению к итогу. Этот метод мало чем отличается от метода, описанного под названием “Метод обычных средних”. Однако существуют два обстоятельства, дающих основание предпочитать метод обычных средних применению метода экстенсивных показателей. Во-первых, базой для сравнения месячных средних при пользовании методом обычных средних является среднегодовой уровень равный 100 %, а при методе экстенсивных показателей 8,33=10/12. Во-вторых, при помесячных процентных показателях не учитывается различная длина месяца. В-третьих, тогда, когда в развитии изучаемого явления сказывается наличие длительно действующих факторов, следует применять иные методы количественной характеристики сезонности (метод корригированных средних, метод отношений).

2. Недооценка фактора сезонности может привести к неправильным выводам. Например, было отмечено, что такой антропометрический признак как “вес” имеет более высокие значения осенью и зимой и более низкие весной и летом.

3. Наиболее подходящим способом графического изображения сезонных колебаний является построение круговой линейной диаграммы.

Кластерный анализ

Кластерный анализ является одним из базовых методов распознавания образов без обучения. Методами кластерного анализа решается задача разбиения (классификации, кластеризации) множества объектов таким образом, чтобы все объекты, принадлежащие одному кластеру (классу, группе) были более похожи друг на друга, чем на объекты других кластеров. В отечественной литературе синонимом термина "кластерный анализ" является термин "таксономия". В иностранной литературе под таксономией традиционно понимается классификация видов животных и растений.

Все рассмотренные далее методы могут быть использованы как для классификации объектов, так и для классификации признаков

Виды используемых в кластерном анализе мер сходства и различия перекликаются с философской дилеммой: "ищите сходство" или "ищите различие". Меры сходства для кластерного анализа могут бы" следующих видов:

Мера сходства типа расстояния (функции расстояния), называемая также мерой различия. В этом случае объекты считаются тем более похожими, чем меньше расстояние между ними, поэтому некоторые авторы называют меры сходства типа расстояния мерами различия.

Мера сходства типа корреляции, называемая связью, является мерой, определяющей похожесть объектов. В этом случае объекты считаются тем более похожими, чем больше связь между ними. Меры могут быть легко приведены к предыдущему типу, как показано ниже.

Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K средних).

Иерархическое дерево

Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.

В результате, связывается вместе всё большее и большее число объектов и объединяется все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе.

Меры расстояния

Объединение или метод древовидной кластеризации используется при формировании кластеров несходства или расстояния между объектами. Эти расстояния могут определяться в одномерном или многомерном пространстве.

Евклидово расстояние. Это, по-видимому, наиболее общий тип расстояния. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:

Евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом). Тем не менее, на расстояния могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния.

Квадрат евклидова расстояния. Иногда может возникнуть желание возвести в квадрат стандартное евклидово расстояние, чтобы придать большие веса более отдаленным друг от друга объектам. Это расстояние вычисляется следующим образом:

Расстояние городских кварталов (манхэттенское расстояние). Это расстояние является просто средним разностей по координатам. Для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:

Расстояние Чебышева. Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле: .

Степенное расстояние. Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния. Степенное расстояние вычисляется по формуле:

где r и p - параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.

Процент несогласия. Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле:

расстояние(x,y) = (Количество x<>y_i)/n_i