Ранговый дисперсионный анализ

Предположим, что проводится наблюдение, и с каждого объекта снимается несколько характеристик, и среди них есть некоторый непрерывный признак (Х), и есть некоторый фактор (Y), который может принимать всего несколько категоризованных значений (Y1…Yp). Отказывает ли фактор какое-либо влияние на признак? Например:1) Х- ежемесячные доходы, Y-уровень образования (низкий, средний, высокий). Вопрос: оказывает ли ур образования к-либо влияние на доходы? 2)Предположим, что Х – балл, который ребенок набрал на ЕГЭ по обществу, а Y – основной учебник,по которому он готовился. Y принимает 5 значений. Оказывает ли влияние книга на результат ЕГЭ?

Мы выдвигаем Н0, что фактор не оказывает влияния на признак, Н1 – влияет. Фактор принимает всего несколько значений, и по этим значениям мы выборку можем разбить на группы. По результатам разбиения можно построить таблицу:

  Y1 Y2 Yp
  X11 X12 X1p
 
  Xn11 Xn22 Xnpp
  ̅̅X1 ̅X2 ̅Xp

В 1м столбце выписаны значения признака Х для тех объектов, у которых значение фактора равно Y1, всего таких объектов n1. Во втором столбце – Х для тех объектов, у которых значение фактора равно Y2, всего таких объектов n2 и т.д. n1+n2+…+np=n – общий объем выборки. Пример: Для выявления влияния денежного стимулирования на производительность труда 6и однородным группам из 5ти человек каждая была предложена задача одинаковой трудности. Задача предлагалась каждому испытуемому. Группы отличались между собой величиной денежного вознаграждения за каждую решеную задачу. В табл приведено число задач, решенных каждой группой. Роль признака в этой задаче играет кол-во решенных задач, фактор – материальное вознаграждение за каждую решеную задачу.

В каждом столбце посчитаны средние значения (Х), если верна гипотиза, что фактор не влияет на признак, то средние значения Х д.б.приблизительно одинаковыми. Н0: а1=а2+…+ар, Н1: а1, а2,…,ар есть отличные. Где а1 – истинное среднее 1 группы, а2 – для 2ой группы и т.д. Если внутри каждого столбца данные распределены по нормальному закону, то для проверки гипотезы Н0 можно использовать дисперсионный анализ ANOVA (однофакторный дисперсионный анализ). Но данное предположение на практике не выполняется. Поэтому в таких ситуациях можно использовать ранговый дисперсионный анализ, он не требует, чтобы данные были распределены по нормальному закону. Он работает следующим образом: данные во всей таблице в совокупности ранжируются. Самое маленькое значение получает ранг 1, а дальше по возрастающей, если есть одинаковые значения, то они получают средний ранг. В каждом столбце находится сумма рангов и средний ранг. Если бы Н0 была бы верна, то средние ранги д.были быть приблизительно одинаковыми. Чтобы понять, насколько сильно они отличаются, в рассмотрение вводится величина: H=(12/(n*(n+1)*∑nj*(Rj-((n+1)/2)2)/1-(∑(Tj/n3-n) (j=1…p)

 

40. Формирование обобщенных показателей методом факторного анализа

Проводится анализ, и снимается большое кол-во показателей х1…хр. Большое кол-во показателей с одной стороны хорошо, т.к. мы получаем детальную информацию, с другой – при большом кол-ве сложно интерпретировать результаты анализа. При проведении различных социальных вопросов, человеку легче ответить на отдельные вопросы, чем на общие, например, если человека спросить, насколько он удовлетворен своей работой, то ответить сложно, а если спрашивать отдельные вопросы о з/п и т.д., то легче ответить. Когда мы будем интерпретировать полученные результаты, то останавливаться на каждом аспекте не стоит. Поэтому от большего кол-ва показателей переходят к меньшему q<<p, но так, чтобы при этом сохранялась основная статистическая информация, т.е. чтобы сохранилась информация о вариации каждого отдельного показателя х и о связях между показателями. В факторном анализе все наши показатели изначально нормируются так, чтобы среднее значение = 0, а стандартное отклонение = 1. Х1 (с чертой) – выборочное среднее по первому показателю, хр (с ч)- выборочное средние по последнему показателю, δ1 (дэльта) – выборочное среднее квадратное отклонение по 1му, δр – по последнему. Х1=(х1-х1(с ч))/δ1…хр=(хр-хр (с ч))/δр, S=1/(n-1)∑(xj-x(с ч)2) дисперсия. Новые показатели, кот мы ищем (f1…fq, q<<p) – общие факторы, их меньше. Чтобы их найти выписываем систему уравнений: {x1=a11f1+a12f2+…+apfq;…xp=ap1f1+ap2f2+…+apqfq (1). Т.е. мы хотим подобрать f1…fq так, чтобы наши исходные показатели через них воспроизводились. Интерпретация такая: считается, что в глубине явления находятся общие факторы, которые мы измерить не можем, но именно они объясняют значения наших показателей х1…хр. Сложность системы (1) заключается в том, что все величины, которые здесь участвуют нам не известны, мы можем измерить только показатели х1…хр, кот находятся в левой части. aij – коэф, кот не известны и называются они факторными нагрузками, но они имеют определенный смысл: если к-либо коэф а11 большой, он стоит при f1, то это значит, что f1 вносит большой вклад в формирование х1. Если просмотрим 1ый столбец коэф-в (а11, а12…ар) (записать в столбик), то мы поймем, в формировании каких коэф f1 вносит большой вклад. Aij м.б как положительными, так и отрицательными, если +, то вносят + вклад, если -, то наоборот. Понятие «большой» понимается по абсолютной величине, т.е. по модулю (|aij|). Если для каждого фактора fj отберем группу показателей ({xi,xj,xk}), на кот он сильно влияе, то мы сможем этот фактор проинтерпретировать через эти показатели. Остаются открытыми 2 вопр:1.как найти aij? 2. Чему равно q? Т.к. у нас исходные признаки х1…хр выражены через факторы, то в частности должен выражаться и разброс, и корреляция между показателями. Коэф aij подбираются так, чтобы наилучшим образом воспроизвести корреляц матрицу между показателями. Корр матрица: R=(r11…r1p;…;rp1…rpp); rij=cor(xi,xj), -1(отрицательная линейная связь)<=rij<=1(сильная положит линейн связь), если =0, то нет связи. Док-но, что, чтобы факторы f1…fq наилучшим образом воспроизводили корр матрицу, т.е. связи между исх показа-ми, их нужно выбирать по величине собственных чисел λ1… λq. Собственные числа считаются специальным образом. Самым мощным является f1, он вносит самый большой вклад в формирование всех показателей, ему соответствует λ1. Второй фактор выбирается никак не связанный с f1, он явл следующим по мощности, ему отвечает λ2 и т.д. λ1> λ2>…> λq. Коэф aij восстанавливаются по λ. С помощью λ также определяется, сколько нужно факторов, для этого есть несколько тестов. 1ый тест Кайзера: Кайзер считает, что нужно оставлять только те факторы, у которых λ>=1. 2ой тест накопленной значимости: берутся все собственные значения до р (λ1… λр), и сначала вычисляется (λ1/р)*100% - показывает, какой вклад вносит только 1ый фактор в восприятии информации об исх показ-ле. ((λ1+ λ2)/р)*100% - 1ый и 2ой, а потом 1ый, 2ой и 3й и т.д. ((λ1+ λ2+…+ λр)/р)*100% - последний равен 100%. Можно остановиться, когда накопленный вклад будет >=80%. 3й тест каменистой осыпи: рисуется график:

На графике находятся моменты, когда угол падения замедляется и с фиксированным кол-ом факторов. Иногда эти тесты не совпадают. Желательно, чтобы aij были такими, чтобы если мы для каждого фактора отберем множество показателей, на кот он оказывает сильное влияние, то желательно, чтобы эти множества не пересекались. Изначально это может не выполняться, но можно применить методы вращения, после кот не искажается принцип, по кот мы находим aij, но улучшается разбиение на группы. На практике принято считать, что fk вносит большой вклад в формирование показателя хj, если |aik|>0,7. На данный момент мы только проинтерпретировали f1…fq, но мы не умеем их считать. Для того, чтобы науч их считать система (1) разделяется так, чтобы наоборот f1…fq выражались через x1…xp. F1…fq имеют специфич значения для объектов, м.б. «+», - или нулевыми. Если для какого-то объекта значение фактора =0, то говорят, что дан объект имеет среднее значение дан фактора. Если значение фактора “-“, то дан фактор у данного объекта ниже среднего, если «+» - выше среднего. Если для каких-то стат данных мы построили общ факторы, то в дальнейшем мы можем следующие методы применять не к исход показателям, а к этим факторам.