Отбор факторов-аргументов

Осн.задача, стоящая при выборе фак-ров, включаемых в корреляционную модель, закл.в том, чтобы ввести в анализ все осн.фак-ры, влияющие на уровень изучаемого явл-я, а колеблемость этих фак-ров объясняла подавляющую часть колеблемости рез-тативного признака. Однако введение в модель большого числа фак-ров нецелесообразно, правильнее отобрать только сравнительно небольшое число осн.фак-ров, нахо­дящихся предположительно в корреляционной связи с выбранным функциональным показ-лем.

Чрезмерное увел-е числа фак-ров может не прояснить, а, наоб., затушевать картину множественных связей. Непосредст­венный отбор фак-ров-аргументов для включения их в корреляци­оную модель должен осуществляться на основе качественного теоретико-эк-кого анализа, исходя из целей и задач иссле­д-я. Наряду с фак-рами в анализ необ­х.вводить и так наз.глубинные фак-ры, действую­щие опосредованно. При помощи априорного теоретического ана­лиза, часто нельзя выявить не только меру, но даже направление влияния того или иного фак-ра для изучаемых эк-ких по­каз-лей. Нпр., показ-ли структуры затрат.

Качественный теоретич.анализ при 1ом приближении не позволяет ответить на вопр.о существенности влияния ото­бранных фак-ров. Поэт.в практике корреляционного анализа широкое распространение получил так наз.двухстадийный отбор. В соотв.с ним в модель вкл-ся все предвари­тельно отобранные фак-ры. Затем среди них, на основе специаль­ной количественной оценки и дополнительно кач-ного ана­лиза выявляются несущественно влияющие фак-ры, кот.по­степенно отбрасываются пока не останутся те, относительно кото­рых можно утверждать, что имеющийся стат.материал согласуется с гипотезой об их совместном существенном влиянии на зависимую переменную при выбранной форме связи.

Своё наиболее законченное, выражение двухстадийный отбор получил в методике так наз.многошагового регрессионно­го анализа, при кот.отсев несущественных фак-ров происх.на основе показ-лей их значимости, в частности, на основе величины taj - расчетном значении критерия Стьюдента.

При предварительном отборе фак-ров, включаемых в анализ, к ним предъявляются специфич.требования. Прежде всего, показа сети, выражающие эти фак-ры должны быть колич-но измеримы. В некот.случаях, используя соврем.матем.аппарат, можно учесть и кач-ные показ-ли. Одна­ко такой учет требует доп.процедур формализации этих показ-лей.

Фак-ры, вкл-мые в модель, не должны находиться м/у собой и функциональной или близкой к ней связи. Наличие таких связей носит название мультиколлинеарности. Мультиколлинеарность свидет-ет о том, что некот.фак-ры характеризуют одну и ту же сторону изучаемого явления. Поэт.их одновременноевключение в модель нецелесообразно, т.к.они в определенной степени дублируют др.друга. Если нет особых предположений, говорящих в пользу одного из этих фак-ров, следует от­давать предпочтение тому из них, кот.хар-ется боль­шим коэфф-том парной (или частной) корреляции или вносит в ур-е регрессии наибольший вклад, т.е.дает меньшую остаточную дисперсию.

Использ-е для отбора включаемых в модель фак-ров ко­эфф-тов парной корреляции оправдано тем, что они служат фактически концентрированным выражением влияния на изучае­мый показ-ль всей функциональной связанной группы фак-ров. С этой т.зрения коэфф-т парной корреляции более пред­почтителен, чем коэфф-т частной корреляции. С др.сто­роны, мультиколлинеарность приводит к весьма нежелательным последствиям. В этом случае матрица системы нормальных ур-ний оказывается плохо обусловленной, что ведёт за собой невоз­м-ть получения (или неустойчивость) рез-татов реш-я.

Выбор фак-ров, включаемых в модель, зачастую предопреде­ляется возм-тью получ-я исходной статистической инф-ции. По многим важным для анализа хоз.деят-ти фак-рам в годовых отчётах предприятий нет соответствующих данных, и их получают в рез-тате спец.обследований.

Выбор формы связи

Определ-е формы связи изучаемого эк-кого показ-ля с выбранными фак-рами-аргументами, т.е. спецификация - один из наиболее сложных и ответственных этапов корреляционно­го анализа.

От правильности выбора зависит, наск-ко построенная мо­дель будет адекватна изучаемому явл-ю, а это в значительной степени предопределяет практическую ценность по­лучаемых рез-татов. Запас кривых для выравнивания стат.данных бесконечно разнообразен. Для выбора той из них, ко­т.наиболее адекватна не только имеющемуся эмпирическому материалу, но и истинному отнош-ю завис-ти м/у изу­чаемым эк-ким показ-лем и обуславливающими его фак­-рами, исходят из соображений логич., графич.и ста­тистич. хар-ра.

Как и при отборе фак-ров-аргументов, решающая роль при­надлежит (логическому) теоретич.обоснов-ю формы зави­с-ти. Существенную помощь при выборе формы связи, особенно при парной корреляции, оказыв.графич.анализ м/у ф-ци­ей и ее предполагаемыми аргументами. О типе теоретич.кри­вой в этом случае судят по внешнему виду эмпирического графика регрессии, устраняя мысленно те зигзаги, кот.можно предпо­ложить случайными.

С увел-ем числа фак-ров-аргументов надежность этого метода существенно сниж-ся, тем не менее, графич.анализ завис-ти м/у ф-цией и каждым ее аргументом в отдельно­сти мож.оказать помощь при определении формы множественной связи. Нпр., если все парные связи имеют линейный характер, то большая вероятность того, что в кач-ве формы связи мож.быть применена линейная форма ур-я множеств.регрес­сии.

Зачастую при выборе формы связи целесообразно исп.уже известные модели, описывающие процессы, аналогичные ис­следуемому. Однако ни один из этих способов не позволяет одно­значно выбрать ф-цию, наилучшим образом описывающую изу­чаемое явл-е. Поэт.на практике приходится определять ис­комый вид связи эмпирическим путем сравнения ряда моделей и выбора наилучшей из них с т.зрения принятого критерия срав­нения.

При прочих равных усл-ях предпочтение отдается модели, зависящей от меньшего числа парам-ров. Изучаемая совок-ть должна обладать достаточно большим числом степеней свободы вариации, определяемым соотнош-ем м/у численностью этой совок-ти и числом парам-ров ур-я множеств.рег­рессии.

В крайнем вырожденном случае, когда число парам-ров ур-я регрессии = числу наблюдений или сравнимо с ним, да­же если все критерии адекватности принимают свои предельные знач-я, а нормированная ошибка = нулю, полученная модель не имеет практического смысла.

Во всех остальных случаях высокий коэфф-т множеств.корреляции и соответствующий ему коэфф-т детермина­ции свидет-ют не только о том, что в окончательно отобранную модель включены все осн.фак-ры, но также о справед­ливости гипотезы о линейной форме связи.

Если выбранная линейная форма связи сильно искажает дейст­вительный нелинейный хар-тер завис-ти, то величина коэф­ф-та множеств.корреляции, вычисленная через парам-­ры ур-я регрессии будет значительно ниже индекса множе­ств.корреляции, определяемого через отнош-е дисперсии. В том случае, если полученная в рез-тате реш-я линейная мо­дель оказывается неадекватной, с т.зрения F-критерия Фишера или других критериев целесообразно переходить к параболической кривой, добавляя в ур-е значения неизвестных в квадрате и парные их произведения:

у = а0 + ах1 +а-х2

у = а0 + а1х1 + а2х2 + а3х21 + а4х22 + а5х1х2

Действуя, таким обр., и повышая порядок ур-я, можно подобрать модель, соотв-щую любому статистич.ма­териалу. Однако практическая ценность такой модели будет резко снижаться по мере увел-я числа ее парам-ров.

Счит-ся, что число наблюдений должно быть > числа парам-ров ур-я регрессии, по крайней мере, в 6-7 раз.

Поэт., если дальнейшее повыш-е степени полиномов на­талкивается на эту границу, следует расс.др.нели­нейные модели, нпр., модели мультипликативного типа:

y=Axa11*xa22…xapp

Данную завис-ть простым логарифмированием можно све­сти к завис-ти аддитивного типа:

ln у = ln А + а1 ln x1 + а 2 ln x2

Тем или иным способом найденную модель можно упростить, отсеяв статистически незначимые или, так наз.лишние фак-ры, кот.незначительно влияют на целевую ф-цию, и, в то же время, сильно коррелируют с остальными фак-рами. Для от­сева статистически незначимых фак-ров все включенные в модель фак-ры следует проранжировать по величине их значимости, т.е. по величине коэфф-та tai. Фактор, для кот.tai имеет наименьшее знач-е, признает­ся незначимым. После этого заново решается новая модель, зави­сящая от (р-1) фак-ра, и вся процедура повторяется. Этот процесс продолжается до тех пор, пока оставшиеся в модели фак-ры не окажутся статистически значимыми.

Эта процедура - метод многошагового регрессионного анализа. Его недостаток - чисто формальный характер процедуры, по при­чине которого из модели мог.быть исключены наиболее сущест­венные фак-ры. Для преодоления этого недостатка необх.использ.для ранжирования фак-ров, наряду с показ-лем t,j, более содержательный критерий. Одним из таких критериев мож.быть показ-ль суммы рангов.

Этот показ-ль вычисляется по рез-татам анкетного опроса широкого круга спец-тов. Каждому специалисту предлагается заполнить анкету, в кот.перечисляются фак-ры, отобранные для корреляционного анализа изучаемого показ-ля. Опрашивае­мый должен проранжировать эти фак-ры по степени их важности, при этом фак-ру, оказывающему наибольшее влияние на данный показ-ль, присваивается ранг 1 и т. д.

На основании данных анкетного опроса составляется сводная анкета, т.н. матрица рангов. Наименьшую сумму рангов будет иметь фактор, кот., с т.зрения экспертов, оказывает в среднем наибольшее влияние на изучаемый показ-ль. Соответственно наибольшую сумму ран­гов имеет фактор, оказывающий в среднем наименьшее влияние.

В отличие от показателей t-критерия Стьюдента, коэфф-­тов парной и частной корреляции, показ-ль суммы рангов не за­висит ни от объема и характера выборки, ни от вида модели, ни от числа включенных в нее фак-ров. Это делает данные показ-ли не только наиболее содержательными, но и наиболее объективны­ми показ-лями сравнительной сущности фак-ров.

Несущественные фак-ры следует исключить из модели, с уче­том величины t-критерия Стьюдента и коэфф-та, определяе­мого суммой рангов. Исключение из модели некоторых фак-ров не означает полно­го исключения их влияния. В той или иной степени (в меру своей связи с фак-рами, оставшимися в модели) они продолжают влиять на целевую ф-цию, но не явно.

Получаемая в рез-тате описываемого процесса конечная мо­дель не явл.единственно возможной. Можно получить не­ск-ко моделей с несущественно отличающимися коэфф-та­ми множеств.корреляции или показателями относительной ошибки. Окончат.выбор той или иной модели зависит от опыта исследователя и назначения модели.

 

 

Отбор исходных данных.

Отбор исх.данных для корреляционного анализа необх.производить с определенной степенью осторожности, т.к.от кач-ва и кол-ва этих данных зависит ценность практических рез-татов. Отобранная для расчетов статистическая совок-ть должна быть одновременно и достаточно мощной по объему и дос­таточно однородной по своему составу.

С одной стор., надежность корреляционных формул непо­средственно завис.от кол-ва данных, использ.при рас­чете, т.к. случайные ошибки статистич.оценок определ-ся не только величиной их колеблемости, но и размером совок-ти. Нпр., ср.квадратическая ошибка коэфф-та мно­жеств.корреляции: si=(1-R2)/(n-p-1)1/2, где п – кол-во наблюдений; р - число фак-ров; R – коэфф-т множеств.корреляции; R2 – коэфф-т множеств.детерм-ции.

С др.стороны, включение в расчет дополнительных дан­ных мож.нарушить однородность изучаемой совок-ти, что, в свою очередь, лишает получаемые статистические показ-ли ре­ального эк-кого смысла. Поэт.исходный статистиче­ский материал должен тщательно проверяться на однородность со­става.

Нпр., нецелесообразно объединять в одну совок-ть предприятия существенно различных отраслей. Из анализа следует исключить предприятия, резко отличающиеся по своим осн.показ-лям от всей массы предприятий рассматриваемой отрасли.

При отборе исх.данных для корреляц.анализа хо­з.деят-ти предприятий той или иной отрасли воз­можно 2 принципиально разл.подхода: 1)сравнение работы предприятий в рассматриваемой отрасли за какой-то один период времени (год); 2)сравнение работы предприятий этой отрасли за неск-ко смежных лет.

В 1ом случае получаем так наз.пространственную выборку - выборку по множеству. Построенная на ее основе мо­дель будет иметь статический хар-тер.

Во 2ом случае применяется так наз.метод «заводо-лет». Сущность его закл.в том, что данные разл.лет объединяются в единую совок-ть. Это значительно увел-ет объем наблюдения. Однако каждый завод фигурирует в получаемой таким обр.совок-ти несколько раз, и м/у его показ-лями, относящимися к разным годам, следует ожидать определенной корреляции. Таким обр., исходный статистич.материал не предст.собой совок-ти независимых испытаний, что лежит в оспине применения теории корреляции. Это неск-ко снижает дополнительный усредняющий эффект, возн-щий в рез-тате увел-я объема совок-ти, но не мож.устранить его полностью, т.к. эк-кие показ-ли ко­леблются не только от предприятия к предприятию, но и от года к году внутри каждого предприятия. Достоинство этого подхода - модель, построенная на основе такой выборки, будет иметь оп­ределенный динамический хар-тер, т.к. в ней фактически учиты­ваются изм-я эк-ких показ-лей во времени. Осн.источник получения необх.исх.данных - официальная статистическая отчетность.

Для корреляц.анализа хоз.деят-ти ос­новным видом отчетности явл.годовые бухг.отчеты предприятий, а также разрабатываемые и издаваемые на базе этих отчетов ежегодные сборники технико-эк-ких показ-лей работы предприятий соотв-щей отрасли. Однако зачастую ни сами годовые отчеты, ни издаваемые сборники не содержат многих необходимых для корреляционного анализа показ-лей, кот.приходится рассчитывать дополнительно на базе имею­щейся в отчетах и сборниках инф-ции.

Кр.того, не сущ-ет методики оценки точности показ-лей в самих годовых отчетах. В отдельных случаях прибегают к спец.обследов-ям и опросам.