Непараметрические показатели связи
В статистической практике могут встречаться такие случаи, когда качества факторных и результативных признаков не могут быть выражены численно. Поэтому для измерения тесноты зависимости необходимо использовать другие показатели. Для этих целей используются так называемые непараметрические методы.
Наибольшее распространение имеют ранговые коэффициенты корреляции, в основу которых положен принцип нумерации значений статистического ряда. При использовании коэффициентов корреляции рангов коррелируются не сами значения показателей х и у, а только номера их мест, которые они занимают в каждом ряду значений. В этом случае номер каждой отдельной единицы будет её рангом. Если значения признака совпадают, то определяется средний ранг путём деления суммы рангов на число значений.
Коэффициенты корреляции, основанные на использовании ранжированного метода, были предложены К. Спирменом и М. Кендэлом.
Коэффициент корреляции рангов Спирмена (р) основан на рассмотрении разности рангов значений результативного и факторного признаков и может быть рассчитан по формуле:
, (3.96)
где , т.е. разность рангов каждой пары значений х и у,
п – число наблюдений.
Коэффициент колеблется от -1 до +1. Если ранги по обоим признакам совпадают, то ∑d² = 0, р = 1 и, следовательно, связь полная прямая. Если р = - 1, связь полная обратная, при р = 0 связь между признаками отсутствует.
Значимость коэффициента Спирмена проверяется на основе t критерия Стьюдента по формуле:
, (3.97)
Значение коэффициента считается существенным, если (
).
Ранговый коэффициент корреляции Кендалла ( ) можно определить по формуле:
, (3.98)
где S = P + Q.
Этот коэффициент измеряется в интервале от -1 до 1 и интерпретируется так же, как и коэффициент Пирсона, но он даёт более строгую оценку связи, чем коэффициент Спирмена . Это соотношение выполняется при брльшом числе наблюдений, n>30. и слабых, либо умеренно тесных связях.
К непараметрическим методам исследования можно отнести коэффициент ассоциации Кас и коэффициент контингенции Ккон , которые используются, если, например, необходимо исследовать тесноту зависимости между качественными признаками, каждый из которых представлен в виде альтернативных признаков.
Для определения этих коэффициентов создается расчётная таблица (таблица «четырех полей»), где статистическое сказуемое схематически представлено в следующем виде:
Признаки | А (да) | А (нет) | Итого |
В (да) | а | b | a + b |
В (нет) | с | d | c + d |
Итого | а + с | b + d | n |
Здесь а, b, c, d - частоты взаимного сочетания (комбинации) двух альтернативных признаков ; n - общая сумма частот.
Коэффициент ассоциации можно рассчитать по формуле:
,(3.99)
Коэффициент контингенции рассчитывается по формуле:
,(4.0)
Нужно иметь в виду, что для одних и тех же данных коэффициент контингенции (изменяется от -1 до +1) всегда меньше коэффициента ассоциации.
Связь считается подтверждённой, если или
Если необходимо оценить тесноту связи между альтернативными признаками, которые могут принимать любое число вариантов значений, применяется коэффициент взаимной сопряженности Пирсона (КП ) и Чупрова ( ).
Для исследования такого рода связи первичную статистическую информацию располагают в форме таблицы:
Признаки | А | В | С | Итого |
D | m11 | m12 | m13 | ∑m1j |
E | m21 | m22 | m23 | ∑m2j |
F | m31 | m32 | m33 | ∑m3j |
Итого | ∑mj1 | ∑mj2 | ∑mj3 | П |
Здесь mij - частоты взаимного сочетания двух атрибутивных признаков; П - число пар наблюдений.
Коэффициент взаимной сопряженности Пирсона определяется по формуле:
, (4.1)
Коэффициент Чупрова определяется по формуле:
, (4.2)
где - показатель средней квадратической сопряженности, определяемый путём вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки:
-1
- число групп по каждому из признаков.
Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, колеблется в пределах от 0 до 1.
Коэффициент Фехнера характеризует элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объём исходной информации. Данный коэффициент определяется по формуле:
, (4.3)
где na - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической;
nb - соответственно количество несовпадений.
Коэффициент Фехнера может изменяться в пределах -1,0 до +1,0. при значении равном 1 он указывает на полную прямую связь, при значении -1 на полную обратную связь, при нулевом значении – на отсутствие связи.
Например, имеются данные о выпуске продукции (х) на 6 однотипных предприятиях и потреблении на них электроэнергии (у):
Выпуск продукции | ||||||
Потребление электричества |
Рассчитаем средние значения для х и у
Выпуск продукции | ||||||
Потребление электричества | ||||||
![]() | - 6 | - 4 | -1 | |||
![]() | - 9,83 | - 4,83 | - 0,83 | - 2,83 | 3,17 | 15,17 |
Судя по полученному значению коэффициента, связь можно считать достаточно сильной.
Недостаток показателя Фехнера состоит в том, что разные по абсолютной величине отклонения имеют одинаковый вес. Более совершенным показателем степени тесноты связи является линейный коэффициент корреляции.
Вопросы для самоконтроля
1. В чём состоит отличие между функциональной и корреляционной связью?
2. В чём заключается сущность корреляционно связи?
3. Какие основные задачи решают с помощью корреляционного и регрессионного анализа?
4. Какими показателями измеряется теснота корреляционной связи?
5. В чём состоит значение уравнения регрессии? Что характеризуют коэффициенты регрессии?
6. Какие непараматрические методы применяют для моделирования связи?
ГЛАССОРИЙ
Абсолютная величина в статистике - форма представления первичной информации в количественном выражении, характеризующая размеры (уровни, объемы) социально-экономических явлений и процессов.
Агрегатная форма индекса - отношение агрегатов, построенных для разных условий, где агрегат есть сумма произведений взвешивающего показателя на объемный.
Альтернативный признак - признак, принимающий только одно из двух возможных (противоположных) значений.
Атрибутивный признак - признак, не имеющий количественного выражения, являющийся чаще всего смысловым понятием.
Базисные показатели - показатели ряда динамики, рассчитанные на постоянной базе, когда каждый уровень ряда сравнивается с одним и тем же базисным уровнем.
Варианта- это отдельное значение варьируемого признака, которое он принимает в ряду распределения.
Вариация- колеблемость, изменение величины исследуемого признака у единиц одной совокупности, которое обусловлено перекрещивающимся влиянием действия на единицы совокупности различных факторов.
Веса- числа, в виде абсолютных величин или относительных величин, определяющие значимость (весомость, вес) того или иного варианта признака в данной статистической совокупности, используемые для вычисления обобщающих показателей -средних величин, индексов.
Выборочное наблюдение - вид наблюдения, при котором характеристика всей совокупности фактов дается по некоторой их части, отобранной в случайном порядке.
Выравнивание- это метод исследования динамических рядов, заключается в нахождении расчетных (теоретических) значений их показателей и замене ими фактических с целью выявления закономерностей развития процессов, отображаемых этими рядами.
Группировка- это разбиение совокупности на группы, однородные по какому-либо признаку или объединение отдельных единиц совокупности в группы, однородные по каким-либо признакам.
Группировочный признак - признак, по которому производится распределение единиц наблюдаемой совокупности на группы.
Динамика- движение (изменение размеров) явления во времени.
Динамический ряд - это последовательность упорядоченных во времени числовых показателей, характеризующих уровень развития изучаемого явления.
Дискретный признак - количественный признак, значения которого выражаются только целыми числами.
Дисперсия - мера вариации, измеряющая степень колеблемости признака, порождаемую всей совокупностью действующих на него факторов, определяется как средний квадрат отклонений вариантов (х) от средней арифметической.
Документальный способ наблюдения- использование в качестве источника статистической информации различного рода документов, как правило, учетного характера.
Единица наблюдения- составная часть объекта наблюдения, которая служит единицей счета и обладает признаками, подлежащими регистрации.
Единовременное обследование - сведения собираются о количественных характеристиках какого-либо явления или процесса в момент его исследования.
Измерение связи - количественная оценка степени (тесноты) статистической (корреляционной)связи между взаимосвязанными явлениями, их признаками.
Индекс- это относительная величина сравнения сложных совокупностей, показывающая во сколько раз уровень изучаемого явления в данных условиях (во времени или в пространстве) отличается от уровня того же явления в других условиях.
Интервал группировки - промежуток между максимальными и минимальными значениями признака в группе, величина интервала очерчивает количественные границы групп.
Интерполяция- это нахождение по ряду данных значений функции промежуточных ее значений, т.е. приближенное отражение сложившейся закономерности внутри определенного отрезка времени.
Классификация- это систематизированное распределение явлений и объектов на определенные группы, классы, разряды на основании их сходства и различия. Представляет собой узаконенную, общепринятую, нормативную группировку данных, основанную на самых существенных атрибутивных признаках изучаемых явлений.
Корреляционный анализ - измерение тесноты связи между варьирующими признаками, установление неизвестных причинных связей и оценка факторов, оказывающих наибольшее влияние на результативный признак.
Корреляция- термин, происходящий от английского correlation -соотношение, соответствие (взаимосвязь, взаимозависимость); состоит в том, что средняя величина одного из признаков изменяется в зависимости от значения другого.
Коэффициент- термин, применяемый в статистике для обозначения некоторых относительных величин в специальной области, особенно часто тех, которые исчисляются как отношение разноименных величин.
Критический момент (дата)- день года, час дня, по состоянию на который должна быть проведена регистрация признаков по каждой единице исследуемой совокупности.
Медиана- величина признака, которая делит упорядоченную последовательность его значений на две равные по численности части: одна часть имеет значения варьирующего признака меньшие, чем средний вариант, а другая - большие.
Мода- наиболее часто повторяющееся значение признака в совокупности.
Монографическое обследование - представляет собой детальное изучение и описание отдельных, характерных в каком-либо отношении единиц совокупности.
Непосредственноенаблюдение - регистраторы путем непосредственного замера, взвешивания, подсчета или проверки работы и так далее устанавливают факт, подлежащий регистрации, и на этой основе производят запись в формуляре наблюдения.
Несплошное наблюдение- обследованию подлежит лишь часть единиц изучаемой совокупности.
Объект наблюдения - совокупность социально-экономических явлений и процессов, которые подлежат исследованию.
Опрос- способ наблюдения, при котором наблюдаемые сведения получают со слов респондента
Основание- база сравнения, т.е. тот показатель, с которым происходит сравнение другого показателя.
Относительная величина в статистике - обобщающий показатель, который даст числовую меру соотношения двух сопоставляемых абсолютных величин.
Отчётная единица— субъект, от которого поступают данные о единице наблюдения.
Отчётность- организационная форма наблюдения, при которой единицы наблюдения предоставляют сведения о своей деятельности в виде формуляров установленного образца, подтвержденные подписью руководителя.
Ошибка наблюдения- расхождение между расчётным и действительным значениями изучаемых величин.
Ошибки репрезентативности - свойственны несплошному наблюдению, возникают в результате того, что отобранная для обследования часть совокупности, недостаточно полно отображает состав всей изучаемой совокупности.
Перепись- специально организованное наблюдение, повторяющееся, как правило, через равные промежутки времени, с целью получения Данных о численности, составе и состоянии объекта статистического наблюдения по ряду признаков.
Прогнозирование в экономике - перенесение на будущее закономерностей, действовавших в прошлом. Производится на основе математической или математико-экономической модели действительности, при построении которой используются материалы статистических наблюдений и зависимости между экономическими факторами.
Программа наблюдения- перечень признаков (или вопросов), подлежащих регистрации в процессе наблюдения.
Ранжированный ряд - ряд, в котором значения признака расположены либо в порядке убывания, либо в порядке возрастания.
Регрессионный анализ - установление формы зависимости между изучаемыми признаками, определение функции регрессии, использование уравнения для оценки неизвестных значений зависимой переменной.
Регрессия- линия, вид зависимости средней результативного признака от факторного.
Результативный признак - это зависимый признак, величина которого находится под влиянием факторного признака.
Сопоставимость уровней динамического ряда - это сравнимость, свойство, которым обладают уровни ряда в результате одинакового подхода к единицам совокупности на разных этапах ее формирования,
Способ основного массива - при таком способе сбор данных осуществляется только по тем единицам совокупности, у которых величина изучаемого признака во всем объеме является преобладающей.
Средняя величина - это обобщающий показатель, характеризующий типический уровень явления и выражающий величину признака, отнесенную к единице совокупности.
Статистика- отрасль практической деятельности,занимающаяся сбором, обработкой, анализом и публикацией массовых данных о различных явлениях и процессах общественной жизни; цифровой материал, служащий для характеристики какой-либо области общественных явлений или территориального распределения какого-либо показателя, публикуемый в открытой печати; наука,предметом изучения которой является количественная оценка массовых общественных явлений в неразрывной связи с их качественным содержанием.
Статистическая сводка - научно организованная обработка собранных материалов, включающая в себя систематизацию и группировку единичных фактов статистического наблюдения, получение на их основе обобщающих показателей.
Статистическая совокупность - множество единиц изучаемого явления, объединенных в соответствии с задачей исследования, единой качественной основой, общим, для всех единиц, признаком.
Статистический показатель - количественно-качественная оценка свойства изучаемого явления или процесса.
Статистический признак - качественная особенность единицы совокупности, характерное свойство, отличающее одно явление от другого.
Статистический ряд распределения - это группировка, в которой для характеристики групп (упорядочение расположенных по значению признака) применяется один показатель - численность группы.
Статистическое наблюдение - научно организованный по единой программе учет и сбор фактов, характеризующих явления и процессы общественной жизни.
Стохастическая связь - это вид причинной зависимости, проявляющейся не в каждом отдельном случае, а в среднем, при большом числе наблюдений.
Структура совокупности - соотношение, удельные веса составных элементов совокупности в общем итоге.
Тренд- основная тенденция развития социально-экономических процессов, определяемая в рядах динамики, формирование которой обусловлено действием различных факторов.
Факторный признак - это признак, который влияет на величину другого признака (результативного).
Формуляр- специальные учетные документы (бланки), в которых осуществляется регистрация данных статистического наблюдения..
Цепные показатели - показатели ряда динамики, рассчитанные на переменной базе, когда каждый последующий уровень ряда сравнивается с предыдущим.
Частота- абсолютное число, показывающее, сколько раз (как часто) встречается в совокупности то или иное значение признака или, что то же самое, сколько единиц в совокупности обладают тем или иным значением признака.
Экспедиционный способ статистического наблюдения - способ, при котором специально подготовленный регистратор опрашивает людей и с их слов заполняет бланк обследования (формуляр).
ЛИТЕРАТУРА
1. Балинова В. С. Статистика в вопросах и ответах: Учеб. пособие. – М.: ТК Велби, Изд-во Проспект, 2004. – 344с.
2. Годин А. М. Статистика: Учебник. – М.: Издательско-торговая корпорация «Дашков и К◦», 2003. – 472с.
3. Громыко Г. Л. Теория статистики: Практикум. – М.: ИНФРА-М, 2004. – 205с.
4. Лугинин О. Е. Статистика в рыночной экономике. – Ростов н/Д: Феникс, 2006. – 509с.
5. Ниворожкина Л. И. Теория статистики. – Ростов н/Д: «Мини ТАЙМ», «Феникс», 2005. – 220с.
6. Толстик Н. В. Статистика. – Ростов н/Д: «Феникс», 2007. – 344с.
7. Статистика: учебник / под ред. В. С. Мхитаряна. – М.: Экономистъ, 2005. – 671с.
8. Общая теория статистики: Статистическая методология в изучении коммерческой деятельнотси: Учебник / А. И. Харламов, О. Э. Башина, В. Т. Бабаурин и др.; под ред. А. А. Спирина, О. Э.Башиной. – М.: Финансы и статистика, 1994. – 296с.
9. Теория статистики: Учебник / Р. А. Шмойлова, В. Г. Минашкин, Н. А. Садовникова, Е. Б. Шувалова; под ред. Р. А. Шмойловой. – М.: Финансы и статистика, 2004. – 656с.
10. Практикум по теории статистики: Учеб. пособие / под ред. Р. А. Шмойловой. – М.: Финансы и статистика, 2000. – 416 с.