Статистические методы анализа информации. 1 страница

 

 

Статистические ме́тоды — методы анализа статистических данных. Выделяют методы прикладной статистики, которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надежность и испытания, планирование экспериментов.

Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью. Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):

а) разработка и исследование методов общего назначения, без учета специфики области применения;

б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;

в) применение статистических методов и моделей для статистического анализа конкретных данных.

Дисперсионный анализ. Дисперсионный анализ (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик). В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.

Основной целью дисперсионного анализа (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).

Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии, друг с другом посредством F—критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.

Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).

Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным.

Дисперсионный анализ используют, если зависимая переменная измеряется в шкале отношений, интервалов или порядка, а влияющие переменные имеют нечисловую природу (шкала наименований).

Примеры задач. В задачах, которые решаются дисперсионным анализом, присутствует отклик числовой природы, на который воздействует несколько переменных, имеющих номинальную природу. Например, несколько видов рационов откорма скота или два способа их содержания и т.п.

Пример 1: В течение недели в трех разных местах работало несколько аптечных киосков. В дальнейшем мы можем оставить только один. Необходимо определить, существует ли статистически значимое отличие между объемами реализации препаратов в киосках. Если да, мы выберем киоск с наибольшим среднесуточным объемом реализации. Если же разница объема реализации окажется статистически незначимой, то основанием для выбора киоска должны быть другие показатели.

Пример 2: Cравнение контрастов групповых средних. Семь политических пристрастий упорядочены от крайне либеральные до крайне консервативные, и линейный контраст используется для проверки того, есть ли отличная от нуля тенденция к возрастанию средних значений по группам - т. е. есть ли значимое линейное увеличение среднего возраста при рассмотрении групп, упорядоченных в направлении от либеральных до консервативных.

Пример 3: Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина - влияют на количество продаж, однако их взаимодействие значимым не является.

Пример 4: Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов. Необходимо выявить значимость взаимодействия жир-рыхлитель. После этого определить различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются.

Пример 5: Модель иерархического (гнездового) плана со смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо.

Пример 6: Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим.

Ковариационный анализ. Ковариационный анализ — совокупность методов математической статистики, относящихся к анализу моделей зависимости среднего значения некоторой случайной величины одновременно от набора (основных) качественных факторов и (сопутствующих) количественных факторов . Факторы F задают сочетания условий, при которых были получены наблюдения X,Y, и описываются с помощью ндикаторных переменных, причем среди сопутствующих и индикаторных переменных могут быть как случайные, так и неслучайные (контролируемые в эксперименте).

Если случайная величина Y является вектором, то говорят о многомерном ковариационном анализе.

Ковариационный анализ часто применяют перед дисперсионным анализом, чтобы проверить гомогенность (однородность, представительность) выборки наблюдений X,Y по всем сопутствующим факторам.

Примеры задач

Пример 1: Пусть у нас имеется 3 метода обучения арифметики и группа студентов. Группа разбивается случайным образом на 3 подгруппы для обучения одним из методов. В конце курса обучения студенты проходят общий тест, по результатам которого выставляются оценки. Также для каждого студента имеется одна или несколько характеристик (количественных) их общей образованности.

Требуется проверить гипотезу об одинаковой эффективности методик обучения.

Пример 2: Для сравнения качества нескольких видов крахмала (пшеничного, картофельного …) был проведён эксперимент, в котором измерялась прочность крахмальных плёнок. Также для каждого испытания измерена толщина использовавшейся крахмальной плёнки.

Требуется проверить гипотезу об одинаковом качестве различного крахмала.

Пример 3: Пусть для нескольких различных школ были собраны отметки их учеников, полученные на общем для всех экзамене. Также для каждого из учеников известны отметки, полученные ими по другим экзаменам (например, вступительным в школу).

Требуется проверить гипотезу об одинаковом качестве образования в школах.

Постановка задачи

Основные теоретические и прикладные проблемы ковариационного анализа относятся к линейным моделям. В частности, если анализируются n наблюдений с p сопутствующими переменными , k возможными типами условий эксперимента , то линейная модель соответствующего ковариационного анализа задается уравнением:

 

где , индикаторные переменные равны 1, если -е условие эксперимента имело место при наблюдении , и равны 0 в противном случае. Коэффициенты определяют эффект влияния -го условия, — значение сопутствующей переменной , при котором получено наблюдение , — значения соответствующих коэффициентов регрессии по , — независимые случайные ошибки с нулевым математическим ожиданием.

Приведённая формула задаёт линейную модель однофакторного ковариационного анализа с независимыми переменными и уровнями фактора. При включении в модель дополнительных факторов в правой части уравнения появятся слагаемые, отвечающие за эффекты уровней вновь введённых в модель факторов.

Замечание: коэффициенты регрессии в приведённой формуле не зависят от качественных факторов. Это включает предположение, что линейная зависимость имеет одинаковые коэффициенты для каждого значения качественного фактора.

Основное назначение ковариационного анализа — использование в построении статистических оценок ; и статистических критериев для проверки различных гипотез относительно значений этих параметров. Если в модели постулировать априори , то получится модель дисперсионного анализа, если же исключить влияние неколичественных факторов (положить ), то получится модель регрессионного анализа.

Корреляционный и регрессивный анализ. Матрица данных. Многие объекты исследования характеризуются множеством параметров, и по результатам наблюдения за их функционированием формируются многомерные совокупности (матрицы) ЭД.

 

(4.1)

Строки такой матрицы соответствуют результатам регистрации всех наблюдаемых параметров объекта в одном эксперименте, а столбцы содержат результаты наблюдений за одним параметром (фактором, вариантой) во всех экспериментах. Обозначим количество параметров через m (m>1), а количество наблюдений – через n.

 

В матрице элемент хij соответствует значению j-й варианты в i-м наблюдении. Матрица, вообще говоря, может содержать пустые значения некоторых элементов, например, из-за пропусков в регистрации значений параметров. В многомерном анализе желательно устранить пропущенные значения. Для этого существуют специальные приемы, в частности, вычеркивание соответствующих строк матрицы или занесение средних значений вместо отсутствующих. В дальнейшем будем считать, что матрица не содержит пустых элементов, а параметры объекта характеризуются непрерывными случайными величинами.

Методы обработки матрицы ЭД основаны на следующем предположении: если объект подвергнуть новому обследованию и получить, вообще говоря, другую матрицу данных, то после ее обработки с помощью тех же методов будут получены результаты, близкие к результатам обработки первой матрицы. Данное предположение основано на статистической гипотезе формирования матрицы ЭД. Матрица порождается случайным образом в соответствии с определенной вероятностной закономерностью, а именно: в m-мерном пространстве параметров существует некоторое (пусть и неизвестное) распределение вероятностей, и каждая строка матрицы появляется в соответствии с этим распределением независимо от появления других строк.

Каждый столбец матрицы представляет собой случайную выборку значений одного параметра объекта. Указанное предположение означает, во-первых, что оценки моментов и параметров распределения, вычисленные по выборке, будут близки к истинным значениям, во-вторых, значения непрерывных функций, построенных по этим оценкам, будут близки к значениям функций, построенным по истинным значениям параметров.

Таким образом, объектом исследования в многомерном анализе является многомерная случайная величина, представленная выборкой конечного объема. К такой выборке применимы все методы и оценки, рассмотренные при обработке одномерных ЭД. Конечно, приведенные суждения не являются доказательством допустимости применения рассматриваемых методов, но вполне подтверждаются практикой.

Параметры, характеризующие объект исследования, имеют разный физический смысл, и матрица данных существенно изменяется, если изменяются шкалы, в которых измеряются те или иные параметры. Матрицу данных еще до проведения анализа целесообразно привести к стандартному виду, т.е. стандартизовать значения вариант (напомним, что среднее значение стандартизованной варианты равно нулю, дисперсия – единице). В тех случаях, когда все варианты измеряются в одной шкале, это преобразование все-таки желательно, ибо оно упрощает последующие преобразования. Стандартизованную матрицу будем обозначать через U. Переход от исходной к стандартизованной матрице осуществляется следующим образом:

вычисляются оценки математического ожидания и дисперсии каждой варианты ;

вычисляются элементы стандартизованной матрицы

 

, .

 

Элементы матрицы U являются безразмерными величинами. Именно матрица U будет являться объектом последующей обработки.

Корреляционный анализ. Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными. Различают два вида зависимостей между величинами (факторами): функциональную и статистическую.

При функциональной зависимости двух величин значению одной из них обязательно соответствует одно или несколько точно определенных значений другой величины. Функциональная связь двух факторов возможна лишь при условии, что вторая величина зависит только от первой и не зависит ни от каких других величин. Функциональная связь одной величины с множеством других возможна, если эта величина зависит только от этого множества факторов. В реальных ситуациях существует бесконечно большое количество свойств самого объекта и внешней среды, влияющих друг на друга, поэтому такого рода связи не существуют, иначе говоря, функциональные связи являются математическими абстракциями. Их применение допустимо тогда, когда соответствующая величина в основном зависит от соответствующих факторов.

При исследовании АСОИУ многие параметры следует считать случайными, что исключает проявление однозначного соответствия значений. Воздействие общих факторов, наличие объективных закономерностей в поведении объектов приводят лишь к проявлению статистической зависимости. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения других (другой), и эти другие величины принимают некоторые значения с определенными вероятностями. Функциональную зависимость в таком случае следует считать частным случаем статистической: значению одного фактора соответствуют значения других факторов с вероятностью, равной единице. Однако на практике такое рассмотрение функциональной связи применения не нашло.

Более важным частным случаем статистической зависимости является корреляционная зависимость, характеризующая взаимосвязь значений одних случайных величин со средним значением других, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения.

Если же у взаимосвязанных величин вариацию имеет только одна переменная, а другая является детерминированной, то такую связь называют не корреляционной, а регрессионной. Например, при анализе скорости обмена с жесткими дисками можно оценивать регрессию этой характеристики на определенные модели, но не следует говорить о корреляции между моделью и скоростью.

При исследовании зависимости между одной величиной и такими характеристиками другой, как, например, моменты старших порядков (а не среднее значение), то эта связь будет называться статистической, а не корреляционной.

Корреляционная связь описывает следующие виды зависимостей:

- причинную зависимость между значениями параметров. Примером такой зависимости является взаимосвязь пропускной способности канала передачи данных и соотношения сигнал/шум (на пропускную способность влияют и другие факторы – характер помех, амплитудно-частотные характеристики канала, способ кодирования сообщений и др.). Установить однозначную связь между конкретными значениями указанных параметров не удается. Но очевидно, что пропускная способность зависит от соотношения уровней сигнала и помех в канале. Иногда при этом причину и следствие особо не выделяют. В некоторых случаях такая корреляция является бессмысленной, например: если в качестве исходного фактора взять доходы разработчиков антивирусных программ, а за результат – количество вновь появляющихся вирусов, то можно сделать вывод, что разработчики антивирусов "стимулируют" создание вирусов;

- "зависимость" между следствиями общей причины. Подобная зависимость характерна, в частности, для скорости и безошибочности набора текста оператором (указанные факторы зависят от квалификации оператора).

Корреляционная зависимость определяется различными параметрами, среди которых наибольшее распространение получили показатели, характеризующие взаимосвязь двух случайных величин (парные показатели): корреляционный момент, коэффициент корреляции.

Оценка корреляционного момента (коэффициента ковариации) двух вариант xj и xk вычисляется по исходной матрице Х

 

(4.2)

Этот показатель неудобен для практического применения, так как имеет размерность, равную произведению размерностей вариант, и по его величине трудно судить о зависимости параметров.

Коэффициент ковариации rjk нормированных случайных величин называют коэффициентом корреляции, его оценка

.

(4.3)

Значение коэффициента корреляции лежит в пределах от –1 до +1. Если случайные величины Uj и Uk независимы, то коэффициент rjk обязательно равен нулю, обратное утверждение неверно. Коэффициент rjk характеризует значимость линейной связи между параметрами:

- при r jk =1 значения uij и uik полностью совпадают, т.е. значения параметров принимают одинаковые значения. Иначе говоря, имеет место функциональная зависимость: зная значение одного параметра, можно однозначно указать значение другого параметра;

- при r jk = – 1 величины uij и uik принимают противоположные значения. И в этом случае имеет место функциональная зависимость;

- при r jk = 0 величины uij и uik практически не связаны друг с другом линейным соотношением. Это не означает отсутствия каких-то других (например, нелинейных) связей между параметрами;

- при | r jk | > 0 и | r jk | < 1 однозначной линейной связи величин uij и uik нет. И чем меньше абсолютная величина коэффициента корреляции, тем в меньшей степени по значениям одного параметра можно предсказать значение другого.

Используя понятие коэффициента корреляции, матрице ЭД можно поставить в соответствие квадратную матрицу оценок коэффициентов корреляции (корреляционную матрицу)

(4.4)

К числу характерных свойств корреляционной матрицы относят: симметричность относительно главной диагонали, r jk=r kj, ; единичные значения элементов главной диагонали, r kk=1 (r kk соответствует дисперсии стандартизованного параметра uk), .

Оценка коэффициента корреляции, вычисленная по ограниченной выборке, практически всегда отличается от нуля. Но из этого еще не следует, что коэффициент корреляции генеральной совокупности также отличен от нуля. Требуется оценить значимость выборочной величины коэффициента или, в соответствии с постановкой задач проверки статистических гипотез, проверить гипотезу о равенстве нулю коэффициента корреляции. Если гипотеза Н0 о равенстве нулю коэффициента корреляции будет отвергнута, то выборочный коэффициент значим, а соответствующие величины связаны линейным соотношением. Если гипотеза Н0 будет принята, то оценка коэффициента не значима, и величины линейно не связаны друг с другом (если по физическим соображениям факторы могут быть связаны, то лучше говорить о том, что по имеющимся ЭД эта взаимосвязь не установлена). Проверка гипотезы о значимости оценки коэффициента корреляции требует знания распределения этой случайной величины. Распределение величины r ik изучено только для частного случая, когда случайные величины Uj и Uk распределены по нормальному закону.

В качестве критерия проверки нулевой гипотезы Н0 применяют случайную величину . Если модуль коэффициента корреляции относительно далек от единицы, то величина t при справедливости нулевой гипотезы распределена по закону Стьюдента с n – 2 степенями свободы. Конкурирующая гипотеза Н1 соответствует утверждению, что значение r ik не равно нулю (больше или меньше нуля). Поэтому критическая область двусторонняя.

Проверка гипотезы Н0 о равенстве нулю генерального коэффициента парной корреляции двумерной нормально распределенной случайной величины осуществляется в следующей последовательности:

- вычисляется значение статистики t;

- при уровне значимости a для двусторонней области определяется критическая точка распределения Стьюдента tкр(n–2; a ), табл. П.4;

- сравнивается значение статистики t с критическим значением tкр(n–2; a ). Если t < tкр (п–2; a ), то нет оснований отвергнуть нулевую гипотезу, иначе гипотеза Н0 отвергается (коэффициент корреляции значим).

Когда модуль величины r ik близок к единице, распределение r ik отличается от распределения Стьюдента, так как значение |r ik | ограничено справа единицей. В этом случае применяют преобразование yik=0,5ln[(1+|r ik |)/(1–|r ik |)]. Величина yik не имеет указанного ограничения, она при п > 10 распределена приблизительно нормально с центром m 1(r ik)=0,5ln[(1+|r ik|)/(1–|r ik|)]+0,5|r ik|/(n–1) и дисперсией m 2(r ik)=s 2(r ik)=1/(п–3). Если значение центрированной и нормированной величины (yik –m 1(r ik))/s (r ik) превышает значение квантили уровня 1–a /2 нормального распределения стандартизованной величины, то нулевая гипотеза отвергается.

Таким образом, постановка задачи линейного корреляционного анализа формулируется в следующем виде.

Имеется матрица наблюдений вида (4.1). Необходимо определить оценки коэффициентов корреляции для всех или только для заданных пар параметров и оценить их значимость. Незначимые оценки приравниваются к нулю. Допущения:

- выборка имеет достаточный объем. Понятие достаточного объема зависит от целей анализа, требуемой точности и надежности оценки коэффициентов корреляции, от количества факторов. Минимально допустимым считается объем, когда количество наблюдений не менее чем в 5–6 раз превосходит количество факторов;

- выборки по каждому фактору являются однородными. Это допущение обеспечивает несмещенную оценку средних величин;

- матрица наблюдений не содержит пропусков.

Если необходима проверка значимости оценки коэффициента корреляции, то требуется соблюдение дополнительного условия – распределение вариант должно подчиняться нормальному закону.

Задача анализа решается в несколько этапов:

- проводится стандартизация исходной матрицы;

- вычисляются парные оценки коэффициентов корреляции;

- проверяется значимость оценок коэффициентов корреляции, незначимые оценки приравниваются к нулю. По результатам проверки делается вывод о наличии связей между вариантами (факторами).

Пример 4.1. Результаты наблюдений за характеристиками канала представлены в табл. 4.1.

Таблица 4.1

№ пп Пропускная способность канала, кбит/с Соотношение сигнал/шум, Остаточное затухание, на частоте, Гц дБ,
дБ
Х1 X2 X3 X4 X5
26,37 41,98 17,66 16,05 22,85
28,00 43,83 17,15 15,47 23,25
27,83 42,83 15,38 17,59 24,55
31,67 47,28 18,39 16,92 26,59
23,50 38,75 18,32 15,66 26,22
21,04 35,12 17,81 17,00 27,52
16,94 32,07 21,42 16,77 25,76
37,56 54,25 26,42 15,68 23,10
18,84 32,70 17,23 15,92 23,41
25,77 40,51 30,43 15,29 25,17
33,52 49,78 21,71 15,61 25,39
28,21 43,84 28,33 15,70 24,56
28,76 44,03 30,42 16,87 24,45
24,60 39,46 21,66 15,25 23,81
24,51 38,78 25,77 16,05 24,48