Показатель ранговой корреляции

В качестве критериев оценки назависимости могут применяться и другие коэффициенты корреляции, например показатель ранговой корреляции Спирмена, позволяющий оценить нелинейную, но монотонную зависимость: в этом случае вычисляется кореляция не самих значений, а их рангов (порядковых номеров при упорядочении). Другим ранговым критерием является -критерий Кендалла.

Проверка по нескольким критериям может быть использована для приблизительной оценки оценки вида зависимости: если ранговая корреляция большая (статистически значимая), а линейная – маленькая (статистически не значимая), то зависимость нелинейная; если обе корреляции большие, то зависимость линейная; если обе корреляции маленькие, что либо зависимости нет, либо она немонотонная.

Если основная гипотеза гласит, что коэфициент корреляции равен не нулю, а некоторому отличному от нуля числу, то в качестве критериальной статистики используется z-преобразование Фишера:

Эта величина распределена примерно нормально для всех значений коэффициента корреляции генеральных совокупностей, ее матожидание равно , а дисперсия , где - объем выборки. Поэтому границы доверительного интервала для находят с использованием квантилей нормального распределения; получить границы для можно обратным преобразованием.

Описание функции

cor.test(x, y,alternative = c("two.sided", "less", "greater"), method = c("pearson", "kendall", "spearman"), conf.level = 0.95, ...)

Параметры

x, y Числовые вектора х и у одинаковой длины .
alternative Выбирает альтернативную гипотезу одну из "two.sided" (по умолчанию)-двустороняя критическая область, "greater" -правостороняя критическая область или "less"-левостороняя критическая область.
method Выбирает какой коэфициент корреляции используется в тесте. Один из"pearson", "kendall", или "spearman".
conf.level Доверительная вероятность

 

Примечание

Для проверки нулевой гипотезы H0 о равенстве показателя корреляции нулю необходимо в alternative выбрать "two.sided".

Критическое значение находят по таблице критических точек распределения Стьюдента с числом степей свободы (в R используется функция вычисления квантилей распределения Стьюдента qt(p,df)).

Пример

> x<-c(3.6,7.8,9.6,5.7,8.9)

> y<-c(2.7,8.9,6.5,8.8,6.4)

> cor.test(x,y ,alternative = c("two.sided"), method = c("pearson"))

Pearson's product-moment correlation

 

t = 0.9142, df = 3, p-value = 0.428

95 percent confidence interval: -0.7063858 0.9555364

sample estimates: cor = 0.4667999

> cor.test(x,y,alternative= c("two.sided"), method=c("spearman"))

Spearman's rank correlation rho

 

S = 16, p-value = 0.7833

sample estimates: rho = 0.2

Значение

Для обычной линейной корреляции (Пирсона) мы получили выборочное значений 0.4668, значение t- статистики 0.9142 при 3 степенях свободы, и p-value равное 0.428. Это означает, что отвергнуть нулевую гипотезу можно только при допущении ошибки в 42.8%. 95% доверительный интервал равен (-0.7063858, 0.9555364) и поскольку он содержит ноль, то нулевая гипотеза принимается на 5% уровне значимости.

Для ранговой корреляции Спирмена выборочное значений коэффициента корреляции еще меньше (0.2), а p-value еще больше (0.7833). Поэтому и по ранговому критерию мы отвергаем наличие связи между X и Y.

Линейная регрессия

Описание

Линейная зависимость между переменными описывается уравнением общего вида где - зависимая переменная, - неизвестные константы, - известные (независимые) переменные, и - нормально распределенная случайная величина с нулевым матожиданием и дисперсией . Задачей построения линейной среднеквадратической модели регрессионной зависимости переменной от независимых переменных является получение оценки параметров и оценка адекватности построенной модели вида

где - оценки параметров .

Рассмотрим простейший случай одной независимой переменной:

В этом уравнении модели линейной регрессии - свободный член, а параметр определяет наклон линии регрессии по отношению к осями координат. Параметры и определяются методом наименьших квадратов, который приводит к формуле:

,

где

- выборочные средние арифметические;

- выборочные средние квадратичые отклонения;

- выборочный коэффициент корреляции.

Для построения линейной модели регрессии используется функция lm(formula=f), которая в простейшем случае содержит только формулу от переменных (векторов, содержащих элементы парной выборки); запись y~x означает, что строится модель зависимости y от x.

> x<-c(3.6,7.8,9.6,5.7,8.9)

> y<-c(2.7,8.9,6.5,8.8,6.4)

> p.lm<-lm(formula=x~y)

> summary(p.lm)

 

Residuals:

1 2 3 4 5

-1.7151 -0.3409 2.5529 -2.3954 1.8985

 

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.0845 3.5050 1.165 0.328

y 0.4558 0.4985 0.914 0.428

 

Residual standard error: 2.511 on 3 degrees of freedom

Multiple R-Squared: 0.2179, Adjusted R-squared: -0.0428

F-statistic: 0.8358 on 1 and 3 DF, p-value: 0.428

Команда summary() выдает полную информацию о построенной модели:

значения остатков (residuals - разность модельных и истинных значений переменной y). Если объем выборки большой, то печатается оценка распределения остатков (квартили).

коэфициенты модели и оценку их значимости по критерию Стьюдента (в нашем случае все коэфициенты не значимы, поскольку все вероятности (0.328 и 0.428) больше 0.05 - т.е. нельзя считать, что существует линейная зависимость между x и y).

Оценку значимости зависимости по критерию Фишера и квадрат коэфициента корреляции (R-squared), который показывает долю дисперсии y, объясненной с использованием модели (исправленное значение для R2 равно 0, статистика Фишера F=0.8358, уровень значимости критерия Фишера 42.8%, т.е. зависимость отсуствует).

Для визуализации построенной модели можно использовать вспомогательные функции:

Описание функций

abline(a, b, untf = FALSE, ...)

abline(h=, untf = FALSE, ...)

abline(v=, untf = FALSE, ...)

Параметры

a,b Параметры в линейном уравнении
untf Если TRUE, то рисует линию в преобразованных координатах
h,v Y и Х значения для горизонтальной и вертикальной линии соответственно

plot(x, y, xlim=range(x),ylim=range(y),type="p", main, xlab, ylab, ...)

Параметры

X,Y Координаты точек x и y.
xlim, ylim Значения для осей x и y.
Type Тип графика(“ p” для точек)
Main Название графика
Xlab,ylab Название осей.

Функция abline()строит прямую по найденным a и b.

Функция plot() строит экспериментальные точки.

Пример

plot(x,y)

abline(lm(x~y))

 

 

Список литературы.

1. Гмурман В.Е. Теория вероятностей и математическая статистика/ В.Е.Гмурман.М.:Высшая школа, 2000.-479с.

2. Лакин Г.Ф. Биометрия/ Г.Ф. Лакин. М: Высшая школа, 1990.-352с.

3. Теория вероятностей и математическая статистика/ Под редакцией В.А. Колемаева. М: Высшая школа, 1991.-400с.

4. Гайдышев И. Анализ и обработка данных: специальный справочник -СПб: Питер, 2001.-752с.

5. Бейли Н. Статистические методы в биологии/Н.Бейли.М.:Мир,1963.-272с.

6. Гланц С. Медико-биологическая статистика/ С. Гланц. М: Практика, 1999.-449с.

7. А.А.Савельев, С.С.Мухарамова, А.Г.Пилюгин, Е.А.Алексеева Основные понятия языка R / А.А.Савельев, С.С.Мухарамова, А.Г.Пилюгин, Е.А.Алексеева К ффф 2007.-28с