Сравнить с помощью t-критерия Стьюдента коэффициенты вначале исследования и после, проиллюстрировать на графике
Итак, покажем, как использовать критерий стьюдента (англ. Student). Грубо говоря, критерий работает так: мы задаём входные параметры – количество элементов выборки (2000) и уровень доверия или значимости (0,05). Дальше программа, следуя теоретическому алгоритму, который обрабатывает значения наших данных, показывает, есть ли зависимость. Это отображается как красный цвет строк зависимых параметров. Теоретические алгоритмы разные: зависит от того, как связаны исследуемые переменные, т.е. выборки. Если есть связь, используется один алгоритм, ежели нету – другой.
Нам предлагается исследовать на зависимость две переменные: «Коэффициенты вначале» и «Коэффициенты после». Они зависимы между собой, это вытекает из структуры предлагаемых данных, увидеть это можно так:
в окне данных, дважды нажимаем на последнюю переменную
появится окно
внизу которого написан закон, по которому каждое поле этой переменной вычислялась:
лично мне не совсем понятно, почему и слева и справа стоит , но я трактовал это так, что сперва
была заполнена некоторыми данными, а затем к ней добавили значения
, умноженные на два.
Заходим в , затем выбираем пункт, который соответствует природе наших переменных, т.е. зависимые между собой:
.
При этом не забываем установить значения переменных (т.е. снять галочку в ). После этого нажимаем
. Появится окно
нажимаем , выбираем соответственно «Коэффициенты вначале» и «Коэффициенты после»
затем нажимаем , потом
. Получим результат
собственно, как в моей курсовой работе. Таким образом, показали, что зависимость есть. В своей курсовой я также показывал насколько сильно разнятся средние значения обоих переменных на диаграммах размаха, для этого в окне
нужно перейти в вкладку и именно в ней нажать кнопку
, после которой появится диалоговое окно
в котором предлагается выбрать, как высчитывать «центр» и границы прямоугольника для диаграммы размаха. Вариант говорит о том, что центр, это медиана, а границы прямоугольника – верхняя и нижние квартили. Вариант же
говорит о том, что центр, это среднее, а границы прямоугольника – стандартное отклонение. В чем между ними различие и что это такое читайте в ответнике в вопросах
,
,
.
Стандартное отклонение (в статистике обозначается SD) -это квадратный корень из суммы квадратов разности элементов выборки от среднего, делённое на .
SE – стандартная ошибка ( , где
выборочная дисперсия (наилучшее оценивание совокупной дисперсии) и
число наблюдений в выборке).
Выбирая последовательно два варианта, получим два результата, таких же как в моей курсовой.
Повторю, что скриншотить можно только таблицы. Все графики легко копируются в непосредственно.
Теперь посчитаем корреляционную матрицу.
Вообще, цель корреляционного анализа – установить, есть ли зависимость между переменными (в отличие от критерия Стьюдента не обязательно между двумя переменными). Результат такого анализа – матрица, по столбцам и по строкам которой стоят выбранные нами переменные, а значения матрицы – числа в промежутке от до
. Природа зависимости (линейная, квадратичная, обратная и т.п.) зависит от выбираемого метода вычисления корреляционной матрицы. Мы будем рассматривать метод Пирсона и Спирмена. Оба эти метода устанавливают, есть ли между переменными линейная зависимость. Чем ближе значение матрицы на пересечении строки и столбца к
, тем ближе зависимость к линейной. И наоборот, значение, к примеру
, может сказать нам, что зависимость полиномиальная. Различие между методом Спирмена и методом Пирсона в том, что Спирмена выполняется быстрее, в силу того, что он робастен (устойчив) к значением самих переменных. Ему важна индексация, которая вводится особым образом. Метод Спирмена считается «в лоб», прогоняя значения, поэтому он работает медленнее чем, метод Спирмена, но зато более точно.
Ясно, что в корреляционной матрице на главной диагонали будут стоять 1 (переменная зависит линейно от самой себя: ). Также матрица симметрична (т.е.
,
– операция транспонирования), это следует из того, что переменная
зависит от переменной
точно так же, как и переменная
от
, потому в матрице элемент
.
Перейдём к построению корреляционной матрицы. Нажимаем , затем в окне выбираем
в снимаем галочку, устанавливая тем самым диапазон от
до
, нажимаем
, появится окно
в котором нажимаем и выбираем список переменных, зависимости которых хотим исследовать (зажимаем
и последовательно кликаем мышкой по нужным переменным)
нажимаем , затем переходим в вкладку
и уберём галочку
, для того, чтобы не отображать в матрице корреляций средние и стандартные отклонения. Можете их оставить, но результат не будет является корреляционной матрицей, а будет матрица
, где
матрица средних и дисперсий, а
–корреляционная матрица (символ
означает приписывание матрицы
сразу после
). Нажимаем
и получаем следующий результат
Коэффициент близок к 1, значит зависимость близка к линейной. Заносим в работу.
Теперь научимся строить диаграмму рассеяния. Она показывает насколько «рассеяны» данные относительно некоторой прямой. Это частный случай линейной регрессии, о которой речь пойдёт позже.
На ленте заходим во вкладку , нажимаем
, вывалится контекстное меню, в котором выбираем
вывалится окно
выбираем диапазон в , в
выбираем переменные соответственно по
и по
, жмём
. Получаем результат. Заносим в работу.