ОТЧЕТ ПО ЛАБОРАТОРНОЙ РАБОТЕ

 

 

Студент, КИ09-11       А. А. Егоров
  номер группы   подпись, дата   инициалы, фамилия
Руководитель         А. В. Кузнецов
      подпись, дата   инициалы, фамилия

 

 

Красноярск 2012


 

Постановка задачи

1. Из любых источников данных взять двухмерные (или более) данные объемом не менее 150 элементов. Создать два-три выброса, если их нет в выборке.

2. Построить диаграмму рассеяния, на ней определить положение выбросов. Скорректировать выборку, удалив выбросы, построить скорректированную диаграмму и сравнить с предыдущей.

3. На скорректированной диаграмме проверить наличие ярко выраженных кластеров. При их наличии произвести разбиение выборки по количеству классов. Для каждой группы построить диаграмму рассеяния.

4. Построить гистограмму данных без помех. Провести подгонку распределения, проверить данные на схожесть с нормальным законом. Если данные имеют примерно нормальный закон распределения, проверить гипотезу о равенстве мат. ожидания какой-либо константе.

5. Рассчитать описательные статистики (составить таблицу перевода терминов). Дополнительно построить график «Коробка-Усы».

6. Сделать выводы о характере изучаемых данных.


 

Реализация задачи

Выберем в качестве данных зависимость размера экрана телевизора (Size) от его стоимости (Cost).

Построим диаграмму рассеяния (красным обведены выбросы):

Рис 1. Диаграмма рассеяния с выбросами

 

Удалим выбросы и построим скорректированную диаграмму рассеяния:

 

Рис 2. Диаграмма рассеяния без выбросов

 

Построим гистограмму данных без помех:

 

Рис 3. Гистограмма для стоимости.

 

 

Рис 4. Гистограмма для объема данных

 

Проверка данных на нормальность:

Рис 5. Сравнение распределения стоимости с нормальным распределением

 

Можем отбросить гипотезу о том, что распределение стоимости похоже на нормальное, с вероятностью 0.99.

 

Рис 6. Сравнение распределения диагонали экрана с нормальным распределением

Можем отбросить гипотезу о том, что распределение объема данных похоже на нормальное, с вероятностью 0.99.

Статистики:

 

  Cost Size
Count
Average 19066,8 31,4375
Variance 1,96337E8 91,0024
Standard deviation 14012,0 9,53952
Minimum 4850,0 19,0
Maximum 84290,0 46,0
Range 79440,0 27,0
Stnd. skewness 7,3886 1,19663
Stnd. kurtosis 6,12058 -3,88523

 

Построим график «Коробка-Усы»:

Рис 7. График «Коробка-Усы» для выборки стоимости

 

 

Рис 8. График «Коробка-Усы» для выборки размера экрана

 

Таблица перевода терминов

 

Термин Перевод
Average Среднее
Coeff. of variation Коэффициент изменения
Count Количество
Geometric mean Среднее арифметическое
Interquartile range Межквартильный диапазон
Kurtosis Эксцесс
Lower quartile Нижний квартиль
Maximum Максимум
Median Медиана
Minimum Минимум
Mode Мода
Range Диапазон
Skewness Асимметрия
Standard deviation Стандартное отклонение
Standard error Стандартная ошибка
Stnd. kurtosis Стандартный эксцесс
Stnd. skewness Стандартная асимметрия
Sum Сумма
Upper quartile Верхний квартиль
Variance Дисперсия

 


 

Вывод:

Исходя из графиков гистограмм, можно сделать вывод, что распределение стоимости и размера экрана телевизоров не является нормальным. По диаграмме рассеяния можно предположить, что данные имеют неярко выраженные кластеры.