Некоторые аспекты изучения статистики

Статистика - это математическая теория,
позволяющая познать мир через опыт.
В. Томпсон

Математическая статистика - наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Главной задачей математической статистики является установление соответствия между данными реального мира и его математическим описанием.

Людям присуще воспринимать окружающую среду как последовательность фактов, событий. Им дано анализировать поступающую информацию (хотя и не всем из них это удается) и делать выводы из такого анализа и учитывать их в своей сознательной деятельности. Поэтому можно смело утверждать, что во все времена, все люди занимались и занимаются статистическими “исследованиями”, даже не зная иногда такого слова “статистика”.

Все наши наблюдения за окружающим нас миром можно условно разделить на два класса:
наблюдения за событиями, которые могут произойти или не произойти;
наблюдения за физическими величинами, значения которых в момент наблюдения могут быть различными. В окружающем нас мире происходят случайные события, а наблюдаемые нами значения показателей внешней среды являются случайными величинами.

Самые первые представления о мире случайного дети получают из наблюдений за ним в окружающей жизни. При этом важные характерные черты наблюдаемых явлений проясняются в ходе сбора статистических сведений и наглядного их представления. Умение регистрировать статистические сведения и представлять их в виде простейших таблиц и диаграмм уже само по себе характеризует наличие у школьника некоторого статистического опыта. В нем находят отражение самые первые, пусть еще не до конца осознанные представления о неоднозначности и изменчивости реальных явлений, о случайных, достоверных или невозможных результатах наблюдений, о конкретных видах статистических совокупностей, их особенностях, общих свойствах. Эти умения дают возможность формировать правильное представление не только о явлениях с ярко выраженной случайностью, но и о таких явлениях, случайная природа которых неочевидна и затушевана многими осложняющими восприятие факторами.

Школьников 5-6 классов необходимо учить интерпретировать таблицы, схемы, ди­аграммы, привлекать к проведению экспе­риментов, опросов.

Например. С учащимися можно рассмотреть страницу классного журнала, озаглавленную «Математика». По ней определить, какие оценки получил каждый ученик, сравнить результаты одноклассников и сделать прогноз о том, какие оценки им поставят за четверть.

Поручить учащимся два месяца понаблюдать за погодой, полученные данные представить в таблице:

Погода месяцы Всего дней
Ясно      
Пасмурно      
Переменная облачность      

Используя таблицу ответить на вопросы: В каком месяце было больше ясных дней? Сколько всего было пасмурных дней?

Список класса Любимые лакомства
   
   
Любимые лакомства Подсчет голосов Всего ребят
пряники  
конфеты IIIIIIIIIIII
мороженое IIIIIIIIIII
печенье II

Провести опрос в классе по теме: «Любимые лакомства». Учащимся предлагается ответить на вопрос: Что ты любишь больше всего: пряники, конфеты, мороженое, печенье? Сначала таблица, которую составляют учащиеся, оказывается слишком длинной и неудобной для анализа:

Тогда составляем другую таблицу:

Такая таблица дает более наглядное представление о предпочтениях учащихся.

Данные таблиц представляем в виде столбчатых и круговых диаграмм. Ученики учатся читать диаграммы. В ходе анализа выясняем, что столбчатые диаграммы следует использовать в тех случаях, когда необходимо наглядно сопоставить результаты опроса, продемонстрировать динамику процесса, показать, как изменяется со временем интересующее нас явление и т.д.; что круговые диаграммы используются в тех случаях, когда нужно представить соотношения между частями целого.

В начале надо изучать явления, не зависящие от нашего контро­ля. Понимание характера изучаемого стохастического явления связано с умением выделять главное, видеть особенности и тенденции при рассмотрении таблиц, диаграмм и графиков. Простейшие навыки в «чтении» таблиц и графиков позволяют подметить некоторые закономерности наблюдаемых явлений, увидеть за формами представления статистических данных конкретные свойства явлений с присущими им особенностями и причинными связями.

В дальнейшем ученик сможет применить эти навыки: на уроках физики, химии, биологии при выполнении лабораторных и практических работ оформить результаты наблюдений и опытов; на уроках географии, истории, обществознания использовать таблицы и справочники, воспринимать информацию, представленную в графической форме. Эти умения необходимы каждому человеку, так как со статистическим материалом, представленным в различной форме, он постоянно встречается во всех источниках информации, рассчитанных на массовую аудиторию,— в газетах, журналах, книгах, по телевидению и т. п.

В основной школе рассматривается способы изображения данных, числовые характеристики. Следует сформировать у учащих­ся понимание того, что статистика дает краткую, концентрированную характеристику изучаемого явле­ния, и научить учащихся пользоваться ее методами и результатами.

Учащиеся получают начальные представления о сборе и группировке данных, составлении таблиц частот и относительных частот. Вводятся понятия генеральной совокупности и выборки, основных статистических характеристик. Рассматриваются различные способы наглядного изображения результатов исследований.

Для решения задач исследования проводится эксперимент (измерение, тестирование, анкетирование), в результате которого получают значение некоторой случайной величины (результаты тестирования, кол-во баллов). Если в эксперименте участвуют все объекты генеральной совокупности, то такое обследование называют сплошным. При изучении множества однородных объектов относительно некоторого характерного признака (количественного или качественного), обычно подвергают испытаниям некоторое его подмножество (выборку) случайно отобранных объектов. Множество объектов, из которых производится выборка, называется генеральной совокупностью. Задачей исследования является изучение признаков генеральной совокупности, которые определяются влиянием некоторых случайных факторов.

На практике обычно применяют выборочный метод, который заключается в том, что из генеральной совокупности случайным образом извлекают n элементов. Количество элементов в выборке называется ее объемом. Исследователь изучает и анализирует выборочную совокупность и на основании полученных показателей делает вывод о параметрах генеральной совокупности.

Допустим, из генеральной совокупности извлечена выборка объемом n, измерена некоторая величина Х, в результате чего получен ряд значений х1, х2, . . . хn. Наблюдаемые значения хi признака Х называются вариантами.

Пример: измерена масса тела девочек 7 лет. Полученные данные образуют ряд: 24 22 23 28 24 23 25 27 25 25.

Отдельные значения этого ряда называются вариантами. Если варианта хi появилась m раз, то число m называют частотой значения признака, а ее отношение к объему выборки m/n - относительной частотой значения признака.

Последовательность вариант, записанная в возрастающем (убывающем) порядке, называется ранжированным рядом. Пример ранжированного ряда: 23 23 24 24 25 25 25 27 28.

Х
m

Соответствие между вариантами вариационного ряда и их частотами называется статистическим распределением выборки.

Графическое представление статистического распределения. Для его построения на оси x откладывают значения вариант, на оси у - соответствующие им частоты. Точки с координатами i; mi) соединяют отрезками, полученная ломаная линия называется полигоном частот. Можно построить и полигон относительных частот.

У каждой выборки есть своего рода «паспортные данные». Они весьма существенны и важны. Следует только точно понимать, что они в принципе не могут дать полных данных о выборке: абсолютной информацией о выборке является сама выборка. Но так как объемы выборок данных, как правило, очень велики, то приходится иметь дело с некоторым набором важных числовых характеристик этих выборок.

Выборочным средним называется среднее арифметическое всех значений величины, встречающихся в выборке. . Вычисление среднего значения массы тела девочек 7 лет: Х=(24+22+23+28+24+23+25+27+25+25)/10=24,6.

Если выборочное среднее вычисляется по вариационному ряду, то находят сумму произведений вариант на соответствующие частоты, и делят на количество элементов в выборке.

. Х=(22+23•2+24•2+25•3+26+27)/10=24,6.

Выборочное среднее, не имеет наглядной иллюстрации с помощью полигона частот. Оно, по определению, усредняет все различные результаты, заменяя полную, но объемную информацию одним-единственным числом. Само это число, как мы видим, может и не входить в результаты выборки.

Выборочное среднее является основной характеристикой положения, показывает центр распределения совокупности, позволяет охарактеризовать исследуемую совокупность одним числом, проследить тенденцию развития, сравнить различные совокупности. Выборочное среднее значение имеет наглядный физический смысл. На оси абсцисс отметим п точек координаты которых равны вариантам выборки. В первую точку поместим массу, равную относительной частоте первой варианты. Во вторую точку поместим массу, равную относительной частоте второй варианты и т. д. Получится система из п материальных точек. Общий вес этой системы равен 1. Так вот, ее центр тяжести в точности совпадает с выборочным средним значением.

Мода— величина признака, которая чаще всего встречается в данной совокупности. Применительно к вариационному ряду модой является наиболее часто встречающееся значение ранжированного ряда, т.е. варианта, обладающая наибольшей частотой. Мода может применяться при определении магазинов, которые чаще посещаются, наиболее распространенной цены на какой-либо товар. На графике – это точка, в которой достигается максимум полигона частот.

Пример: найти моду выборочной совокупности по массе тела девочек 7 лет. Мо = 25.

Размах выборки – это разница между максимальной и минимальной вариантами.

R=Xmax - Xmin. . Этот показатель является характеристикой рассеяния ряда и

показывает диапазон варьирования величины. На графике – это длина области

определения полигона частот.

Мы составили простейший «паспорт» выборки. Он состоит из размаха, моды, выборочного среднего.

Целесообразно на этом этапе изучения статистики проводить лабораторные работы. Чтобы ученик изучал некоторое явление или объект, не только «головой», но и «руками», подмечал закономерности реального мира и пытался дать их адекватное математическое описание. Например: путем опроса мальчиков, обучающихся в вашей параллели собрать данные о размере их обуви, составить вариационный ряд, построить полигон частот, вычислить выборочное среднее, моду, размах выборки.

Если выборка представлена большим количеством различных значений случайной величины, то проводят группировку данных. В результате получается интервальный вариационный ряд. Размах варьирования признака разбивают на несколько равных интервалов и указывают количество вариант, попавших в каждый интервал. В этих случаях, в первую очередь, следует разумно выбрать шагделения промежутка между наименьшей и наибольшей вариантой. Слишком маленький шаг даст слишком большое число участков и не упростит вычисления. Слишком большой шаг приведет к слишком серьезному искажению первоначальных данных. Идеальный случай, когда шаг уже кто-то заранее сообщил: учитель, учебник. Например. Алгоритм построения интервального вариационного ряда.

1. Исходя из объема выборки, определить количество интервалов.

n 25-40 40-60 60-100 100-200
k 5-6 6-8 7-10 8-12
интервал Середина интервала m
60-65 62,5
65-70 67,5
70-75 72,5
75-80 77,5
80-85 82,5
85-90 87,5

п – количество опрошенных, к - количество интервалов, к≈√п.

2. Вычислить размах ряда: R=Xmax - Xmin.

3. Определить ширину интервала: h≈R/k.

4. Составить интервальный вариационный ряд.

Пример. После измерения массы тела 100 женщин тридцати лет получили следующие данные:

Графическим изображением интервального вариационного ряда является гистограмма частот. Для ее построения на оси х откладывают интервалы шириной h, на каждом интервале строят прямоугольник высотой m.

Вычисление среднего значения массы тела женщин 30 лет. Х=(62,5•14+67,5•33+72,5•29+77,5•14+82,5•7+87,5•3)/ 100=71,3.

Выборочное среднее дает представление о том, вокруг какой точки числовой оси группируются значения случайной величины. Но эти значения могут группироваться вокруг этой величины более или менее густо.

Например, некий человек каждый день ездит на работу. У него есть два варианта на выбор: он может сесть возле самого дома на трамвай и доехать прямо до работы, а может немного пройти до метро, проехать на метро, и еще немного пройти от метро до работы. Время поездки в обоих случаях, конечно же, - случайные величины. Оба варианта поездки занимают примерно одно и то же время, но первый из них подвержен гораздо большему влиянию внешних обстоятельств (трамваи ломаются гораздо чаще, чем поезда метро, на улицах бывают пробки и т. д.). Будем отмечать на числовой оси время, затраченное на эти ежедневные поездки (каждый из вариантов поездки будем отмечать на своей оси, получим два рисунка). Ясно, что на рисунке, описывающем поездки на метро, точки будут лежать очень густо, очень мало отклоняясь от среднего значения,

а на рисунке, который описывает поездку на трамвае, будут заметны очень большие отклонения от среднего.

Для того чтобы различать такого рода ситуации используется дисперсия (от латинского слова dispersio - рассеиваю). На основе статистических данных находим выборочную дисперсию:

. Если выборочная дисперсия вычисляется по вариационному ряду, то используется следующая формула .

Итак, чем больше дисперсия, тем больше разброс значений случайной величины, тем больше неопределенности, случайности в ее поведении.

Дисперсия измеряется в квадратных единицах, поэтому не является основным показателем рассеяния вариационного ряда.

Выборочное среднее квадратическое отклонение s является основной характеристикой разброса значений, оно измеряется в тех же единицах, что и сама случайная величина. .

Рассмотрим следующий пример. В 2005 учебном году выпускники лицея № 2 г. Рыбинска сдавали ЕГЭ по математике. Экзамен сдавали 71 человек. По полученным оценкам была составлена таблица:

Х
m

Х=(3•4+4•21+5•46)/71 ≈4,59; D≈0,35; σ≈0,59.

Понимание смысла средних показателей необходимо каждому ученику. Умение ориентироваться в этих показателях помогает человеку принимать правильные решения, адекватно воспринимать поступающую к нему информацию.

Необходимо прививать школьникам критическое отношение к статистическим выводам и обобщениям, развивать умение понимать скрытый смысл того или иного сообщения, противостоять манипулированию сознанием человека со стороны СМИ, учить быть гибко мыслящим человеком, лишённым догматической веры в абсолютную истинность чужих выводов.

Изучение элементов статистики в старшей школе не должно дублировать то, что изучалось в основной школе. При наличии времени и готовности учащих­ся, в классах с углубленным изучением математики можно познакомить учащихся с некоторыми идеями математической статистики.