Графічне зображення статистичних рядів

Лабораторна робота №1

Визначення числових характеристик і довірчих інтервалів та

графічне зображення статистичних рядів

Необхідно вивчити деяку ознаку генеральної сукупності Х, для чого було проведено n вимірювань цієї ознаки ї складено вибірку її значень {х1, х2 ,..., хn} об'єму n. Різні елементи вибірки називаються варіантами. Число ni, що показує, скільки разів варіанта хi зустрічається у вибірці, називається частотою варіанти. Число wi, що дорівнює відношенню частоти варіанти ni до об'єму вибірки n, називається відносною частотою варіантихi:

. (1.1)

Ряд варіант, розташованих в порядку зростання їх значень, називається варіаційним рядом. Ряд, що містить варіанти і відповідні ним частоти (відносні частоти) називається статистичним рядом. Групування кількісних результатів вимірювань у вигляді статистичних рядів є необхідним для застосування статистичних методів аналізу даних і побудови статистичних моделей.

Ознака Х є випадковою величиною, а статистичний ряд – емпіричним (тобто отриманим у результаті експерименту або спостережень) законом її розподілу.

Статистичний ряд називається дискретним, якщо він є законом розподілу дискретної випадкової величини, та інтервальним, якщо він є законом розподілу неперервної випадкової величини.

Дискретний статистичний ряд у загальному вигляді можна представити таблицею (табл. 1.1):

Таблиця 1.1

Варіанти хi х1 х2 хk
Частоти ni (відносні частоти wi) n1 (w1) n2 (w2) nk (wk)

де k – кількість варіант.

Інтервальний статистичний ряд у загальному вигляді можна представити таблицею (табл. 1.2):

Таблиця 1.2

Інтервали
Частоти ni (відносні частоти wi) n1 (w1) n2 (w2) nk (wk)

де k – кількість інтервалів.

Для статистичних рядів повинні виконуватися рівності: , .

Для побудови інтервального статистичного ряду множину значень варіант розбивають на інтервали , тобто проводять їх згрупування. Кількість інтервалів k рекомендується розраховувати за формулою Стерджерса:

. (1.2)

Довжина кожного із інтервалів розраховується за формулою

, (1.3)

де , - максимальне і мінімальне значення у варіаційному ряді.

Підраховуючи кількість значень варіант, що потрапили в інтервал , отримують частоти ni для .

Для наочності використовують графічне зображення статистичних рядів у вигляді полігону частот (відносних частот) та, виключно у випадку інтервального ряду, гістограми.

Полігоном частот (відносних частот) називається ламана лінія, що сполучає точки площини з координатами: (хi; ni) або (хi; wi) для у разі дискретного статистичного ряду; (сi; ni) або (сi; wi) у разі інтервального ряду, де сі – середина і-того інтервалу, .

Гістограмоюназивається ступінчаста фігура, яка складається з прямокутників з основами, що дорівнюють довжині інтервалів та висотами, що дорівнюють частотам ni (відносним частотам wi) на відповідних інтервалах.

За статистичним рядом можна встановити емпіричну функцію розподілу та емпіричну щільність розподілу випадкової величини Х.

Емпіричною функцією розподілуназивається функція

. (1.4)

Відмітимо, що для інтервального ряду указуються не конкретні значення варіант, а тільки їх частоти на інтервалах. Тому емпірична функція розподілу визначена тільки на кінцях інтервалів. Її можна зобразити ламаною, такою, що проходить через точки (аi; ), де .

Емпіричною щільністю розподілудля інтервального ряду називається функція

. (1.5)

Генеральну сукупність Х можна розглядати як випадкову величину. Тоді вибірка значень Х – це емпіричний закон розподілу випадкової величини. Для дискретних і неперервних випадкових величин визначені числові характеристики, основними з яких є математичне сподівання, дисперсія і середнє квадратичне відхилення. Числові характеристики випадкових величин часто є параметрами їх розподілів. Аналогічно числові характеристики визначені і для статистичних рядів, це – вибіркове середнє, вибіркове середнє геометричне, вибіркова дисперсія, вибіркове середнє квадратичне відхилення і т. ін.

У прикладних задачах часто необхідно визначити за даними вибірки закон розподілу випадкової величини, що є однією із основних задач математичної статистики. При цьому вибіркове середнє вважається оцінкою (аналогом) математичного сподівання, вибіркова дисперсія – оцінкою дисперсії, вибіркове середнє квадратичне відхилення – оцінкою середнього квадратичного відхилення. При цьому виникає питання: наскільки правомірні такі оцінки?

Оцінки параметрів повинні відповідати таким вимогам.

Незсуненість. Це позначає, що при проведенні великої кількості спостережень (вимірювань) з вибірками одного об’єму оцінка параметру, отримана з кожної вибірки, прямує до істинного значення цього параметру генеральної сукупності.

Спроможність. Зі збільшенням об’єму вибірки оцінка прямує до значення відповідного параметру генеральної сукупності з ймовірністю, що дорівнює 1.

Достатність. Оцінка містить всю необхідну інформацію.

Ефективність. Оцінки, отримані за вибірками однакового об’єму, мають мінімальну дисперсію.

Зауваження. При використанні оцінок необхідно пам’ятати, що вони отримуються тільки при певних передмовах і, відповідно, дійсні тільки при виконанні цих передмов.

Для оцінювання параметрів розподілу за даними вибірки зазвичай використовується метод максимальної правдоподібності. Але він застосовується тільки тоді, коли відомий закон розподілу.

Основною числовою характеристикою статистичного ряду є середне арифметичне (вибіркове середнє).

Вибірковим середнімназивається величина яка обчислюється за формулою:

. (1.6)

У разі інтервального статистичного ряду як хi вибирається середина i-го інтервалу. Якщо вибірка містить незгруповані дані, то вибіркове середнє розраховується за формулою:

(1.7)

Зауваження. Оскільки статистичний ряд є емпіричним законом розподілу величини Х, то вибіркове середнє зазвичай вважається аналогом або оцінкою математичного сподівання випадкової величини Х. Хоча це твердження безумовно вірне тільки для нормального закону розподілу.

Вибірковим середнім геометричнимназивається величина , яка обчислюється за формулою:

. (1.9)

Середнє геометричне застосовується як центральна тенденція тоді, коли значення Х змінюються с постійним співвідношенням між попереднім і наступним значеннями, тобто якщо (наприклад, збільшення капіталовкладень, експлуатаційні витрати і т. ін.).

Модою Мо називається таке значення величини Х, яке спостерігається у вибірці з найбільшою частотою. У випадку інтервального статистичного ряду мода розраховується за формулою:

(1.10)

де – початок інтервалу, якому відповідає найбільша частота (такий інтервал називається модальним);

nMo – частота у модальному інтервалі;

nMo-1 , nMo+1 – частоти в попередньому і наступному інтервалах відповідно.

Зауваження. Мода не застосовується тоді, коли гістограма або полігон частот показують наявність двох або більше вершин („піків”).

Медіаною Ме називається таке значення величини Х, яке розділяє вибірку, елементи якої розташовані у порядку зростання, на дві рівні за об’ємом частини.

Якщо це вибірка значень дискретної випадкової величини, то медіаною є те її значення, яке розташовано всередині, якщо кількість членів ряду непарна: тобто це елемент з номером . Якщо кількість елементів вибірки парна, то медіана дорівнює середньому арифметичному її членів з номерами та .

Якщо розглядається вибірка неперервної випадкової величини, то медіана розраховується формулою:

, (1.11)

де – фактична нижня границя медіанного інтервалу;

– сума частот, що накопичена до початку медіанного інтервалу;

– частота в медіанному інтервалі.

Зауваження. На значення медіани не впливають змінення значень крайніх елементів впорядкованої вибірки, тому її часто застосовують як центральну тенденцію тоді, коли крайні елементи вибірки значно відрізняються від інших її елементів.

Варіаційним розмахомR називається різниця між максимальним ї мінімальним елементом вибірки:

. (1.12)

Вибірковою дисперсієюS2 називається середня арифметична квадратів відхилень варіант від їх вибіркової середньої:

(1.13)

або . (1.14)

Дисперсія є показником розсіювання елементів вибірки відносно їх середнього значення. Вибіркова дисперсія, отримана за формулою (1.14), називається незсуненою оцінкою дисперсії генеральної сукупності.

Різниця дисперсій, отриманих за формулами (1.13) та (1.14) зазвичай невелика, однак може вплинути на точність оцінок. Тому, якщо відомо точне значення математичного сподівання, використовують формулу (1.13), в іншому випадку – формулу (1.14).

Якщо дані не згруповані, то дисперсію можна розрахувати за формулою:

(1.15)

Вибірковим середнім квадратичним відхиленнямS називається величина, що дорівнює кореню з вибіркової дисперсії:

. (1.16)

Вибіркове середнє квадратичне відхилення теж є показником розсіювання елементів вибірки відносно їх середнього значення, але, на відміну від дисперсії, воно має ті одиниці вимірювання, які мають елементи вибірки.

Коефіцієнтом варіації vназивається величина, що дорівнює процентному відношенню вибіркового середнього квадратичного відхилення до модуля вибіркової середньої:

. (1.17)

Якщо коефіцієнт варіації більший за 100%, то елементи вибірки неоднорідні і вона не може бути використана у подальших дослідженнях.

Однією з основних задач математичної статистики є оцінка числових характеристик (параметрів) генеральної сукупності за вибірковими даними.

Для вибірки можна обчислити такі числові характеристики, як: вибіркове середнє, мода, медіана, вибіркова дисперсія та вибіркове середнє квадратичне відхилення. Для генеральної сукупності часто визначаються не самі ці параметри, а довірчі інтервали.

Довірчим інтервалом для певного параметру генеральної сукупності називається такий числовий інтервал, в межах якого знаходиться цей параметр. Ймовірність, з якою довірчий інтервал захватить істинне значення параметру, називається довірчою ймовірністюаборівнем надійностіі позначається .

Значення довірчої ймовірності обирає дослідник залежно від того, яку ступінь точності розрахунків вимагає дослідження. Зазвичай це значення знаходиться в інтервалі від 0,9 до 0,999. Якщо вимоги точності дуже високі, то для довірчої ймовірності обирається значення 0,999; якщо підвищені – 0,99; звичайні – 0,95; знижені – 0,9.

Довірчі інтервали розраховуються з урахуванням певних вимог до генеральної сукупності. Зазвичай це вимога нормального розподілу її даних.