Понятие о нормальном распределении

Нормальное распределение, или закон Гаусса, играет

очень важную роль в теории вероятностей и занимает среди

других законов распределения особое положение. Закон Гаусса

является предельным законом, к которому приближаются при

соблюдении определенных условий другие законы. Он наибо-

лее часто встречается на практике.

Доказывается, что сумма достаточно большого количества

независимых или слабозависимых случайных величин, срав-

нимых по степени своего влияния на рассеивание суммы, рас-

пределена приблизительно по нормальному закону, несмотря

на то что составляющие этой суммы подчинены любым законам

распределения. Большое количество встречающихся на прак-

тике случайных величин, например случайные ошибки наблю-

дений в естественных и технических науках, ошибки стрельбы

и др., могут быть представлены как сумма большого числа сла-

гаемых, каждое из которых вызвано действием какой-то одной

причины, не зависящей от остальных. Составляющие суммы

имеют различные распределения, но их сумма неограниченно

приближается к нормальному. Непрерывная случайная вели-

чина X распределена по нормальному закону с параметрами m

и σ, если ее плотность распределения имеет вид:

. (2.43)

Кривая распределения имеет холмообразный симметрич-

ный вид (рис. 2.16)

f(x)

0 m X

Рис. 2.16

Максимум функции распределения f(x) достигается в точ-

ке с координатами (m, ). Этот результат можно получить,

используя методы дифференциального исчисления. Следова-

тельно, мода нормального распределения равна m. Используя

формулы (2.31) и (2.38) можно доказать (см., например, [8]), что

M[X] = m, а D[X] = σ2, т. е. параметр m — это математическое

ожидание нормально распределенной случайной величины X,

а дисперсия случайной величины X, распределенной по нор-

мальному закону, равна σ2.

Вероятность того, что нормально распределенная случай-

ная величина X попадает на интервал (а; b), равна

. (2.44)

В формуле (2.44) Φ0(x) — нормированная функция Лапла-

са, вычисляемая по формуле

. (2.45)

Для функции Φ0(x) составлены таблицы (см. приложе-

ние 5). Заметим, что в приложении 5 приведены значения

. Нормированная функция Лапласа Φ0(x)

имеет следующие свойства:

1) Φ0(0) = 0;

2) Φ0(-x) = -Φ0(x);

3) Φ0(+∞) = 0,5;

4) Φ0(-∞) = -0,5.

Очень просто через нормированную функцию Лапласа вы-

ражается вероятность попадания нормально распределенной

случайной величины X в интервал длиной 2d, симметричный

относительно m (рис. 2.17).

Искомая формула имеет вид:

. (2.46)

Через функцию Лапласа можно выразить и функцию рас-

пределения нормально распределенной случайной величи-

ны X.

f(x)

0 m x

d d

Рис. 2.17

Имея в виду формулу (2.44) и учитывая, что F0(-∞) = -0,5,

получим:

. (2.47)

Если m = 0, а σ = 1, то формула для плотности нормального

распределения (2.43) примет вид:

Она называется функцией Гаусса и для нее составлены

таблицы (см. [25]).

Системы случайных величин

Часто при изучении случайных явлений приходится иметь

дело не с одной случайной величиной, а с двумя, тремя и бо-

лее. Совместное изучение конечного числа случайных величин

приводит к системе случайных величин. Приведем некоторые

примеры систем случайных величин:

1. Точка приземления космического аппарата многоразо-

вого использования Спейс Шаттл характеризуется системой

трех случайных величин: широтой (ϕ), долготой (λ), высо-

той (H).

2. Успеваемость наудачу выбранной студентки характе-

ризуется системой случайных величин — отметками, простав-

ляемыми в приложении к диплому.

Упорядоченный набор случайных величин (X1, X2, …, Xn),

заданных на пространстве элементарных событий, называется

системой n случайных величин. Ее удобно рассматривать как

координаты случайного вектора в n-мерном пространстве. Сис-

тема n случайных величин является функцией элементарного

события, т. е.

(X1, X2, …, Xn) = ϕ(ω). (2.48)

Каждому элементарному событию ω ставится в соответс-

твие n действительных чисел — значения, принятые случай-

ными величинами (X1, X2, …, Xn) в результате опыта.

Случайные величины (X1, X2, …, Xn), входящие в систему,

могут быть дискретными и недискретными (непрерывными и

смешанными). На них распространяются практически без из-

менений все основные определения понятия одной случайной

величины.

Рассмотрим систему двух случайных величин (X;Y). Ее ос-

новные понятия легко обобщаются на случай большего числа

компонентов. Систему двух случайных величин (X;Y) можно

изобразить случайной точкой на плоскости 0XY (рис. 2.18) или

случайным вектором (рис. 2.19).

Полной характеристикой системы случайных величин явля-

ется ее закон распределения, который имеет различные формы:

_ матрица распределения;

_ функция распределения;

_ плотность распределения.

Аналогом ряда распределения дискретной случайной ве-

личины Х для системы двух случайных величин (X,Y) является

матрица распределения — прямоугольная таблица, в которой

располагаются вероятности Pij{X = xi; Y = yj}, i = и j = .

Событие {X = xi; Y = yj} — есть произведение событий {X = xi}

и {Y = yj}.

Матрица распределения двух дискретных случайных ве-

личин имеет вид:

(X;Y):

y1 y2 … ym

(2.49)

x1 P11 P12 P1m

x2 P21 P22 P2m

xn Pn1 Pn2 Pnm

Заметим, что

На рис. 2.20 приведен график распределения двумерной

дискретной случайной величины (X, Y).

Зная матрицу распределения двумерной дискретной слу-

чайной величины (X,Y) можно определить ряды распределения

каждой из компонент (обратное в общем случае невозможно).

Искомые формулы имеют вид:

; (2.50)

Y (X, Y)

X x

Y (X, Y)

X x

Рис. 2.18 Рис. 2.19

. (2.51)

Наиболее универсальной формулой закона распределения

для системы двух случайных величин является функция рас-

пределения, которую мы обозначаем F(x, y).

Функцией распределения двух случайных величин (X,Y)

называется вероятность совместного выполнения неравенства:

X < x и Y < y, т. е.

F(x, y) = {X < x, Y < y}. (2.52)

Геометрически F(x, y) интерпретируется как вероятность

попадания случайной точки (X, Y) в бесконечный квадрат с вер-

шиной в точке (x, y), который располагается левее и ниже ее

(рис. 2.21).

Заметим, что верхняя и правая границы квадрата в него не

включаются.

Если задана матрица распределения двух дискретных

случайных величин (2.49), то функция распределения двумер-

ной случайной величины определяется по формуле:

. (2.53)

Pij

P11

P13

P12

P21 P22 P23

y1 y2 y3

Рис. 2.20

Приведем некоторые свойства функции распределения

двумерной случайной величины.

1. Множество значений функции распределения F(x, y)

принадлежит отрезку [0,1] т. е. 0 ≤ F(x, y) ≤ 1.

2. Функция распределения F(x, y) является неубывающей

функцией обоих своих аргументов, т. е

при x2 > x1 F(x2, y) ≥ F(x1, y);

при y2 > y1 F(x, y2) ≥ F(x, y1).

3. Если хотя бы один из аргументов функции распределе-

ния F(x, y) обращается в -∞, то функция распределения обра-

щается в ноль, т. е.

F(x, -∞) = F(-∞, y) = F(-∞,-∞) = 0.

4. Если оба аргумента функции распределения F(x, y) об-

ращаются в +∞, то она становиться равной единице, т. е. F(+∞,

+∞) = 1.

5. Если один из аргументов функции распределения об-

ращается в +∞, то функция распределения системы двух

случайных величин становятся функцией распределения

случайной величины, которая соответствует другому аргу-

менту, т. е.

F(x, +∞) = F1(x), F(+∞, y) = F2(y),

где F1(x) и F2(y) — функции распределения случайных вели-

чин X и Y соответственно.

(x, y)

Рис. 2.21

6. Функция распределения системы двух случайных ве-

личин F(x, y) непрерывна слева по каждому своему аргумен-

ту, т. е.

;

Зная функцию распределения F(x, y), можно найти веро-

ятность попадания случайной точки (X, Y) в прямоугольник G

со сторонами, параллельными осям координат, ограниченного

абсциссами а, b и ординатами с и d, причем левая и нижняя гра-

ницы включаются в G, а правая и верхняя — не включаются

(рис. 2.22).

P{(X, Y)}∈ G} = F(b, d) − F(a, d) − F(b, c) + F(a, c) (2.54)

a b x

(a, d) (b, d)

(a, c) (b, c)

Рис. 2.22

Если функция распределения F(x, y) непрерывна и диф-

ференцируема по каждому из аргументов, то система двух слу-

чайных величин (X, Y) является непрерывной, причем состав-

ляющие этой системы — непрерывные случайные величины.

Для непрерывных двумерных случайных величин в ка-

честве закона распределения вводится понятие плотности рас-

пределения (или совместной плотности распределения) f(x, y),

которая является второй смешенной частной производной от

функции распределения, т. е.

. (2.55)

Плотность распределения f(x, y) представляет собой неко-

торую поверхность, которую называют поверхностью распре-

деления (рис. 2.23).

fij

Рис. 2.23

Плотность распределения f(x, y) имеет следующие свойства:

1) плотность распределения является неотрицательной

функцией, т. е. f(x, y) ≥ 0;

2) объем, ограниченный поверхностью распределения и

плоскостью 0xy, равен единице, т. е.

3) вероятность попадания случайной точки (X, Y) в область

G определяется формулой

. (2.56)

4) функция распределения системы двух случайных вели-

чин (X, Y) выражается через совместную плотность распреде-

ления следующим образом:

. (2.57)

Как и в случае одной слу-

чайной величины введем поня-

тие элемент вероятности для

системы двух непрерывных

случайных величин: f(x, y)dxdy.

С точностью до бесконечно ма-

лых высших порядков элемент

вероятности f(x, y)dxdy равен

вероятности попадания случай-

ной точки (X, Y) в элементарный

прямоугольник с размерами dx

и dy, примыкающий к точке (x, y) (рис. 2.24).

Эта вероятность приблизительно равна объему элемен-

тарного параллелепипеда с высотой f(x, y), который опирается

на данный прямоугольник.

Плотности распределения одномерных составляющих X и

Y двумерной непрерывной случайной величины находятся по

формулам

(2.58)

Зная совместную плотность распределения двумерной не-

прерывной случайной величины f(x, y), можно найти функцию

распределения каждой из ее составляющих:

; (2.59)

. (2.60)

Если известны законы распределения случайных величин

X и Y, которые входят в систему (X, Y), то можно определить

закон распределения системы только в том случае, если слу-

x x

Рис. 2.24

чайные величины X и Y независимы. Две случайные величины

X и Y будут независимы только в том случае, если закон рас-

пределения каждой из них не зависит от того, какие значения

принимает другая. В противном случае величины X и Y будут

зависимыми.

Приведем без доказательств условия независимости двух

случайных величин.

Теорема 2.2. Для того чтобы две дискретные случайные

величины X и Y, образующие систему (X,Y), были независимы-

ми, необходимо и достаточно выполнение равенства

P{X = xi, Y = yj} = P{X = xi} × P{Y = yj} (2.61)

для и .

Теорема 2.3. Для того чтобы случайные величины X и Y,

входящие в систему (X, Y), были независимыми, необходимо и

достаточно, чтобы функция распределения системы была равна

произведению функций распределения ее составляющих, т. е.

F(x, y) = F1(x) × F2(y). (2.62)

Теорема 2.4. Для того чтобы непрерывные случайные ве-

личины X и Y, входящие в систему (X, Y), были независимыми,

необходимо и достаточно выполнение равенства

f(x, y) = f1(x) × f2(y), (2.63)

т. е. совместная плотность распределения системы (X, Y) долж-

на быть равна произведению плотностей распределения ее со-

ставляющих.

В том случае, если случайные величины X и Y, образую-

щие систему, являются зависимыми, для характеристики их

зависимости вводятся понятия условных законов распределе-

ния случайных величин.

Условных законов распределения в данном пособии ка-

саться не будем. Желающие могут ознакомиться с ними, на-

пример в [8, 25].

Так же, как и одна случайная величина X, систему двух

случайных величин (X, Y) можно задать числовыми характе-

ристиками. В качестве таковых обычно используются началь-

ные и центральные моменты различных порядков.

Начальным моментом порядка (k + s) системы двух слу-

чайных величин (X и Y) называется математическое ожидание

произведения Xk на Ys, т. е.

αk,s = M[Xk Ys]. (2.64)

Центральным моментом порядка (k + s) системы двух слу-

чайных величин (X, Y) называется математическое ожидание

произведения на , т. е.

, (2.65)

где = X − M[X], = Y − M[Y] — центрированные случайные

величины.

Напомним, что порядком начального и центрального мо-

ментов является сумма его индексов, т. е. (k + s).

Приведем формулы для нахождения начального и цент-

рального моментов.

Для системы двух дискретных случайных величин, имеем

; (2.66)

. (2.67)

Напомним, что Pij = P{X = xi, Y = yj}.

Для системы двух непрерывных случайных величин полу-

чаем

. (2.68)

. (2.69)

На практике чаще всего используют начальный и цент-

ральный моменты первого и второго порядков.

Имеются два начальных момента первого порядка:

(2.70)

Они являются математическими ожиданиями случайных

величин X и Y.

Точка с координатами (M[X], M[Y]) на плоскости 0XY — ха-

рактеристика положения случайной точки (X, Y), т. е. ее раз-

брос происходит вокруг точки (M[X], M[Y]).

Оба центральных момента первого порядка равны нулю, т. е.

Имеются три начальных момента второго порядка:

(2.71)

Момент α1,1 часто встречается в приложениях. Из выраже-

ний (2.66) и (2.68) следуют формулы для его вычисления:

− для системы двух дискретной случайной величин

; (2.72)

− для системы двух непрерывных случайных величин

. (2.73)

Имеются три центральных момента второго порядка:

(2.74)

Первые два момента в формулах (2.74) — это дисперсии. А

момент μ1,1 называется ковариацией, или корреляционным мо-

ментом системы случайных величин (X,Y). Для него вводится

специальное обозначение K[X,Y] = Kxy. Из выражений (2.67) и

(2.69) следуют формулы для его вычисления:

− для системы дискретных случайных величин

; (2.75)

− для систем непрерывных случайных величин

. (2.76)

Центральные моменты можно выражать через начальные

и наоборот. Поэтому часто ковариацию выражают через на-

чальные моменты.

K[XY] = M[XY] − M[X] × M[Y] (2.77)

т. е. ковариация системы двух случайных величин равна мате-

матическому ожиданию их произведения минус произведение

их математических ожиданий.

Приведем некоторые свойства ковариации:

1. Ковариация симметрична, т. е. при перемене индексов

местами она не меняется:

K[XY] = K[YX].

2. Дисперсия случайной величины — это ее ковариация

сама с собой, т. е.

K[XX] = D[X], K[YY] = D[Y].

3. Если случайные величины X и Y независимы, то ковари-

ация равна нулю:

K[XY] = 0.

Размерность корреляционного момента равна произведе-

нию размерностей случайных величин X и Y. Удобнее поль-

зоваться безразмерным коэффициентом, характеризующим

только зависимость между случайными величинами X и Y. По-

этому ковариацию делят на произведение средних квадрати-

ческих отклонений σ[X] × σ[Y] и получают коэффициент кор-

реляции:

. (2.78)

Данный коэффициент характеризует степень зависимос-

ти случайных величин X и Y, причем не любой зависимости, а

только линейной. Для любых двух случайных величин X и Y

выполняется неравенство

|rxy| ≤ 1. (2.79)

Если rxy = 0, то линейной зависимости между случайными

величинами X и Y нет и они называются некоррелированными.

Если rxy ≠ 0, то случайные величины X и Y называются корре-

лированными.

Чем ближе rxy к ±1, тем более тесная линейная связь су-

ществует между случайными величинами X и Y. Если rxy = ±1,

то между случайными величинами X и Y существует жесткая

функциональная линейная связь вида

y = ±kx + b.

Из независимости случайных величин X и Y следует их

некоррелированность. Но обратное положение в общем случае

неверно, т. е. если rxy = 0, то это говорит только об отсутствии

линейной связи между случайными величинами. Они могут

быть связаны между собой криволинейной зависимостью.

Рассмотрим конкретный пример.

Пример 2.5

Задана матрица распределения системы двух дискретных

случайных величин (X,Y).

1 2 3

0 0,2 0 0,1

1 0 0,3 0

4 0,2 0,1 0,1

Найти числовые характеристики системы (X,Y): M[X],

M[Y], D[X], D[Y], σ[X], σ[Y], K[XY], rxy. Сделать вывод о наличии

или отсутствии линейной зависимости между случайными ве-

личинами X и Y.

Сначала по формулам (2.50) и (2.51) получим ряды распре-

деления для случайных величин X и Y. В нашем случае они бу-

дут иметь вид:

x 0 1 4

p 0,3 0,3 0,4

y 1 2 3

p 0,4 0,4 0,2

Используя формулы (2.26) для каждого ряда находим ма-

тематическое ожидание:

;

Для нахождения дисперсии используем формулу (2.37):

;

Теперь найдем средние квадратичные отклонения по фор-

муле (2.39):

;

Для нахождения ковариации используются формула

K[XY] = M[XY] − M[X]M[Y].

Сначала вычисляем начальный момент 2-го порядка по

формуле (2.72)

= 0 ⋅ 1 ⋅ 0,2 + 0 ⋅ 2 ⋅ 0 + 0 ⋅ 3 ⋅ 0,1 + 1 ⋅ 1 ⋅ 0 +

+ 1,2 ⋅ 0,3 + 1,3 ⋅ 0 + 4 ⋅ 1 ⋅ 0,2 +4 ⋅ 2 ⋅ 0,1 + 4 ⋅ 3 ⋅ 0,1 =

= 0,6 + 0,8 + 0,8 + 1,2 = 3,4.

Поэтому ковариация будет равна

K[XY] = 3,4 − 1,9 ⋅ 1,8 = -0,02.

А теперь по формуле (2.78) находим коэффициент корре-

ляции:

Из полученного значения коэффициент корреляции дела-

ем вывод о том, что линейная зависимость между случайными

величинами практически отсутствует и их можно считать не-

зависимыми.