Условные законы распределения
Рассмотрим сначала случай, когда вектор
имеет дискретное распределение

Где
пробегает конечное или счетное множество возможных значений
.
Пусть имеется функция
Условным распределением
при условии
назовем совокупность условных вероятностей при фиксированном 
(3.8)
Не более, чем счетное число вероятностей (3.8) отличны от нуля; t выбираем такими, чтобы знаменатель в (3.8) не был равен нулю.
Если
– числовая функция от векторного аргумента
будет случайной величиной. Ее математическое ожидание равно

Условное математическое ожидание
определим с помощью условного распределения (3.8):
=
=
. (3.9)
Как видно из (3.9), условное математическое ожидание
есть функция от
. Обозначим ее
Подставляя вместо
случайную величину
мы получаем, что условное математическое ожидание есть случайная величина
Вычислим математическое ожидание от 
=
.
Таким образом, мы показали, что
(3.10)
т.е. при вычислении математического ожидания от
сначала можно вычислить условное математическое ожидание
при условии
а затем усреднить это условное математическое ожидание по вероятностям условий.
Формула (3.10) сохраняет смысл и в том случае, когда ξ имеет не дискретное распределение, а, например, имеет плотность P(x)=P(x1, …, xn). Пусть плотность
непрерывна в точке
, тогда при 
=
Вычислим условную вероятность
=
.
Переходя к пределу по ∆i→0 , получаем
P{xi<ξi<xi + ∆1, …, xm<ξm<xm + ∆m │ xi<ξi<xi +∆i, i=
} →
, (3.11)
где 
Предел левой части (3.11) называют условной плотностью ξ1,…, ξm при заданныхξm+1,…, ξn:

Математические ожидания

можно вычислять по формуле (3.10), вычислив сначала математическое ожидание
и осредняя его затем по
:
(3.12)
Формулу (3.12) можно вывести и в более общем случае. Пусть имеются дифференцируемые функции t1=t1(x), t2=t2(x),…, tm=tm(x). Предположим, что к ним можно подобрать функции yj=yj(x), j=1,…,n-m, такие, что преобразование С, задаваемое функциями
ti=ti(x), i=1,…,m,
yj=yj(x), j=1,…,n-m, (3.13)
взаимно однозначно в соответствующей области. Тогда плотности Рξ(х) и Рτ,η(t,y), где τi = ti(ξ), ηj = yj(ξ), τ=(τ1,…,τm), η=(η1,…, ηn-m), t=(t1,…,tm), y=(y1,…,yn-m), будут связаны равенством
Рξ(х)=Рτ,η(t,y)│J│, (3.14)
где J – якобиан преобразования С. Пусть имеется функция g(ξ1,…, ξn). Вычислим условное математическое ожидание g(ξ1,…, ξn) при условии τ=t. Обозначим xk(t,y)=xk, k=
, x(t,y)= (x1(t,y),…, xn(t,y)) функции, задающие обратное преобразование С-1. Тогда

и
(3.15)
(Здесь мы воспользовались равенством (3.14)).
Достаточные статистики
Определение 1. Пусть ξ=(ξ1,…, ξn) - векторная случайная величина, распределение которой Р(x;
) зависит от параметра
и t(x)=(t1(x),…,tm(x)) - векторная функция (набор m статистик) от х=(х1, …, хn). Мы будем называть t(х) достаточной статистикой, если условное распределение ξ=(ξ1,…, ξn) при условии t(ξ)=t не зависит от параметра
.
Мы будем далее иметь в виду два случая: либо Рξ(x;
) - дискретное распределение вероятностей, либо Рξ(x;
) n-мерная плотность и существует взаимно однозначное преобразование С: х=(х1, …, хn) в (t;y), задаваемое формулами (3.13).
Оценки, зависящие только от достаточных статистик, обладают преимуществами по сравнению с другими оценками. Во-первых, они используют не всю информацию, содержащуюся в выборке (3.1), а лишь ту ее часть, которая существенна для оценки параметра. Во-вторых, каждой несмещенной оценке
с конечной дисперсией соответствует другая несмещенная оценка
, зависящая от достаточной статистики, с D
< D
.
Прежде всего, докажем критерий факторизации, позволяющий легко находить достаточные статистики.
Теорема 2. Если распределение Р(x;
) представлено в виде
Р(x;
) =g(t(x);
)h(x) (3.16)
то t(х) есть достаточная статистика.
Доказательство. Рассмотрим сначала дискретное распределение Согласно формуле (3.8) условная вероятность ξ=х при условии t(ξ)=t равна
(3.17)
Если выполнено (3.16), то из (3.17) получаем

т.е. t(х) – достаточная статистика.
Если, наоборот, условная вероятность
=
не зависит от параметра
, то из теоремы умножения вероятностей имеем
Р(x;
) =

где
- распределение t, т.е. имеет представление (3.16).
Если Р(x;
) - плотность, то будем предполагать, что имеется преобразование (3.13) и плотности Рξ(x;
) и Pτ,η(t;y;
) связаны соотношением (3.14).
Тогда условная плотность η при условии τ=t, равная

и, следовательно, не зависят от
. Так как

не зависит от
, то, взяв g(x)=1 для х
В и g(х)=0 для х
В, где В
Вn – борелевское множество из Rn, получаем, что Р{ξ
B|τ=t} не зависит от
при любом В
Вn, то есть t - достаточная статистика. Пусть наоборот
не завит от
.
Тогда из

и (3.14) имеем

т.е. плотность представлена в виде (3.16).
Теорема 3. (Колмогорова-Блекуэлла)
Пусть t - достаточная статистика семейства распределений Р(x;
), а
(x) - несмещенная оценка параметра с конечной дисперсией, построенная по выборке (3.1). Тогда условное математическое ожидание
при фиксированном t

будет несмещенной оценкой
с дисперсией
D
D
.
Доказательство. Из свойства (3.15) имеем
M 
т.е. оценка
несмещена (
действительно является оценкой,
так как не зависит от
, поскольку - достаточная статистика).
Вычислим D
:
D
=M(
-
)2 = M(
-
+
-
)2 =
= M(
-
)2 + M(
-
)2 + 2M(
-
) (
-
). (3.18)
Так как
M(
-
) (
-
)= M[M(
-
) (
-
)|t]= M[(
-
) M{(
-
)|t}],
а M{(
-
)|t}=0, то из (3.18) D
D
. Теорема доказана.
Пример 1. Пусть выборка (3.1) взята из схемы Бернулли (хi=1, если в i-м испытании был успех, хi=0 в противоположном случае). Параметром в этом случае служить вероятность p. Вероятность появления выборки (3.1) равна

откуда по критерию факторизации следует, что число успехов х1+…+хn есть достаточная статистика.
Пример 2. Пусть (3.1) – независимая выборка из нормального распределения с параметрами (а,ξ). Тогда по критерию факторизации

т.е.
и
- достаточные статистики.
Эффективность оценок
Как мы видели в п.3.3, несмещенные оценки
параметра
с меньшей дисперсией предпочтительней остальных оценок. Естественно поставить вопрос о нахождении оценок с наименьшей дисперсией. Некоторый подход к решению этого вопроса дает неравенство Рао-Крамера. Пусть p(x;
)=p(x1,…,xn;
) - плотность, зависящая от параметра
, а
=φ(x)=φ(x1,…,xn) - оценка параметра
по выборке x1,…,xn не обязательно несмещенная. Обозначим g(
)=M
=
. Предположим, что выполнены некоторые условия регулярности, при которых интегралы

можно дифференцировать по параметру
. В этом случае справедливы равенства
(3.19)
(3.20)
Величина, равная математическому ожиданию (здесь ξ имеет распределение P(ξ;
))
(3.21)
называется информацией Фишера относительно семейства p(х;
).
Теорема 4. (Неравенство Рао-Крамера). Если семейство плотностей p(х;
) и оценка
=φ(х) таковы, что выполнены условия (3.19) и (3.20), то имеет место неравенство:
(3.22)
Доказательство. Условия (3.19) и (3.20) перепишем в эквивалентном виде:

. (3.23)
Умножим первое из тождеств (3.23) на g(
) и вычтем его из второго:
(3.24)
Полагая в (3.24) φ1(х)=φ(х)- g(
), φ2(х)=
, применим неравенство Коши-Буняковского

Имеем отсюда:

а это равносильно неравенству (3.22).
Замечание 1. Теорема 4 остается справедливой, если под
p(х;
) понимать вероятности дискретного распределения, а под интегралами – суммы.
Замечание 2. Если тождества (3.19) можно еще раз дифференцировать по
:

то информацию Фишера (3.21) можно записать в другом виде:
(3.25)
В самом деле, обозначая
имеем 
откуда

что и утверждалось.
Замечание 3. Из первого тождества (3.23) следует M
, поэтому информацию Фишера (3.21) можно записать иначе:

Замечание 4. Если х1,…,хn независимы, то их совместная плотность pn(х1,…,хn;
) есть произведение одномерных плотностей:
pn(х1,…,хn;
) =
.
В этом случае информация Фишера
зависит от n линейно:
(3.26)
где
- информация Фишера одного наблюдения хk, а (3.22) превращается в неравенство следующего вида:
(3.27)
Формула (3.26) следует из
.
Замечание 5. Если оценка
несмещенная, то
, и в неравенствах (3.22) и (3.27) числитель равен
. В условиях теоремы 4 неравенства (3.22) и (3.27) дают оценку снизу дисперсии оценок
. Ниоткуда не следует, что эта оценка достигается, однако во многих важных случаях, как мы увидим ниже, она является нижней границей дисперсии
хотя бы в асимптотическом смысле при n→∞.
Пример 3. Пусть х1,…,хn- независимая выборка из нормального распределения с параметрами (а, σ), σ - известно. Так как
,
,
то

Для оценки
имеем

т.е. в этом случае в (3.27) достигается равенство.
Ниже мы всегда будем полагать, что условия теоремы 4 выполнены.
Определение 2. Назовем эффективностью оценки
отношение

Оценка
с эффективностью е(
)=1 называется эффективной.
Оценка
в примере 1 эффективна. Если неравенство в (3.22) или (3.27) для некоторой оценки превращается в равенство, то эффективность оценки
- это отношение минимально возможной дисперсии к дисперсии данной оценки:

Эффективность всегда удовлетворяет неравенствам 0≤е(
)≤1. Конечно, при нарушении условий теоремы 4 равенства (3.22) и (3.27) могут не выполняться и могут существовать “сверхэффективные” оценки
с дисперсией D
, убывающей при n→∞ быстрее, чем
.
Пример 4. Пусть х1,….,хn – независимая выборка из распределения с плотностью

В этом случае нарушается условие теоремы (3.19) и оценка
=min xk обладает “сверхэффективностью”, так как
1≤ k<n
.
Важным понятием в теории статистических оценок является также асимптотическая эффективность. Будем предполагать условия теоремы 4 выполненными.
Определение 3. Асимптотической эффективностью е0(
n) оценки
n=
n(х1,….,хn), построенной по независимой выборке х1,…,хn, назовем предел

если он существует. Оценка
n называется асимптотически эффективной, если е0(
n)=1. Таким образом, если
- несмещенная оценка с асимптотической эффективностью е0(
), то ее дисперсия при больших n асимптотически равна [е0(
)·n·J1
]-1.
Для асимптотически нормальных при n→∞ оценок
n полезно другое определение асимптотической эффективности.
Определение 4. Если оценка
n при n→∞ асимптотически нормальна с параметрами
, то ее асимптотической эффективностью называется отношение:
,
т.е. в этом случае за математическое ожидание и дисперсию оценки
мы принимаем математическое ожидание и дисперсию аппроксимирующего нормального закона распределения. Аналогично, если е0(
)=1, то оценка будет называться асимптотически эффективной.
Методы нахождения оценок
Метод моментов
Пусть х1,…,хn - независимая выборка из распределения с плотностью р(х;
), зависящей от r параметров
. предположим, что все моменты

конечны, и что система уравнений
,
однозначно разрешима, причем её решение
,
выражается при помощи непрерывных обратных функций
.
При этих условиях имеет место
Теорема 5. Оценки
, получаемые как решение системы:
, (3.28)
где
- выборочные моменты, состоятельны.
Доказательство. Согласно нашим предположениям, система (3.28) имеет единственное решение:

причем
- непрерывные функции. По усиленному закону больших чисел
сходятся п.н. к mk , а из непрерывности функций
отсюда следует, что
k при n→∞ п.н. (почти наверное , т.е. с вероятностью, равной 1) сходятся к
.
Метод моментов дает состоятельные оценки, но часто их эффективность и асимптотическая эффективность меньше 1.