Проверочная выборка (validation sample)

Часть общей выборки, которую используют для проверки результатов расчета на основании анализируемой выборки.

Часто распределение количества случаев в анализируемой и проверочной выборки явствует распределения в общей выборке. Например, если общая выборка содержит 50% лояльно и 50% нел яльно настроенных покупателей, то анализируемая и проверочная выборки должны каждая соде жать 50% лояльных и 50% нелояльных покупателей. В другом случае, если выборка содержит 2* лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выбор таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).

И наконец, проверку достоверности дискриминантной функции предлагают выполнять i однократно. Каждый раз выборку следует разбивать на две части: для анализа и проверки. Выч^ ляют дискриминантную функцию и выполняют анализ достверности модели. Таким образе оценка достоверности основана на ряде испытаний. Предлагаются также более точные методы [i

Чтобы лучше проиллюстрировать дискриминантный анализ для двух групп, обратимся примеру. Предположим, что мы хотим определить главные характеристики семей, которые с дыхали на курорте в последние два года. Данные получены на основании выборки, включа щей 42 семьи. Из них 30 включены (как показано в табл. 18.2) в анализируемую выборку, а с тавшиеся 12 (как показано в табл. 18.3) стали частью проверочной выборки.

Таблица 18.2. Информация об отдыхе на курорте: анализируемая выборка

Номер Посещение Ежегодный Отношение Значение, Размер Возраст Сумма,

курорта доход семьи к путешествию придаваемое семьи главы семьи потраченная (в тысячах семейному семьей на отд

долларов) отдыху

50,2 С (2)
70,3 Б(3)
62,9 Б(3)
48,5 М(1)
52,7 Б(3)
75,0 Б(3)
46,2 С (2)
57,0 С (2)
64,1 Б(3)
68,1 Б(3)
73,4 Б(3)
71,9 Б(3)
56,2 С (2)
49,3 Б(3)
62,0 Б(3)
32,1 М(1)
36,2 М(1)
43,2 С (2)
50,4 С (2)
44,1 С (2)

Окончание табл. 18.2

Номер Посещение курорта Ежегодный доход семьи (в тысячах долларов) Отношение к путешествию Значение, придаваемое семейному отдыху Размер семьи Возраст главы семьи Сумма, потраченная семьей на отдых
38,3 М(1)
55,0 С (2)
46,1 М(1)
35,0 М(1)
37,3 М(1)
41,8 С (2)
57,0 С (2)
33,4 М(1)
37,5 М(1)
41,3 М(1)
Таблица 18.3. Информация об отдыхе на курорте: проверочная выборка  
Номер Посещение курорта Ежегодный доход семьи (в тысячах долларов) Отношение к путешествию Значение, придаваемое семейному отдыху Размер семьи Возраст главы семьи Сумма, потраченная семьей на отдых
50,8 7 С (2)
63,6 Б(3)
54,0 С (2)
45,0 С (2)
68,0 Б(3)
62,1 Б(3)
35,0 М(1)
49,6 М(1)
39,4 Б(3)
37,0 М(1)
54,5 С (2)
38,2 МО)

Семьям, которые отдыхали на курорте в последние два года, присвоен код 1; тем же, кото­рые не посетили курорт за указанный период времени, присвоен код 2. Обе выборки (как ана­лизируемая, так и проверочная) сбалансированы с точки зрения посещаемости курорта. Как видно, анализируемая выборка содержит 15 семей каждой категории, а проверочная — по 6 се­мей каждой категории. Кроме того, получены данные о ежегодном доходе каждой семьи (доход), отношении к путешествию (путешествие, оценивали по девятибалльной шкале), зна­чении, придаваемом семейному отдыху (отдых, оценивали по девятибалльной шкале), размеру семьи (размер семьи) и возрасту главы семьи (возраст).

Определение коэффициентов дискриминантной функции

После определения анализируемой выборки (табл. 18.2) мы можем вычислить коэффици­енты дискриминантной функции, используя два метода. Прямой метод (direct method) — вы­числение дискриминантной функции при одновременном введении всех предикторов.

Часть III. Сбор, подготовка и анализ данных