Проверочная выборка (validation sample)
Часть общей выборки, которую используют для проверки результатов расчета на основании анализируемой выборки.
Часто распределение количества случаев в анализируемой и проверочной выборки явствует распределения в общей выборке. Например, если общая выборка содержит 50% лояльно и 50% нел яльно настроенных покупателей, то анализируемая и проверочная выборки должны каждая соде жать 50% лояльных и 50% нелояльных покупателей. В другом случае, если выборка содержит 2* лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выбор таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).
И наконец, проверку достоверности дискриминантной функции предлагают выполнять i однократно. Каждый раз выборку следует разбивать на две части: для анализа и проверки. Выч^ ляют дискриминантную функцию и выполняют анализ достверности модели. Таким образе оценка достоверности основана на ряде испытаний. Предлагаются также более точные методы [i
Чтобы лучше проиллюстрировать дискриминантный анализ для двух групп, обратимся примеру. Предположим, что мы хотим определить главные характеристики семей, которые с дыхали на курорте в последние два года. Данные получены на основании выборки, включа щей 42 семьи. Из них 30 включены (как показано в табл. 18.2) в анализируемую выборку, а с тавшиеся 12 (как показано в табл. 18.3) стали частью проверочной выборки.
Таблица 18.2. Информация об отдыхе на курорте: анализируемая выборка
Номер Посещение Ежегодный Отношение Значение, Размер Возраст Сумма,
курорта доход семьи к путешествию придаваемое семьи главы семьи потраченная (в тысячах семейному семьей на отд
долларов) отдыху
| 50,2 | С (2) | ||||||
| 70,3 | Б(3) | ||||||
| 62,9 | Б(3) | ||||||
| 48,5 | М(1) | ||||||
| 52,7 | Б(3) | ||||||
| 75,0 | Б(3) | ||||||
| 46,2 | С (2) | ||||||
| 57,0 | С (2) | ||||||
| 64,1 | Б(3) | ||||||
| 68,1 | Б(3) | ||||||
| 73,4 | Б(3) | ||||||
| 71,9 | Б(3) | ||||||
| 56,2 | С (2) | ||||||
| 49,3 | Б(3) | ||||||
| 62,0 | Б(3) | ||||||
| 32,1 | М(1) | ||||||
| 36,2 | М(1) | ||||||
| 43,2 | С (2) | ||||||
| 50,4 | С (2) | ||||||
| 44,1 | С (2) |
Окончание табл. 18.2
| Номер | Посещение курорта | Ежегодный доход семьи (в тысячах долларов) | Отношение к путешествию | Значение, придаваемое семейному отдыху | Размер семьи | Возраст главы семьи | Сумма, потраченная семьей на отдых |
| 38,3 | М(1) | ||||||
| 55,0 | С (2) | ||||||
| 46,1 | М(1) | ||||||
| 35,0 | М(1) | ||||||
| 37,3 | М(1) | ||||||
| 41,8 | С (2) | ||||||
| 57,0 | С (2) | ||||||
| 33,4 | М(1) | ||||||
| 37,5 | М(1) | ||||||
| 41,3 | М(1) | ||||||
| Таблица 18.3. | Информация | об отдыхе на | курорте: проверочная | выборка | |||
| Номер | Посещение курорта | Ежегодный доход семьи (в тысячах долларов) | Отношение к путешествию | Значение, придаваемое семейному отдыху | Размер семьи | Возраст главы семьи | Сумма, потраченная семьей на отдых |
| 50,8 | 7 | С (2) | |||||
| 63,6 | Б(3) | ||||||
| 54,0 | С (2) | ||||||
| 45,0 | С (2) | ||||||
| 68,0 | Б(3) | ||||||
| 62,1 | Б(3) | ||||||
| 35,0 | М(1) | ||||||
| 49,6 | М(1) | ||||||
| 39,4 | Б(3) | ||||||
| 37,0 | М(1) | ||||||
| 54,5 | С (2) | ||||||
| 38,2 | МО) |
Семьям, которые отдыхали на курорте в последние два года, присвоен код 1; тем же, которые не посетили курорт за указанный период времени, присвоен код 2. Обе выборки (как анализируемая, так и проверочная) сбалансированы с точки зрения посещаемости курорта. Как видно, анализируемая выборка содержит 15 семей каждой категории, а проверочная — по 6 семей каждой категории. Кроме того, получены данные о ежегодном доходе каждой семьи (доход), отношении к путешествию (путешествие, оценивали по девятибалльной шкале), значении, придаваемом семейному отдыху (отдых, оценивали по девятибалльной шкале), размеру семьи (размер семьи) и возрасту главы семьи (возраст).
Определение коэффициентов дискриминантной функции
После определения анализируемой выборки (табл. 18.2) мы можем вычислить коэффициенты дискриминантной функции, используя два метода. Прямой метод (direct method) — вычисление дискриминантной функции при одновременном введении всех предикторов.
Часть III. Сбор, подготовка и анализ данных