Предварительное исследование данных

ОБЩАЯ ХАРАКТЕРИСТИКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

Источники и вид представления экспериментальных данных

 

ВВЕДЕНИЕ. СОВРЕМЕННЫЕ ПРОБЛЕМЫ

ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

ТЕМА 1

Введение

Предметом изучения данного курса являются методы обработки и анализа экспериментальных данных.

Мы непрерывно перерабатываем информацию, которая поступает из окружающего мира. Причём, количество разнообразной информации быстро растёт. Поэтому, без адекватных технологий обработки и анализа данных сложно выжить в жестокой информационной среде, не имея возможности принять правильное решение.

Конечно, развитие компьютерных и информационных технологий обусловило появление целого ряда программных комплексов, которые помогают обрабатывать информацию.

Такие коммерческие пакеты прикладных программ, как: Mathcad, MatLab, Statistica, Matematica или свободно распостраняемые- Scilab, Octavia позволяют решать практически любую, возникающую в практической деятельности задачу. Но каждый инструмент имеет свою область применения и условия, в которых он используется. Поэтому, крайне важно, чтобы пользователь этих пакетов умел формулировать задачу и чётко понимать условия их применения. Решение прикладных задач немыслимо без фундаментальной подготовки специалиста в области методов анализа экспериментальных данных.

Обработка и анализ различных данных являются необходимым этапом при принятии управленческого решения в любой области деятельности.

Мощные компьютеры, информационные технологии, развитый аппарат прикладной математики обеспечивают выработку обоснованных рекомендаций по принятию конкретного решения.

В общем виде процедура выработки рекомендаций по принятию решения может быть сведена к следующей триаде:

1) Разработке средствами математического моделирования

формализованной математической модели, с помощью которой должно

приниматься решение на основании содержательного существа проблемы и с

учетом всех существенных ограничений и имеющихся эмпирических данных,

создающих основу принимаемого решения.

2) Выбору из арсенала средств прикладной математики метода

обработки данных с использованием уже построенной их математической

модели и разработкой соответствующего алгоритмического обеспечения.

3) Машинной реализации разработанных алгоритмов и передача

получаемых рекомендаций заинтересованным лицам.

 

Четыре основных этапа анализа данных

На начальной стадии анализа данные или не собраны, или еще даже не

принято решение о том, какие данные следует изучать. Эти вопросы решают

на этапе планирования таким образом, чтобы получить действительно

полезную информацию. Когда данные есть в наличии, на этапе исследования

проводится их первичный (предварительный) анализ. Следующий этап –

оценки – позволяет получить на основе данных числовое значение

неизвестной величины. Наконец, на последнем этапе – построение моделей и

проверке гипотез – данные используются для принятия решения о

соответствии выдвинутого предположения действительности. Рассмотрим все

эти этапы по очереди.

Планирование и сбор данных

Планирование сбора данных в маркетинговых исследованиях называют планированием выборочного исследования, а в изучении оптимизации производственного процесса – планированием эксперимента.

Эта стадия планирования исследования включает составление подробного плана сбора данных. Тщательное составление плана поможет избежать лишних расходов и разочарования, если окажется (и будет уже слишком поздно), что собранные данные неадекватны основным поставленным вопросам. Разумный план также включает определение необходимого объема данных, достаточного для анализа, но не настолько большого, чтобы быть излишне расточительным. Таким образом, заранее составленный план удерживает стоимость проекта в разумных рамках и гарантирует, что стадия

анализа будет протекать достаточно гладко.

Анализ данных особенно полезен тогда, когда есть большая группа

людей, фирм или других объектов (генеральная совокупность), которая вас

интересует, но вы не можете себе позволить провести полное исследование.

Вместо этого, чтобы получить полезное, но неидеальное понимание ситуации

в этой генеральной совокупности, можно отобрать небольшую группу

(выборку), состоящую из некоторых (но не всех) объектов генеральной

совокупности. Процесс обобщения результатов исследования выборки на всю

совокупность называется статистическим выводом. Случайная выборка

является одним из наилучших способов извлечь для подробного изучения

выборку из генеральной совокупности, которая слишком велика, чтобы ее

можно было изучать полностью. Случайное извлечение выборки преследует

две цели.

1. Гарантировать, что процесс извлечения выборки является беспристрастным, т.е. все объекты генеральной совокупности имеют равные шансы быть отобранными. Поэтому в среднем выборки являются представительными (репрезентативными) для данной генеральной совокупности (хотя каждая отдельная случайная выборка обычно является

репрезентативной только приближенно, но не идеально).

2. Случайность, введенная контролируемым способом на стадии планирования проекта, гарантирует валидность (корректность) последующих статистических выводов.

Предварительное исследование данных

Как только вы получаете набор данных, вам хочется проверить его. В ходе предварительного исследования данные анализируются с разных точек зрения, описываются и обобщаются. Это позволяет убедиться, что данные представляют собой именно то, что необходимо, и нет никаких очевидных проблем. Но хорошо выполненное предварительное исследование двояко готовит вас к проведению формального анализа.

1. Путем проверки, что ожидаемые связи действительно существуют в

данных, и, таким образом, запланированные методы анализа адекватны

данным.

2. Путем обнаружения в данных неожиданной структуры, которую

необходимо принять во внимание, что предполагает внесение изменений в

план анализа.

Предварительное исследование является первой стадией. Часто

недостаточно полагаться на формальный, автоматизированный анализ・,

который предполагает, что набор данных, вводимых в компьютер, "ведет себя

хорошо". Всякий раз при возможности самостоятельно изучайте данные,

чтобы убедиться, что все в порядке, т.е. нет больших ошибок и наблюдаемые

в данных зависимости между параметрами соответствуют типу

запланированного анализа. Эта стадия поможет внести в данные коррективы,

выбрать соответствующий метод анализа и обосновать использование

необходимых в дальнейшем методов анализа данных.