Особенности и общие принципы статистического анализа биомедицинских данных
Цель: Изучить особенности и общие принципы статистического анализа биомедицинских данных.
Необходимо знать: особенности анализа биомедицинских данных, этапы анализа данных, программные средства анализа данных: пакеты и их категории, электронные таблицы, принципы и технологию обработки числовой информации при помощи Microsoft Excel.
Необходимо уметь: вводить информацию в электронную таблицу Microsoft Excel; выделять ячейки; изменять их размеры; объединять ячейки; использовать функцию автозаполнения; оформлять таблицу; создавать и форматировать диаграммы, выполнять расчеты по формулам.
Особенности анализа биомедицинских данных
В медицинской практике и, особенно, в медицинских исследованиях часто применяются различные методы анализа и обработки данных. Математика, в частности статистика, широко используется в медицине. Математические методы позволяют объективно оценивать количественные результаты исследований.
Для любого врача, связанного с экспериментальными исследованиями, совершенно очевидна необходимость использования статистических методов в своей работе. При этом роль используемых статистических методов двояка: с одной стороны они позволяют обнаружить ранее неизвестные закономерности, с другой, с их помощью авторы проверяют достоверность априорно формулируемых выводов.
Важнейшим условием при анализе данных является корректность и грамотность применения статистических методов.
Долгое время анализ медицинских данных оставался уделом специалистов, так как требовал весьма серьезной математической подготовки. В настоящее время с появлением современных технологий необходимые статистические исследования врач может провести самостоятельно, используя разнообразные компьютерные пакеты программ.
Использование компьютера делает достаточно сложные методы анализа медицинских данных более доступными и наглядными: теперь не требуется вручную выполнять трудоемкие расчеты по сложным формулам, строить таблицы и графики. Если раньше для анализа данных в первую очередь требовалось глубокое знание статистики и владение методами расчетов, то в современной компьютерной технологии обработки данных более важным стало умение работать с пакетами для обработки данных.
Анализ данных с использованием статистического пакета включает несколько этапов.
1. Планирование исследования. Необходимо спланировать исследование с учетом последующей обработки данных, чтобы избежать ситуации, когда некоторые наблюдения оказываются лишними, а каких-то не хватает для реализации выбранных методов анализа. Однако на практике на начальных этапах исследования часто нет полной ясности о методах обработки результатов исследований. Поэтому следует ориентироваться на наиболее часто используемые методы обработки медицинских данных и требования к исходному материалу, предъявляемые ими.
2. Подготовка данных к анализу. Это крайне важный, часто недооцениваемый этап работы. Обычно он включает: ввод данных, предварительное преобразование данных, визуализацию данных с целью формирования представления об исходном материале. В настоящее время практически отпадает необходимость в предварительном структурировании, построении необходимых выборок, ранжировании и т.д. Эти задачи в современных пакетах автоматизированы и выполняются непосредственно при реализации выбранного метода анализа.
3. Предварительный анализ данных. На этом этапе формируется представления о типе анализируемых данных, когда выясняется структура, определяются зависимости между данными, производится их группировка.
4. Выбор и реализация метода анализа. В связи с многообразием методов выбор может быть весьма затруднителен. Однако в современных пакетах введенные данные достаточно просто обработать с использованием различных процедур, а затем можно выбрать метод, дающий наилучшие результаты.
5. Интерпретация результатов анализа. Этот этап часто вызывает затруднения у исследователей-медиков в связи с ограниченностью знаний в области статистики. Поэтому к интерпретации результатов анализа следует относиться особенно внимательно, точно следуя указаниям соответствующих руководств. Это же касается и практических рекомендаций и выводов, которые осуществляются на основе результатов статистического анализа.
6. Представление результатов. Является одним из важнейших компонентов качества применения статистических методов. Поэтому полнота и уровень описания, как самого анализа, так и его результатов, наглядность их представления не должны снижать общий уровень выполненной работы, что особенно важно при оформлении диссертации.
Программные средства анализа данных
Большое значение имеет программное средство (статистический пакет), которое используется при компьютерном анализе. Для обработки медицинских данных обычно используют два типа программных средств: пакеты обработки данных и электронные таблицы.
Пакеты обработки данных.
Число пакетов для обработки данных, получивших распространение в России, достаточно велико. Среди них, как отечественные программы, так и пакеты иностранного производства.
Основную часть имеющихся пакетов для обработки данных можно отнести к трем категориям:
1. Специализированные пакеты обычно содержат методы из одного – двух разделов статистики или методы, используемые в конкретной предметной области. (Data Scope, Класс-Мастер, САНИ и др.)
2. Пакеты общего назначения или универсальные. Благодаря отсутствию ориентации на специфическую предметную область, широкому диапазону статистических методов, дружелюбному интерфейсу пользователя они являются наиболее удобными и часто применяемыми. Практически все медицинские задачи по обработке данных могут быть решены с помощью универсальных пакетов. (STATISTICA, STADIA и др.)
3. Профессиональные пакеты предназначены для пользователей, имеющих дело со сверхбольшими объемами данных или узкоспециализированными методами анализа. (SAS, BMDP и др.)
Практически все статистические пакеты обеспечивают широкий набор средств визуализации данных: построение графиков, двух- и трехмерных диаграмм, а часто и различные средства деловой графики.
Электронные таблицы.
Электронные таблицы или табличные процессоры менее удобны для анализа медицинских данных. Тем не менее, простейшая статистическая обработка данных в диссертационных работах часто проводится с помощью электронных таблиц вследствие их широкой распространенности.
Электронные таблицы предназначены, в основном, для организации относительно несложных расчетов с большим количеством идентичных данных. Эти программы позволяют вычислять значения элементов таблиц по заданным формулам, строить по данным в таблице различные графики и т.д. Многие из них предоставляют и дополнительные возможности, например, трехмерные таблицы, связь с базами данных и другие функции.
Наиболее популярные электронные таблицы: Microsoft Excel, Suprecalc, Lotus 1-2-3 и другие. Остановимся подробнее на первой из них.
Основные принципы обработки информации при помощи табличного процессора Microsoft Excel
Для обработки и представления числовой информации часто используются таблицы. Компьютер позволяет создавать электронные таблицы, отображать и обрабатывать в них данные. Класс прикладных программ, используемых для этой цели, называется электронными таблицами или табличными процессорами. Особенность электронных таблиц заключается в возможности применения формул для описания связи между значениями различных ячеек. Расчет по заданным формулам выполняется автоматически. Изменение содержимого какой-либо ячейки приводит к пересчету значений всех, связанных с ней математическими соотношениями, ячеек, и, тем самым, к обновлению всей таблицы в соответствии с изменившимися данными.
Потребность в использовании для обработки числовой информации электронной таблицы возникает в том случае, если имеется большой объем данных, подлежащих однотипной обработке, а математические расчеты выполняются по сравнительно простым формулам. Если исходных данных сравнительно немного, а создание таблицы производится однократно, то удобнее воспользоваться калькулятором, а при необходимости выполнения сложных математических расчетов приходится разрабатывать специальные программы, ориентированные на решение только данной задачи.
Одним из наиболее распространенных табличных процессоров является Microsoft Excel. Он обладает широким кругом различных возможностей. Однако в практике врача наиболее важны следующие: построение таблиц, создание диаграмм, элементарная статистическая обработка данных.
Рабочее окно Excel в общих чертах идентично окну Word. Однако в отличие от последнего, оно имеет строку формул, строки имен столбцов и строк. Документ Excel называется рабочей книгой. Рабочая книга представляет собой набор рабочих листов, каждый из которых имеет табличную структуру – состоит из ячеек (минимальных элементов для хранения данных), образующих в совокупности строки и столбцы. Каждая ячейка имеет адрес, сочетающий в себе номер столбца и строки. При помощи адреса на ячейку можно ссылаться в формулах. Также можно ссылаться на группу рядом расположенных ячеек, как на единое целое. Такая группа называется диапазоном.
Вычисления в Excel осуществляются при помощи формул, которые составляются по определенным правилам. При составлении электронных таблиц беспрекословно следует соблюдать следующий принцип: если значение ячейки зависит от других ячеек, для его определения нужно всегда использовать формулу. Это гарантирует, что последующее редактирование таблицы не нарушит ее целостности и правильности вычислений.
Необходимо помнить, что Excel не является программой статистической обработки – это дополнительная функция программы и поэтому ее нельзя рекомендовать для работы с серьезным научным материалом. Для этого существуют специализированные пакеты для статистических расчетов. Наиболее приспособленной и доступной программой для работы с медицинскими данными является пакет STATISTICA.
ЗАДАНИЕ
Создайте диаграмму «Рождаемость и смертность в Ставропольском крае за 1996-2005 годы» по следующим данным: