Часть 2. Общая классификация архитектур информационных приложений

Введение

Предлагаемый материал содержит доступную автору (возможно, не исчерпывающую) информацию по поводу проектирования, разработки, сопровождения и реинжиниринга информационных систем. Информация - это самое ценное достижение человечества. Она ценнее, чем алмазы и золото. Информация помогает нам жить. Информационные системы дают нам шанс на то, чтобы выжить. Грубо говоря, "data and knowlegment mining", т.е. добыча данных и знаний является нашей основной задачей. Задачей не русских, не японцев, не американцев, не какой-то конкретной страны, но всего человечества. Мы все непрерывно накапливаем данные и знания, но проблема состоит в том, чтобы все это переварить и полезно использовать. Для этого и предназначены компьютеризованные информационные системы. Они служат нам, чтобы более быстро, более надежно обработать информацию, чтобы люди не тратили рутинное время, чтобы избежать свойственных человеку случайных ошибок, чтобы сэкономить расходы, чтобы сделать жизнь людей более комфортной. Мы просто не можем справиться с поступающей информацией без компьютерной поддержки. Но для этого нужно уметь использовать существующие, а также проектировать, разрабатывать и сопровождать новые информационные системы.

Собственно, этому и посвящен настоящий курс, который состоит из восьми частей.

В первой части приводится общее представление об информационной системе. Обсуждается специфика информационных программных систем и их принципиальное отличие от вычислительных программных систем (хотя в последнее время компьютерные математики все чаще используют технологии информационных систем). Далее формулируются основные задачи информационных систем: надежность хранения информации, требования к развитости пользовательских интерфейсов, все более часто встречающийся характер распределенности информации и т.д. Рассматриваются основные проблемы построения информационной системы: логическое и физическое проектирования базы данных, выбор инструментальных средств, соответствующих требованиям конкретной информационной системы, архитектурные решения, выбор аппаратной платформы и т.д. Наконец, в заключение первой части рассматриваются базовые требования к аппаратным средствам поддержки информационных систем и возможности, имеющиеся на российском и мировом рынках.

Во второй части курса предлагается общая классификация архитектур информационных систем, для проектирования и разработки которых сегодня имеются соответствующие технологии и методологии. Рассматриваются архитектуры информационных систем, основанных на наиболее распространенных в России файл-серверных локальных сетях. В ряде простых случаев файл-серверные информационные приложения остаются наиболее дешевым и достаточно эффективным решением, к которому, однако, нужно относиться с осторожностью. По мере развития деятельности корпорации могут потребоваться революционные изменения информационной системы, а революция всегда хуже эволюции. Обсуждаются архитектуры информационных систем, основанных на подходе "клиент-сервер". Главным образом этот подход предполагает использование одного или нескольких серверов баз данных. Поэтому основной акцент ставится на методы проектирования баз данных, хотя рассматриваются и распространенные технологические методы связывания и взаимодействия клиентских и серверных частей ИС. Далее рассматриваются современные подходы к организации ИС на основе методов Intranet. Эти методы являются развитием идей архитектуры "клиент-сервер", но в целом подход Intranet обеспечивает возможность разработки более дешевых (по трудозатратам) и более комфортных для пользователей приложений. Кроме того, ориентация на Intranet почти автоматически позволяет пользоваться глобальными службами Internet, что очень существенно при учете тенденции к мировой интеграции информационных ресурсов. Далее тема второй части курса касается так называемых "складов данных" (DataWarehousing). Идея складов данных проста и естественна. В любой долго живущей корпорации постепенно накапливаются разнородные хранилища данных: файлы, разного рода базы данных. Но по смыслу эта информация однородна, вся она относится к деятельности корпорации. Подход DataWarehousing, не являясь еще канонизированным, предлагает решение проблемы создания ИС, основанной на разнородной информации. Естественно, имеются предложения по организации складов данных на основе методов Intranet/Internet. Наконец, последний раздел второй части относится к возможностям построения глобально распределенной информационной системы, в которой используются абсолютно разнородные информационные и/или вычислительные ресурсы. И это становится возможным. Многолетняя деятельность международного консорциума Object Management Group (OMG) позволила выработать набор фактически признанных в мире стандартов, реализация которых (а таких реализаций уже существует много) позволяет достичь реальной интероперабельности (т.е. возможности осмысленного взаимодействия) независимо построенных информационных ресурсов.

В следующих частях курса подробно обсуждается каждая из тем, упомянутых во второй части. Третья часть курса посвящена рассмотрению средств и методов проектирования, разработки и сопровождения информационных приложений в архитектуре "файл-сервер".

В первом разделе третьей части рассматриваются "традиционные" средства и методологии разработки файл-серверных приложений. Традиционные в кавычках, потому что, на самом деле, прошло не так много лет с тех пор, когда в России появились локальные сети персональных компьютеров с выделенным файл-сервером. Традиционные в том смысле, что большинство существующих в России ИС основано именно на этой технологии. Можно ругать или хвалить этот подход, но факт остается фактом - он все еще активно используется и, скорее всего, будет продолжать использоваться. Для него существует своя экологическая ниша. Это дешевое, хотя и недостаточно рациональное и надежное решение для малых компаний. (Заметим, что когда компания хотя бы слегка подрастает, то начинает испытывать проблемы.) Итак, в первом разделе будут рассмотрены наиболее популярные системы программирования, доступные на персональных компьютерах, и сопутствующие им библиотеки. Кроме того, мы обсудим имеющиеся средства и методы разработки информационных приложений на основе персональных систем управления базами данных. Второй раздел третьей части курса посвящается современным тенденциям в области разработки файл-серверных информационных приложений. Общей характеристикой этих тенденций является стремление к нормализации ИС (Rightsizing). Нормализация может достигаться путем разукрупления (Downsigzing) за счет использования персональных версий развитых СУБД или путем укрупления (Upsizing) за счет перехода к использованию истинных серверов баз данных. В качестве примеров новых инструментальных средств разработки файл-серверных информационных систем будут рассмотрены продукты Microsoft Access, Visual FoxPro и CA-VisualObjects. В последнем, третьем разделе будут обсуждаться проблемы переноса файл-серверных информационных приложений в среду клиент-сервер. Как отмечалось выше, эти проблемы актуальны, поскольку при росте размеров корпорации файл-серверный подход перестает быть удовлетворительным. В частности, будет рассмотрен протокол ODBC и его реализации.

В четвертой, самой длинной части курса, обсуждаются средства и методологии проектирования, разработки и сопровождения приложений в архитектуре "клиент-сервер". Первый раздел четвертой части посвящен основным транспортным средствам, на которых основываются клиент-серверные приложения. Рассматриваются протоколы удаленного вызова процедур (RPC) и внешнего представления данных (XDR). Кратко обсуждается основа RPC - стек протоколов TCP/IP. Дается представление о путях развития RPC на примере нового пакета компании Sun Microsystems ONC++. В рамках этой темы приводится краткая характеристика распределенных файловых систем; наибольшее внимание уделяется самой популярной системе NFS. Второй раздел этой части курса посвящен серверам баз данных. Рассматривается понятие сервера баз данных. Обсуждаются наиболее популярные семейства серверов баз данных - продукты компаний Oracle, Informix, IBM, Sybase, Computer Associates. Далее даются базовые сведения о стандартном средстве взаимодействия с базами данных в архитектуре клиент-сервер - языке баз данных SQL. Кратко излагается история языка, описывается международная деятельность по стандартизации SQL, рассматривается современное состояние этого языка баз данных и анализируются перспективы его развития. Темой следующего раздела четвертой части курса является классический подход к проектированию реляционных баз данных, основанный на учете функциональных и многозначных зависимостей и принципах нормализации путем проецирования. В пятом разделе рассматриваются методы проектирования реляционных (и не только) баз данных более высокого уровня. Вводится понятие концептуальной, или семантической модели данных. Описывается наиболее распространенный подход к концептуальному проектированию баз данных, основанный на диаграммном подходе. Рассматриваются популярные диаграммные нотации и рекомендуемые методологии для перехода к реляционным схемам баз данных. Шестой раздел посвящен средствам автоматизации проектирования баз данных и информационных систем в целом - CASE-системам. Обсуждаются назначение и разновидности таких систем. Рассматриваются примеры наиболее распространенных CASE-систем этого класса. Темой седьмого раздела является физическое проектирование реляционных баз данных. Этот вопрос иногда недооценивается специалистами, в то время, как его правильное решение почти всегда оказывает критическое влияние на производительность информационной системы. Мы обсудим противоречия, которые часто возникают между теорией и практикой реляционных баз данных, и приведем примеры, демонстрирующие, что иногда на стадии физического проектирования реляционной базы данных стоит отойти от теоретических догм. В завершающем четвертую часть восьмом разделе будет приведено представление о программных системах четвертого поколения и возможностях их интеграции с CASE-средствами. Будет представлен обзор ряда распространенных 4GL.

Пятая часть курса связана, возможно, с наиболее модной темой - разработкой информационных приложений на основе технологии Intranet. Это не только модно, но и полезно и эффективно. Языковые и инструментальные средства, поддерживающие Intranet-приложения, обеспечивают удобные графические пользовательские интерфейсы и существенно облегчают разработку информационных приложений (хотя, конечно, проблемы проектирования баз данных остаются). В первом разделе пятой части будут кратко рассмотрены основные понятия Intranet, которые, фактически, являются понятиями Internet. Во втором разделе приводится обзор наиболее популярных средств разработки Intranet-приложений - языка составления гипертекстовых файлов HTML и протокола взаимодействия серверной и клиентской частей WWW HTTP. Третий раздел посвящен рассмотрению распространенных видов серверов, которые могут входить в состав Intranet (и Internet) приложения: файл-серверы, FTP-серверы, Web-серверы, поисковые серверы. Далее мы обсудим проблемы доступа информационной системы к мультимедийной информации. В этом отношении нерешенным вопросом является стандартизация внешнего представления графической, аудио и видео информации. Будет рассмотрено решение этих проблем на основе использования объектно-ориентированного интерпретируемого языка Java. В четвертом разделе пятой части курса обсуждаются возможные архитектуры Intranet-приложений. Будут рассмотрены решения, в которых основная нагрузка ложится на клиентскую часть системы, трехзвенные организации, в которых часть приложения (или приложение полностью) выполняется на стороне Web-сервера (конечно, и в этом случае та часть приложения, которая отвечает за интерфейс с пользователем, остается на стороне клиента), и, наконец, решения, основанные на использовании языка Java, которые требуют основательной нагрузки клиентской стороны, но обеспечивают максимальную гибкость.

В шестой части курса рассматриваются технологии проектирования и разработки информационных приложений, основанных на использовании глобальных "складов данных" (DataWarehousing). Основной (и еще не конца решенной) проблемой складов данных является проблема интеграции данных, которые хранятся в неоднородно организованных базах данных. Имеется ряд подходов к решению этой проблемы, основанных, в частности, на использовании объектно-реляционных или объектно-ориентированных надстроек над существующими системами баз данных.

Седьмая часть курса посвящается разработке глобально (в масштабах земного шара) распределенных информационных приложений, которые строятся на основе независимо разработанных информационно-вычислительных ресурсов. В принципе, этот подход предлагает решение так называемой проблемы "унаследованных систем" (legacy systems). Независимо созданные корпорации объединяются, имея независимо созданные информационные системы, крупные корпорации ведут ряд слабо связанных информационных проектов, которые впоследствии необходимо интегрировать и т.д.

Основанное на объектном подходе решение предлагает международный консорциум Object Management Group, выработавший ряд стандартов под общим названием CORBA (Common Object Request Broker Architecture), следование которым обеспечивает интероперабельность независимо разработанных информационно-вычислительных компонентов.

Будут рассмотрены общий подход CORBA, предлагаемая структура брокера объектных заявок (Object Request Broker - ORB), имеющиеся реализации ORB, язык определения интерфейсов IDL, а также набор сервисов, предполагаемых стандартом CORBA.

Наконец, в завершающей курс восьмой части будут высказаны вероятные прогнозы на будущее. Технологии должны объединяться. Проектировщики и разработчики информационных систем должны получать более удобные и эффективные инструментальные средства. Жизнь должна стать легче и веселее.

Часть 2. Общая классификация архитектур информационных приложений

В первой части курса мы кратко рассмотрели основные требования, которым должна удовлетворять информационная система, и задачи, которые должны решаться такой системой. При этом мы постоянно подчеркивали, что строгость соблюдения требований и фиксированность набора решаемых задач во многом являются условными в зависимости от конкретных целей, для достижения которых разрабатывается прикладная информационная система. Соответственно, проектирование и разработка информационной системы может базироваться на разных архитектурных решениях.

В этой части курса приводится классификация возможных архитектур информационных систем. Мы начинаем с традиционных архитектурных решений, основанных на использовании выделенных файл-серверов или серверов баз данных. Затем рассматриваются варианты архитектур корпоративных информационных систем, базирующихся на технологии Internet (Intranet-приложения). Далее разновидность архитектуры информационной системы основывается на концепции "склада данных" (DataWarehouse) - интегрированной информационной среды, включающей разнородные информационные ресурсы. Наконец, последняя выделяемая нами архитектура предназначена для построения глобальных распределенных информационных приложений с интеграцией информационно-вычислительных компонентов на основе объектно-ориентированного подхода.

Замечание по поводу терминологии. С терминологией в области информационных систем вообще, а русскоязычной терминологией в особенности дела обстоят неважно. Область информационных систем очень быстро развивается. Практически каждый год возникают новые технологии и архитектурные решения, для которых в маркетинговых целях придумываются оригинальные, привлекающие внимание названия, далеко не всегда точно отражающие смысл технологии и/или архитектуры. На самом деле, все подходы к организации информационных систем, рассматриваемые в этом курсе базируются на общей архитектуре "клиент-сервер". Различие состоит только в том, что делают клиенты и серверы. Тем не менее, чтобы не запутать читателя, далее мы вынуждены применять русскоязычные эквиваленты соответствующих англоязычных терминов.

Следует заметить, что как и любая классификация, наша классификация архитектур информационных систем не является абсолютно жесткой. В архитектуре любой конкретной информационной системы часто можно найти влияния нескольких общих архитектурных решений. Тем не менее, при архитектурном проектировании системы кажется полезным иметь хотя бы частично ортогонализированный архитектурный базис. В следующих частях курса мы подробно рассмотрим особенности каждой архитектуры и остановимся на методологиях и инструментально-технологических средствах, поддерживающих проектирование и разработку информационных систем в соответствующей архитектуре.

Файл-серверные приложения

По всей видимости, организация информационных систем на основе использования выделенных файл-серверов все еще является наиболее распространенной в связи с наличием большого количества персональных компьютеров разного уровня развитости и сравнительной дешевизны связывания PC в локальные сети. Чем привлекает такая организация не очень опытных в области системного программирования разработчиков информационных систем? Скорее всего, тем, что при опоре на файл-серверные архитектуры сохраняется автономность прикладного (и большей части системного) программного обеспечения, работающего на каждой PC сети. Фактически, компоненты информационной системы, выполняемые на разных PC, взаимодействуют только за счет наличия общего хранилища файлов, которое хранится на файл-сервере. В классическом случае в каждой PC дублируются не только прикладные программы, но и средства управления базами данных. Файл-сервер представляет собой разделяемое всеми PC комплекса расширение дисковой памяти (рисунок 2.1).

Не останавливаясь подробно на имеющихся на сегодняшнем рынке перспективных инструментальных средствах разработки файл-серверных приложений и не приводя анализа тенденций развития соответствующих технологий (этому посвящается третья часть курса), мы кратко перечислим основные достоинства и недостатки файл-серверных архитектур.

Конечно, основным достоинством является простота организации. Проектировщики и разработчики информационной системы находятся в привычных и комфортных условиях IBM PC в среде MS-DOS, Windows или какого-либо облегченного варианта Windows NT. Имеются удобные и развитые средства разработки графического пользовательского интерфейса, простые в использовании средства разработки систем баз данных и/или СУБД. Но во многом эта простота является кажущейся. (Как гласит русская пословица, "Простота хуже воровства", а здесь мы, как правило, имеем простоту на основе воровства программных продуктов для PC.)

Рис. 2.1. Классическое представление информационной системы в архитектуре "файл-сервер"

Во-первых, информационной системе предстоит работать с базой данных. Следовательно, эта база данных должна быть спроектирована. Почему-то часто разработчики файл-серверных приложений считают, что по причине простоты средств управления базами данных проблемой проектирования базы данных можно пренебречь. Конечно, это неправильно. База данных есть база данных. Чем качественнее она спроектирована, тем больше шансов впоследствии эффективно использовать информационную систему. Естественно, сложность проектирования базы данных определяется объективной сложностью моделируемой предметной области. Но, собственно, из чего должно следовать, что файл-серверные приложения пригодны только в простых предметных областях?

Во-вторых, как мы неоднократно подчеркивали в первой части курса, необходимыми требованиями к базе данных информационной системы являются поддержание ее целостного состояния и гарантированная надежность хранения информации. Минимальными условиями, при соблюдении которых можно удовлетворить эти требования, являются:

  • наличие транзакционного управления,
  • хранение избыточных данных (например, с применением методов журнализации),
  • возможность формулировать ограничения целостности и проверять их соблюдение.

В принципе, файл-серверная организация, как она показана на рисунке 2.1, не противоречит соблюдению отмеченных условий. В качестве примера системы, соблюдающей выполнение этих условий, но основанной на файл-серверной архитектуре, можно привести популярный в прошлом "сервер баз данных" Informix SE.

Длинное замечание:Для сохранения четкости дальнейшего изложения нам необходимо несколько уточнить терминологию. Мы недаром написали "сервер баз данных" в кавычках применительно к СУБД Informix SE. При использовании этой системы копия программного обеспечения СУБД поддерживалась для каждого инициированного пользователем сеанса работы с СУБД. Грубо говоря, для каждого пользовательского процесса, взаимодействующего с базой данных создавался служебный процесс СУБД, который выполнялся на том же процессоре, что и пользовательский процесс (т.е. на стороне клиента). Каждый из этих служебных процессов вел себя фактически так, как если бы был единственным представителем СУБД. Вся синхронизация возможной параллельной работы с базой данных производилась на уровне файлов внешней памяти, содержащих базу данных. Условимся впредь называть такие СУБД не серверами баз данных, а системами управления базами данных, основанными на файл-серверной архитектуре (СУБД-ФС).

Под истинным сервером баз данных мы будем понимать программное образование, привязанное к соответствующей базе (базам) данных, существующее, вообще говоря, независимо от существования пользовательских (клиентских) процессов и выполняемое, вообще говоря (хотя и не обязательно) на выделенной аппаратуре (мы намеренно используем не очень конкретные термины "программное образование" и "выделенная аппаратура", потому что их конкретное воплощение различается в разных серверах баз данных).

Истинные серверы баз данных существенно сложнее по организации, чем СУБД-ФС, на зато обеспечивают более тонкое и эффективное управление базами данных. Везде далее в этом курсе при употреблении термина "сервер баз данных" мы будем иметь в виду истинные серверы баз данных.

Но с другой стороны, в большинстве персональных СУБД эти условия не выполняются даже с помощью грубых приемов. В лучшем случае удается частично восполнить недостатки на уровне прикладных программ.

В третьих, интерфейс развитых серверов баз данных основан на использовании высокоуровневого языка баз данных SQL, что позволяет использовать сетевой трафик между клиентом и сервером баз данных только в полезных целях (от клиента к серверу в основном пересылаются операторы языка SQL, от сервера к клиенту - результаты выполнения операторов). В файл-серверной организации клиент работает с удаленными файлами, что вызывает существенную перегрузку трафика (поскольку СУБД-ФС работает на стороне клиента, то для выборки полезных данных в общем случае необходимо просмотреть на стороне клиента весь соответствующий файл целиком).

В целом, в файл-серверной архитектуре мы имеем "толстого" клиента и очень "тонкий" сервер в том смысле, что почти вся работа выполняется на стороне клиента, а от сервера требуется только достаточная емкость дисковой памяти (рисунок 2.2).

Рис. 2.2. "Толстый" клиент и "тонкий" сервер в файл-серверной архитектуре

Краткие выводы. Простое, работающее с небольшими объемами информации и рассчитанное на применение в однопользовательском режиме, файл-серверное приложение можно спроектировать, разработать и отладить очень быстро. Очень часто для небольшой компании для ведения, например, кадрового учета достаточно иметь изолированную систему, работающую на отдельно стоящем PC. Конечно, и в этом случае требуется большая аккуратность конечных пользователей (или администраторов, наличие которых в этом случае сомнительно) для надежного хранения и поддержания целостного состояния данных. Однако, в уже ненамного более сложных случаях (например, при организации информационной системы поддержки проекта, выполняемого группой) файл-серверные архитектуры становятся недостаточными.