Мобильные центры обработки данных

Одним из возможных решений проблемы виртуализации торговых розничных сетей является использование мобильных ЦОД и быстроразвертываемых решений. Мобильная версия ЦОД эффективна тогда, когда ИТ-инфраструктуру требуется развернуть на удаленной площадке в максимально сжатые сроки. Мобильный ЦОД может быть использован в качестве основного, резервного или временного. На рынке представлены "быстроразвертываемые" решения (например, Sun BlackBox, HP POD, IBM PMDC). Первые упоминания о мобильных ЦОД появились еще в 2005 г.

Так, компания АРС реализовала мобильный ЦОД InfraStruXure Express Medium Density On-demand Mobile Data Center. Проект получил развитие в разработках партнеров APC — Pacific Voice&Data (PVD Mobile Data Center) и IBM (Scalable Modular Data Center). По данным IBM и APC, развертывание Scalable Modular ata Center занимает на 60—75% меньше времени, чем постройка или модернизация обычного серверного зала, а его использование позволяет значительно сэкономить на проектировании, подборе компонентов, устройстве фальшполов и эксплуатации ЦОД.

Проблема "больших данных" и виртуализация

По мнению аналитиков, объем данных на электронных носителях в мире сейчас находится в пределах 1Ö21— 1022 байт, причем он непрерывно увеличивается. Только за период с 2010 по 2011 г. этот объем возрос в 10 раз. Предполагается, что в 2012 г. объем данных в мире увеличится на 50% и составит около 2,7 • 102' байт. Несмотря на снижение затрат на удельное хранение данных, наблюдается непрерывный рост затрат на хранение всей информации. Одной из причин этого аналитики считают необоснованные репликации данных.

Проблема "больших данных" (Big Data) напрямую связана с проблемой облачных вычислений, когда центры обработки данных должны обрабатывать огромные массивы информации, востребованной удаленными пользователями. Хранимые предприятиями данные могут быть разнообразными как по видам, так и по срокам хранения. Рассматривают структурированные, частично структурированные и неструктурированные данные в виде текстовой информации, структурированных таблиц баз данных и информационных систем, документов, электронной почты, музыки и мультимедийных файлов, структурированных данных торговых систем с данными о товарах, поставщиках, покупателях и других контрагентах и пр.

При работе с большими данными возникают следующие основные проблемы.

1. Необходимость обработки больших объемов данных, приближающихся к максимально допустимым для технических устройств.

2. Быстродействие компьютерных систем, обеспечивающих обработку этих массивов данных.

3. Разнообразие видов обрабатываемых данных и требований к их востребованности.

Одним из решений таких проблем является автоматическое разделение информации с учетом ее востребованности. Большая часть данных предприятия является маловостребованной или востребованной единожды. В настоящее время становится важно для обеспечения экономической эффективности хранить, обрабатывать и анализировать неструктурированную информацию, которая до этого не обрабатывалась или удалялась. Она может храниться на нескоростных носителях информации, например на ленточных носителях. Часто востребованные данные должны храниться на устройствах с большими скоростями ввода/вывода (чтения/записи), например на твердотельных дисках SSD.

Смежными с проблемой "больших данных" являются высокопроизводительные вычисления (High Performance Computing, НРС), проводимые при аналитических вычислениях и распределенных вычислениях на нескольких серверах (grid computing). В настоящее время понятие "большие данные" ассоциируется с изменившимися требованиями к их обработке и анализу. К новым требованиям относятся:

• необходимость обработки больших массивов данных с минимальной задержкой, часто в режиме реального времени;

• качественное принятие решений, которое становится возможным благодаря обработке разнородной информации, полученной из всех доступных источников — структурированных и неструктурированных, внутренних и внешних, в том числе и от всевозможных датчиков;

• востребованность устройств, способных обрабатывать и передавать данные со скоростью в несколько десятков гигабит в секунду;

• проведение глубоких исследований данных с целью выявления зависимостей, аномалий, соответствия условиям анализа, для того чтобы получить его качественную модель.

Из-за трудностей обработки от 80 до 90% объема данных являются неструктурированными. Чтобы обработать большие объемы данных, применяются интегрированные решения, объединяющие обработку и анализ данных. Новые технологии обработки больших массивов данных позволяют организовать их распределенное хранение и параллельную обработку в кластерных структурах. Это связано с решением таких задач, как локализация и распределение данных между процессорами, балансировка нагрузки, безопасный перенос данных с одной вычислительной машины на другую в аварийных режимах работы, сбор и агрегация промежуточных результатов работы и др.

К технологиям обработки больших массивов данных относятся модель распределенных вычислений Map Reduce, проект Apache Hadoop, кластерная файловая система Global File System (GFS), проприетарная высокопроизводительная база данных BigTable, база данных XoSQL, а также технологии интеллектуального анализа Business Intelligence.

Модель MapReduce для пакетной обработки данных, разработанная компанией Google, отличается относительной простотой и удобством использования. Корпорация Teradata поставляет для установки в ЦОД сконфигурированные аппаратно-программные решения Aster MapReduce appliance, корпорация Oracle выпускает Oracle BigData appliance, а корпорация EMC — решения Greenplum appliance.

Технология вычислений в оперативной памяти (in-Memory Computing) в последнее время широко применяется при работе с большими массивами данных. Однако она требует использования мощных серверов с многоядерными процессорами и очень большой оперативной памятью. Эта технология более подходит для выполнения транзакций со структурированными данными, например, артикулами товаров, информацией о покупателях, отчетами по продажам.

Кроме того, используется технология поколоночного хранения и индексирования таблиц и обработки всей базы данных в оперативной памяти. Она обеспечивает повышение производительности в 10—1000 раз.

В 2012 г. основные мировые производители систем управления базами данных (СУБД) выпустили обновленные программные продукты, предназначенные для работы с большими массивами данных.

Компания Sybase, входящая в состав компании SAP, разработала две СУБД: Sybase IQ 15.4 — для работы с "большими" данными и Sybase Adaptive Server Enterprise (Sybase ASE) — для работы с большими массивами данных, которые обрабатываются приложениями компании SAP, в частности SAP Business Suite.

СУБД Sybase ASE для работы с "горячими" данными применяет инструмент анализа в реальном времени — SAP HANA (SAP High-Performance Analytic Appliance). Это эффективно, например, в случае использования для вычислений масштабируемых блейд-серверов с многоядерными процессорами и адаптивных алгоритмов. Благодаря масштабируемости решение SAP HANA можно применять для компаний любых размеров.

Данная технология предусматривает обработку больших массивов данных непосредственно в памяти вычислительной машины вместо складирования в статических таблицах баз данных. По результатам тестирования 2011 г. решение SAP HANA справляется с 10 тыс. запросов в час. За это время обрабатывается до 1,3 Тбайт данных, а результаты выдаются через несколько секунд. Для предприятий среднего и малого бизнеса компания предлагает решение HANA Edge и аналитический модуль для планирования ресурсов предприятия Business One ERP.

СУБД Sybase IQ 15.4 компании Sybase — это единая платформа для аналитической обработки огромных разрозненных массивов структурированных, частично структурированных или неструктурированных данных с помощью разных алгоритмов и аналитических систем. Ее главными преимуществами являются механизм поколоночного (columnbased) хранения таблиц, масштабируемая сервис-ориентированная архитектура, а также высокая производительность при небольшом потреблении ресурсов.

Используется технология массово-параллельной обработки, PlexQ, с разделением всех ресурсов, которая обеспечивает обслуживание в режиме реального времени тысяч пользователей и осуществляет анализ больших массивов данных. Она позволяет решать сложные аналитические задачи с ускорением от 10 до 100 раз по сравнению с традиционными хранилищами данных. Кластеризация с разделением всех ресурсов в сочетании с поколоночным хранением и механизмом логических серверов обеспечивает высокое быстродействие для всех видов запросов и типов нагрузок применительно к любым наборам данных.

СУБД Microsoft SQL Server 2012 приобрела новые инструменты и возможности. Так, функция AlwaysOn обеспечивает высокий уровень готовности и надежности СУБД, а технология Xvelocity — высокую производительность при выполнении аналитических вычислений. Достоинством СУБД Microsoft SQL Server 2012 также является то, что се аналитические инструменты интегрированы с приложениями MS Office, MS Sharepoint, ERP-системами класса Dynamics, разработанными Microsoft.

Одновременно с выпуском SQL Server 2012 корпорация Microsoft объявила о применении xVelocity — технологии выполнения вычислений в памяти вычислительной машины (in-memory technologies). Она обеспечивает высокую производительность для хранилищ данных и бизнес-аналитики.

В выпущенном ранее приложении SQL Server 2008 R2 компания Microsoft реализовала высокопроизводительное решение PowerPivot для Excel, также названное Vertipaq. Данная технология базируется на вычислениях в памяти и столбцово-ориентированном храпении в пей, а также на инновационной методике сжатия данных. В SQL Server 2012 компания Microsoft также использовала технологию Vertipaq, являющуюся составной частью xVelosity.