Выбор платформы базы данных

Создание лингвистической БД не всегда легко дается лингвистам.

Первый вопрос, требующий ответа: "Должны ли вы создать собственную базу данных?" В настоящее время имеются многочисленные готовые к использованию приложения, которые могут поддерживать коллекцию лингвистических данных, начиная от специфических лингвистических (например, Toolbox лингвиста, Starling) до программ общего назначения (например, Microsoft Excel – электронные таблицы). Если существующее приложение отвечает вашим потребностям, не надо заниматься проектированием и созданием новой БД с нуля. Если вы решили создать новую лингвистическую БД, следует ознакомиться с существующими типами баз данных.

1. Локальная база данных (ЛБД), созданная средствами Microsoft Access. Это самое простое решение, оно подходит для сбора и организации данных, используется на одном персональном компьютере.

2. Маленькая БД в Интернете. Хотя создание такой БД значительно сложнее, чем в случае ЛБД, оно будет лучшим решением, если несколько человек должны иметь возможность вводить данные параллельно или есть планы в конечном итоге сделать БД в открытом доступе.

3. Сложные БД для большого проекта с профессиональным персоналом программистов. Поскольку нет четкой грани между малой и большой БД, малая БД может со временем перерасти в большую, при сохранении общей идеологии. Наша цель здесь заключается в решении проблем лингвистов, которые смогут самостоятельно разработать пилотный проект лингвистической БД.

Локальная база данных

Для выполнения исследовательского проекта одним человеком или небольшой группой, без квалифицированной технической поддержки, локальная (настольная) БД, разработанная средствами Microsoft Access, часто окажется очень хорошим решением. Эта программа хранит всю базу данных в одном файле на диске или в папке, позволяют копировать ее, выполнить резервное копирование и перемещать ее как обычный файл. Это значительно упрощает первоначальную настройку системы, так как не требуется использовать удаленный сервер. Иногда политика организации может запрещать работу с удаленным сервером баз данных. Пользовательский интерфейс програмного обеспечения (ПО) настольных БД позволяет определять таблицы и отношения БД и формы пользовательского интерфейса. Для настольной БД не требуется доступ в Интернет, что является важным фактором для лингвистов, предполагающих сбор данных в полевых условиях.

С другой стороны, этот подход также имеет определенные недостатки. На компьютере-реципиенте должно быть установлено то же ПО, что и на компьютере-доноре. Средства создания интерфейса ограничены. Невозможна параллельная работа нескольких пользователей. В настоящее время общей (и настоятельно рекомендуемой) практикой является предоставление доступа к данным другим исследователям через Интернет, что особенно важно для совместных проектов. Одна из целей модели базы данных – поддержка параллелизма, т.е. одновременных сессий редактирования разными пользователями. Но поскольку ЛБД хранится в файле на диске, только один человек в данный момент времени может вносить изменения в ЛБД.

Малая база данных в Интернете

Чтобы преодолеть недостатки настольной БД разрабатываются базы данных в Интернете, работающие, как показано на рис. 13.1. Очень популярным способом настроить такую систему является так называемый LAMP-стек – операционная система Linux, вебсервер Apache, СУБД MySQL и язык программирования РНР. Сочетание LAMP надежно, а программное обеспечение – бесплатное с открытым исходным кодом. Сравнительно легко найти программистов, в том числе программистов-любителей (например, студентов), которые знают, как создать веб-базу данных с помощью языка РНР. Преимущество этого подхода заключается также в том, что пользовательский интерфейс реализуется веб-браузером пользователя, который уже установлен на каждом компьютере.

Но веб-база данных имеет одно существенное ограничение – вебстраница не может обеспечить все шрифты, которые часто необходимы для лингвистических задач, например фонетические символы или тексты на языках с редкими системами письма, для которых требуются собственные шрифты. В таких случаях пользователям веб-базы данных, возможно, потребуется вручную загрузить и установить шрифт, прежде чем они смогут использовать его правильно. Некоторые вещи слишком сложно реализовать с помощью языка разметки HTML и веб-браузера. Например, нам требуется выводить на дисплей аудио- или видеофайлы в формате, который браузер не поддерживает, изображать синтаксические деревья, точно измерять время реакции или использовать географические карты в интерактивном режиме. Современные браузеры поддерживают некоторые расширения их базовой функциональности. В частности, они могут выполнить программы на javascript, встроенные в веб-страницы. Для более сложных приложений единственным решением может оказаться отдельное клиентское приложение.

Некоторые общие рекомендации по созданию базы данных:

1) планируйте заранее – тщательно проектируйте базу данных, прежде чем вы начнете ее реализацию;

2) планируйте изменения – когда вы будете накапливать данные, ваше понимание явлений и лучший способ их изучения будет совершенствоваться;

3) стремитесь к простоте, но старайтесь учесть свои будущие потребности;

4) документируйте вашу базу данных в письменной форме для себя и для других.