Форматы полнотекстовых документов. Модель документа

Текстовая информация. Модель документа

Известно, что существуют различные типы текстовых файлов (плоские, размеченные, ASCII и пр.). Соответственно, для ввода, обработки, представления информации в таких файлах требуют­ся различные программные возможности. Для работы с текстами на компьютере используются программные средства, называе­мые текстовыми редакторами, или текстовыми процессорами.

Существует большое количество разнообразных текстовых редакторов, различающихся по своим возможностям, — от очень простых учебных до мощных, многофункциональных программных средств, называемых издательскими системами, которые используются для подготовки к печати книг, журналов и газет. Эти программы позволяют работать с различными ти­пами и форматами текстовых файлов, по необходимости преоб­разуя их друг в друга. Например, в текстовом формате (плоский текст — .ТХТ) ра­ботают редактор Notepad, встроенные редакторы оболочек Norton Commander и Far Manager, в то время как Word (а также WordPad) позволяют работать с размеченными тексто­выми файлами в коммуникативном (тип файла .RTF — rich text format, или «обогащенный формат текста»), внутреннем (.DOC), и текстовом (.ТХТ) форматах (рис. 2.2, 2.3). Распространен также редактор документов Adobe Arobat , использующий ком­муникативный формат .PDF (portable document format).

Необходимо отметить, что наиболее развитые редакторы по­зволяют обрабатывать не просто тексты, а документы (тексты, содержащие встроенные или внедренные объекты или файлы других типов — табличные, графические, мультимедиа и пр.).

Форматы полнотекстовых документов. Модель документа

Понятие модель документаохватывает аспекты создания, преобразования, хранения, поиска, передачи и отображения до­кументов. Принято рассматривать структуру документа в двух аспектах: логическом (содержание) и физическом (макет).

Логическая структура определяет составные компо­ненты и их соотношения в понятиях, отвечающих взгляду на до­кументы как смысловые структуры. Например, к основным смы­словым компонентам относятся: авторские данные (имя автора, место работы), аннотация, оглавление, главы, разделы, парагра­фы, рисунки, сноски. На рис. приведен пример документа «Пояснительная записка к дипломному проекту (работе)». Здесь выделены такие базовые понятия структуры документа, как обязательность/необязательность элемента, уни­кальность или повторяемость, вхождение нижестоящих элементов в вышестоящие по принципу И (оба типа данных должны или могут входить в элемент) либо ИЛИ (только какой-либо один из типов данных может или должен входить в элемент).

Макетная структура содержит описание документа в терминах физических единиц — страниц, полос, колонок, ко­лонтитулов, рамок для рисунков, шрифтов, стилей и пр.

Подходы к моделированию документов опираются на два стандарта — ISO 8613 (ODA — Office Document Architecture — архитектура управленческой документации) и ISO 8879 (SGML — Standard Generalized Markup Language — стандартный обобщенный язык разметки).

Документ в ODA представлен в виде профиля и собствен­но документа, организованных в форме древовидной структуры. Профиль содержит информацию о документе в целом и его прохождении; формальные признаки — дата составления, вид, регистрационный номер и т. д.

Собственно документ содержит текст и сведения о его струк­туре и стиле, а именно:

• структуру документа — заглавие, параграфы, оглавление и т. п. (логическая структура), а также абзацы, расположе­ние текста, шрифты (физическая структура);

• архитектуру содержания — набор графических элементов, выделение определенных слов, строк и т. п.;

• коммуникативный формат — способы кодирования объек­тов, признаков и содержания документов.

 

Рис. 2.5. Иерархическая структура документа «Пояснительная записка к ди­пломной работе»: # — уникальный элемент; * — повторяющийся элемент; ? — необязательный элемент; ! — обязательный элемент; & — вхождение типа «И»; | — вхождение типа «ИЛИ»

 

Языки разметки документов

В системах обработки текстов в документ включается допол­нительная информация, называемая разметкой и выполняю­щая следующие функции:

• выделение логических элементов данного документа;

• задание функций обработки выделенных элементов.

В обычных текстовых процессорах существуют встроенные команды включения/выключения шрифтов и др., аналогичные командам управления размещением информации на экране или при печати (так называемые Escape-последовательности). Такой подход называется командной или процедурной размет­кой .

Альтернативный способ разметки заключается в выделении части текста без указания способа обработки выделения. Затем другие команды назначают фрагментам способ обработки. Такая разметка называется описательной (дескриптивной). Она вклю­чает метки (tags, таги) начала и окончания элемента текста и указывает, как интерпретировать данный фрагмент.

Изменяя набор процедур, соответствующий описательной разметке, можно изменить внешнее представление одного и того же документа. Развитие идей описательной разметки привело к определению разметки как формального языка. Это позволяет проверить правильность разметки и минимизировать ее объем за счет подстановки умолчаний.