Опыт разработки корпусов текстов

К настоящему времени накоплен серьезный опыт разработки кор­пусов текстов для различных языков. Наибольший интерес представляют


Глава 3. Оптимизация эпистемической функции языка


Корпусная лингвистика



 


фундаментальные корпусы текстов, отражающие состояние языка в це­лом, а не каких-то его отдельных феноменов, подсистем.

Фундаментальные корпусы.Наиболее известен Брауновский корпус американского варианта современного английского языка, создававший­ся в Брауновском университете в 1962-1963 гг. под руководством У. Фрэн­сиса. Брауновский корпус существует в компьютерном варианте и на ми­крофишах. Объем корпуса около 1 млн словоупотреблений. Корпус состо­ит из 500 текстов, каждый из которых включает 2 000 словоупотреблений. В корпус вошли тексты, впервые вышедшие в 1961 г. и относящиеся к литературному варианту английского языка. Тексты охватывают 15 раз­личных жанров американского английского: газетные статьи (репортажи, передовицы, обзоры); религиозную литературу; профессиональную лите­ратуру; научно-популярную литературу; беллетристику; образцы деловой прозы (в том числе правительственные документы); научную литературу; художественную прозу; детективы и научную фантастику; приключен­ческую литературу и вестерны; романтическую литературу; юмористи­ческие истории и рассказы. В 1980 г. появилась индексированная (ан­нотированная) версия Брауновского корпуса, в которой была проведена лемматизация словоформ, маркировка их поверхностно-синтаксических функций и пр.

Британским аналогом Брауновского корпуса является Ланкастерско-Осло-Бергенский корпус (принятое сокращение LOB). Он создавался несколько позже Брауновского, но включал тексты того же временного периода и тех же жанров, но британского варианта английского языка. Аннотированная версия корпуса LOB появилась уже в 1985 г. Суще­ствование двух фундаментальных корпусов-аналогов для американского и британского вариантов английского языка стимулировало проведение сравнительных исследований в этой области и дало весьма интересные результаты.

Существенно отличается от Брауновского корпуса — Лондонско-Лундский корпус, разработанный в рамках проекта «Обзор употребления английского языка». Цель проекта заключалась в том, чтобы по воз­можности полно зафиксировать особенности грамматической системы английского языка в речи взрослого образованного носителя. Проект разрабатывался с 1960 г. под руководством Рэндола Квирка в Лондонском университетском колледже. Объем корпуса — 1 млн словоупотреблений. Лондонско-Лундский корпус, кроме письменных текстов, включает и тек­сты устной речи (100 письменной и 100 устной), представленные в орфо­графической записи с маркировкой некоторых просодических и паралин-гвистических особенностей естественного дискурса. Текстами устной речи были записи радиопередач, заседаний официальных структур, а также не­формальных бесед. Машинный вариант корпуса создавался в Лундском университете (Швеция) и был готов для использования с 1979 г. Машин­ная версия содержит подробный указатель словоформ, а также маркеры


некоторых просодических особенностей речи. На основе корпуса была подготовлена и выпущена в 1985 г. Полная грамматика английского языка. Еще один интересный опыт создания фундаментального корпуса — Бирмингемский корпус. В отличие от ранее рассмотренных примеров Бирмингемский корпус основан на идеологии мониторного или дина­мического корпуса. Идеологом этого проекта стал Дж. Синклер — один из отцов современного дискурс-анализа. Мониторный корпус отличается от обычного по следующим параметрам: 1) объем такого корпуса до­стигает нескольких десятков миллионов словоупотреблений; 2) корпус постоянно пополняется и изменяется, отражая те изменения, которые происходят в языке; 3) пользователь получает возможность в автома­тическом или полуавтоматическом режиме создавать рабочие корпусы из генерального корпуса.

Первым этапом на пути создания корпуса стала Бирмингемская коллекция английских текстов, предназначенная для поддержки проекта «Словаря современного английского языка». Для реализации проекта бы­ло организовано специальное подразделение COBUILD (Corpus Building). К 1986 г. объем коллекции текстов достигал 20 млн словоупотреблений. Единицей хранения коллекции является целый текст или его достаточно большой фрагмент. Объем каждой единицы хранения порядка 70 тыс. словоупотреблений. Отбор текстов — с 1970 г., периодика привлека­лась с 1979 г. Коллекция объединяет тексты всех вариантов английского языка — 65-70% британский английский, 25-30% американский ан­глийский, 5 % прочие варианты английского языка. Сфера письменных текстов не ограничивается опубликованными материалами: в коллек­цию входят образцы эпистолярного жанра, неопубликованные рукописи. Часть коллекции представлена устными затранскрибированными тек­стами. В настоящее время исследователям доступен фрагмент Бирмин­гемской коллекции — Бирмингемский корпус, достигающий 7,3 млн словоупотреблений (6 млн письменные тексты, 1,3 млн — устные тек­сты). Общий состав Бирмингемского корпуса таков: нехудожественная литература (66 текстов), художественная литература (25 текстов), газе­ты (4 текста), журналы (12 текстов), деловая проза (правительственные документы) — 5 документов, письма — 6 документов. Среди текстов уст­ной речи наиболее частотны радиодискуссии (44 текста), неформальные личные диалоги (15 документов), радиоинтервью (60 текстов), универси­тетские лекции (18 текстов).

Корпусная лингвистика в Германии.В Германии появление Браунов­ского корпуса дало толчок разработке проекта LÏMAS-корпуса, созда­вавшегося в рамках проекта системы немецко-английского машинного перевода[27]. LIMAS-Kopnyc состоит из 500 подкорпусов по 2 000 слово-