Исходные понятия корпусной лингвистики

В имеющейся литературе по корпусной лингвистике часто используются понятия, которые никак не определяются, но составляют исходный категориальный аппарат этой дисциплины. Рассмотрим их в самом первом приближении, не претендуя на точные, исчерпывающие дефиниции (см. также [Баранов 1998 а]).

Проблемная область. Под проблемной областью понимается область реализаций языковой системы, содержащая феномены, подлежащие лингвистическому описанию. Проблемная область для конкретного корпуса данных может быть сколь угодно велика или мала — все определяется выбранным объектом анализа. Существенно иметь в виду, что в идеале проблемная область имеет два измерения — языковое и речевое. Речевое представлено речевыми высказываниями (реализациями), а языковое измерение проявляется в существовании потенциальной возможности появления других употреблений, дополняющих массив имеющихся реализаций. Как правило, в корпусной лингвистике языковой аспект фактически игнорируется, поскольку изначально фиксируется область привлекаемых данных — реализаций языковой системы. Это совершенно естественно, поскольку вряд ли возможно зафиксировать, собрать «потенцию», «возможность». Однако для регулярно изменяемых корпусов данных языковой аспект проблемной области сразу «вылезает» при разработке принципов модификации корпуса. Кроме того, для лингвистического исследования (кроме специально оговариваемых случаев) в центре внимания стоит именно языковое измерение, поскольку его следует реконструировать в результате анализа.

С чисто практической точки зрения проблемная область чаще всего предстает перед разработчиком корпуса как множество данных, обработка которых затруднена из-за того, что языковых реализаций слишком много.

Корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из проблемной области. Тем самым корпус данных представляет собой результат отображения из проблемной области. В отличие от проблемной области, корпус данных имеет только одно измерение — речевое, поскольку сам по себе он не обладает потенцией производства своих составляющих. Последнее, однако, не означает, что корпус данных не может использоваться для реконструкции языка как системы. Наоборот — это одна из главных задач лингвистического исследования корпуса. Перед нами одно из глобальных противоречий, свойственное любому продукту языковой системы — от звука до текста. Лингвисту приходится по отдельным результатам деятельности языка делать выводы о функционировании языка как целого, как системы.

Единица хранения корпуса данных. Поскольку корпус данных — это некоторая выборка из проблемной области, сформированная по определенным принципам, то единица хранения непосредственно зависит от того, по каким основаниям осуществляется выборка. Единица хранения — это некоторая совокупность естественноязыковых выражений проблемной области, которой сопоставляется одно описание на некотором метаязыке, определяемом процедурой формирования корпуса. У. Фрэнсис, обсуждая размеры «базовых единиц» корпуса, отмечает, что это могут быть отдельные слова, короткие фразы, предложения, словосочетания (синтагмы). Если корпус предполагается для синтаксического анализа, то он должен включать целые тексты или их достаточно большие фрагменты [Фрэнсис 1983, с. 344 и далее].

На основании описания единицы хранения можно судить о том, какая часть проблемной области представлена в корпусе. Например, единица хранения корпуса рекламных слоганов, созданного в Отделе экспериментальной лексикографии Института русского языка РАН, включает следующие характеристики:

слоган: Для мужчин, которые любят женщин, которые любят мужчин

фирма: «Louis Azzaro»

предмет: туалетная вода Azzaro pour Homme

область: косметика и парфюмерия

вид слогана: перевод с французского

оригинал: Pour les hommes qui aiment les femmes qui aiment les hommes

источник: Стае, Космополитен

Выражение естественного языка Для мужчин, которые любят женщин, которые любят мужчин и сопоставленные ему характеристики вместе образуют единицу хранения, которая может вводиться в базу данных или включаться в обычный файл текстового формата.

Единица хранения корпуса названий газетных статей должна была бы включать само название и совокупность дескрипций, содержащих информацию о том, из какой газеты название получено, в какой рубрике находится статья, когда вышла газета и другую необходимую информацию. Совокупность описаний единиц хранения образует некоторое множество, по которому можно судить о представительности выборки — какие газеты представлены, как формировалась выборка по временному параметру (все газеты какого-то периода vs. газеты через определенные промежутки времени vs. все газеты выбранных временных отрезков и т.д.); статьи каких рубрик представлены и пр.

Корпус текстов. Корпус текстов — это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.

Несколько соображений о типах корпусов данных.

Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения различных аспектов функционирования языковой системы. Они строятся не post factum — после проведения какого-либо исследования, а до его проведения. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач. Неспецифицированность задачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности (см. ниже).

Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются слепком, правильным (с точки зрения статистики) отображением проблемной области. Они включают лишь то, что достаточно для иллюстрации описываемого феномена. Типичный пример иллюстративного корпуса представлен в «Путеводителе по дискурсивным словам русского языка» [Баранов, Плунгян, Рахилина 1993], где семантический анализ частиц и выделенные значения сопровождаются значительным текстовым материалом, позволяющим читателю проверить предложенные семантические интерпретации.

Динамические и статические корпусы текстов. Первоначально корпусы текстов создавались как статические образования, отражающие определенное временное состояние языковой системы. Типичными представителями этого вида корпусов являются авторские корпусы — коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временной шкале — например, изменения значения слов, частоты использования тех или иных синтаксических конструкций и пр. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динамического корпуса текстов. В имеющейся литературе такие корпусы получили также название мониторных23). Особенность сборки мониторных корпусов заключается в том, что они не предполагают раз и навсегда заданного набора текстов. В течение заранее фиксированного промежутка времени происходит обновление и/или дополнение множества текстов корпуса.

Специфика эксплуатации динамического корпуса состоит в том, что пользователь при проведении исследования может выделить из общего генерального корпуса рабочий корпус, включающий лишь часть текстов генерального корпуса. Как динамический корпус строился Бирмингемский корпус английского языка. Пример динамического корпуса по современной российской публицистике рассматривается ниже.

Корпусы параллельных текстов. Для научных и практических целей (в частности, для преподавания иностранных языков) формируются

23) Термин «мониторный» прямо связан с идеей лингвистического мониторинга — см. §4 главы 5.

корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на немецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов.

Способ представления и хранения корпуса данных. Наибольший интерес представляют те способы, которые опираются на современные компьютерные технологии хранения и обработки данных. Для дальнейшего изложения важно делать различие между двумя основными способами представления — неструктурированным текстовым форматом хранения (запись графем текста в ASCI-кодах) и структурированным форматом хранения (текст со специальной разметкой); к последнему можно отнести также представление данных в форматах баз данных различного типа.

Порог отображения. Поскольку корпус данных является сужением проблемной области, то совершенно очевидно, что при «пропорциональном» сужении, являющемся, по-видимому, простейшим случаем реализации принципа репрезентативности (см. ниже), некоторые части проблемной области оказываются вне корпуса данных. Возьмем грубый пример. Пусть в проблемной области содержится 20 контекстов, а в корпусе данных должна быть четвертая часть — 5 контекстов. Контексты являются примерами реализации различных синтаксических феноменов: в десяти контекстах представлены простые предложения, а в восьми — сложные. В двух последних контекстах содержатся примеры парцелляции. В корпусе данных один контекст соответствует четырем контекстам проблемной области. Это означает, что контексты парцелляции при пропорциональном сужении в четыре раза не попадают в корпус данных. Соотношение между корпусом данных и проблемной областью при пропорциональном сужении будем называть порогом отображения. Чем выше порог, тем больше вероятность, что какие-то феномены проблемной области, обладающие сравнительно низкой частотой, не попадут в корпус данных.

Параметризация проблемной области. Сужение проблемной области к исследовательскому корпусу основывается на выделении некоторых характеристик текстов проблемной области, которые релевантны для предполагаемого исследования. Совокупность этих характеристик (их возможные комбинации) образует многомерную матрицу, служащую основой для отбора текстов в корпус. Часто для оценки релевантных параметров проблемной области привлекается экспертная оценка. У. Фрэнсис, описывая историю создания Брауновского корпуса, отмечает, что на этапе планирования работ было собрано совещание известных экспертов в области конструирования корпусов (в нем принимали участие Р. Куирк, Ф. Гоув, Дж. Кэррол), которое и сформулировало основные принципы параметризации проблемной сферы и структуру корпуса [Фрэнсис 1983, с. 344 и далее].

* * *

Обратимся теперь к тем требованиям, которые обычно предъявляют пользователи к корпусу текстов (в дальнейшем именно корпус текстов будет основным предметом обсуждения), имея в виду, разумеется, идеальную ситуацию.