Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика


Корпусная лингвистика



 


Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения раз­личных аспектов функционирования языковой системы. Они строятся не post factum — после проведения какого-либо исследования, а до его проведения. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач. Неспецифицированность за­дачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности (см. ниже).

Иллюстративные корпусы.Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются слепком, правильным (с точки зрения стати­стики) отображением проблемной области. Они включают лишь то, что достаточно для иллюстрации описываемого феномена. Типичный пример иллюстративного корпуса представлен в «Путеводителе по дискурсив­ным словам русского языка» [Баранов, Плунгян, Рахилина 1993], где семантический анализ частиц и выделенные значения сопровождаются значительным текстовым материалом, позволяющим читателю проверить предложенные семантические интерпретации.

Динамические и статические корпусы текстов.Первоначально корпусы текстов создавались как статические образования, отражающие опреде­ленное временное состояние языковой системы. Типичными представи­телями этого вида корпусов являются авторские корпусы — коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временной шкале — например, изменения значе­ния слов, частоты использования тех или иных синтаксических конструк­ций и пр. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динами­ческого корпуса текстов. В имеющейся литературе такие корпусы получи­ли также название мониторных[23].Особенность сборки мониторных кор­пусов заключается в том, что они не предполагают раз и навсегда заданно­го набора текстов. В течение заранее фиксированного промежутка време­ни происходит обновление и/или дополнение множества текстов корпуса.

Специфика эксплуатации динамического корпуса состоит в том, что пользователь при проведении исследования может выделить из об­щего генерального корпуса рабочий корпус, включающий лишь часть текстов генерального корпуса. Как динамический корпус строился Бир­мингемский корпус английского языка. Пример динамического корпуса по современной российской публицистике рассматривается ниже.

Корпусы параллельных текстов.Для научных и практических це­лей (в частности, для преподавания иностранных языков) формируются


корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на не­мецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов.

Способ представления и хранения корпуса данных.Наибольший инте­рес представляют те способы, которые опираются на современные ком­пьютерные технологии хранения и обработки данных. Для дальнейшего изложения важно делать различие между двумя основными способами представления — неструктурированнымтекстовым форматом хранения (запись графем текста в ASCl-кодах) и структурированнымформатом хра­нения (текст со специальной разметкой); к последнему можно отнести также представление данных в форматах баз данных различного типа.

Порог отображения.Поскольку корпус данных является сужением проблемной области, то совершенно очевидно, что при «пропорциональ­ном» сужении, являющемся, по-видимому, простейшим случаем реализа­ции принципа репрезентативности (см. ниже), некоторые части проблем­ной области оказываются вне корпуса данных. Возьмем грубый пример. Пусть в проблемной области содержится 20 контекстов, а в корпусе дан­ных должна быть четвертая часть — 5 контекстов. Контексты являются примерами реализации различных синтаксических феноменов: в десяти контекстах представлены простые предложения, а в восьми — сложные. В двух последних контекстах содержатся примеры парцелляции. В корпу­се данных один контекст соответствует четырем контекстам проблемной области. Это означает, что контексты парцелляции при пропорциональ­ном сужении в четыре раза не попадают в корпус данных. Соотношение между корпусом данных и проблемной областью при пропорциональ­ном сужении будем называть порогом отображения.Чем выше порог, тем больше вероятность, что какие-то феномены проблемной области, обладающие сравнительно низкой частотой, не попадут в корпус данных. Параметризация проблемной области.Сужение проблемной области к исследовательскому корпусу основывается на выделении некоторых ха­рактеристик текстов проблемной области, которые релевантны для пред­полагаемого исследования. Совокупность этих характеристик (их возмож­ные комбинации) образует многомерную матрицу, служащую основой для отбора текстов в корпус. Часто для оценки релевантных параметров про­блемной области привлекается экспертная оценка. У. Фрэнсис, описывая историю создания Брауновского корпуса, отмечает, что на этапе плани­рования работ было собрано совещание известных экспертов в области конструирования корпусов (в нем принимали участие Р. Куирк, Ф. Гоув, Дж. Кэррол), которое и сформулировало основные принципы параме­тризации проблемной сферы и структуру корпуса [Фрэнсис 1983, с. 344 и далее].