Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика 133


Корпусная лингвистика 133


 


проблемной области. Верхний предел корпуса ограничивался прагмати­ческими соображениями — местом на носителе информации и скоростью работы сервисных программ.

Как уже говорилось выше, разные пользователи предъявляют различ­ные требования к корпусу. Нельзя не учитывать и тот факт, что многие пользователи могут оказаться нелингвистами. Этих людей будет интере­совать отражение конкретных событий в прессе определенного периода, они захотят читать целые тексты, а не отбирать ограниченные по объему примеры употребления. Чтобы учесть разнообразные интересы, необхо­димо составлять корпус из целых текстов, а не из отрывков, как зачастую практиковалось в начальный период развития корпусной лингвистики[30]. Следует учитывать, что лингвисты разных профилей предъявляют разные требования к корпусу данных. Для исследований по морфологии и синтаксису, как правило, не требуется очень больших массивов текстов. В ряде случаев это просто нежелательно: например, объем конкордан­сов на употребление служебных слов типа или, да, нет может достигать нескольких тысяч страниц. На один интересный пример может приходит­ся сотня тривиальных. Для исследований по грамматике представляется важным иметь в корпусе тексты, различающиеся по структуре и по жанру. В то же время массив текстов должен быть достаточно большим, чтобы обеспечить получение примеров на редкие слова. Только в этом случае корпус будет представлять интерес для лексикологов и лексикографов.

Таким образом, задача составителей корпуса текстов — постараться по возможности учесть интересы различных пользователей. Для это­го необходимо, чтобы все тексты, входящие в корпус, были снабже­ны достаточно подробным «поисковым образом», который позволил бы программному обеспечению «фильтровать» исходный большой массив, исходя из нужд пользователя.

В отличие от корпуса языка Достоевского, корпус по современной публицистике потребовал разработки сетки параметров, позволяющих осуществить инвентаризацию проблемной области и обеспечить ее ре­презентативное представление в корпусе. Единицей хранения корпуса текстов по публицистике является текст или его относительно закончен­ный фрагмент. Параметризация проблемной области при формировании корпуса текстов по современной публицистике основывается на следую­щих основных факторах:

• фактор автора текста: журналист/непрофессиональный политик vs. профессиональный политик (распределение по политикам учитывает как крупных политических деятелей типа Ельцина, Путина, Черно­мырдина, Немцова, Хакамады, Селезнева, Гайдара, Жириновского, так и политиков второго ряда); отдельно стоит проблема выявле­ния «команд спичрайтеров», определяющих собственно языковое

 


оформление текста — в ряде случаев данная проблема решается довольно легко, но для многих текстов это не возможно в принципе;

• фактор персонификации-деперсонификации автора (конкретный че­ловек vs. партия/общественное движение/политическая организа­ция/учреждение vs. деперсонифицированный текст — лозунги, пе­редовицы и т. п.);

• фактор адресата (кому адресован текст: сторонники — противники — нейтральная аудитория; профессиональная ориентация — выступле­ние перед шахтерами; творческой интеллигенцией и пр.);

• фактор прагматических условий порождения текста (речь на ми­тинге — речь на заседании институционального органа —- интер­вью — пресс-конференция (всего было учтено 15 типов условий произнесения));

• фактор источника: журнальный текст — книжный текст — листов­ка — агитационный плакат — лозунг — телевидение — радио;

• коммуникативное распределение (монологический текст — диалог;
общие типы иллокуций: демонстрация намерений, например, поли­
тическая программа — аргументативный диалог и пр.).

На основе сформулированных факторов была сформирована матрица параметров, позволившая выделить из проблемной области около 70 ти­пов текстов. Эта типология и была положена в основу отбора текстов

в корпус.

Кодировка единиц хранения массива.После параметризации текстов были определены те характеристики, которые фиксировались в дескрип­ции каждого текста в корпусе (о фасетной формуле — см. особенности организации фактографических информационно-поисковых систем в § 4 главы 4): 1) источник (значения параметра: «Век», «Дружба народов», «Завтра», «Знамя», «Известия», «Итоги», «Молодая гвардия», «Москов­ский комсомолец» и т.д.); 2) автор (около 1000 авторов); 3) название статьи (1 368 названий); 4) политическая ориентация издания («общеде­мократическая» пресса; «левая» пресса); 5) жанр (значения параметра: «воспоминания», «интервью», «критика», «круглый стол», «очерк», «про­блемная статья», «репортаж», «рецензия», «фельетон»); 6) тема (значения параметра: «внутренняя политика», «внешняя политика», «литература», «искусство» — всего 39 различных тем); 7) время (период 90~х гг.; было включено также несколько характерных статей периода «ранней пере­стройки»).

Программное обеспечение.Корпус текстов очень сильно проигрывает, если к нему не сделан «дружественный» пользовательский интерфейс, по­зволяющий производить обработку текстов и не требующий специальной подготовки пользователя.

Вообще, следует отметить, что в настоящее время не существует стандартного программного пакета обработки текстов, который удовле­творял бы нужды всех пользователей, работающих с письменными ис­точниками (см. по этому поводу выше). По этой причине организации,