Языковой материал в лингвистическом исследовании

Любое лингвистическое исследование в той или иной мере опирается на анализ языкового материала, языковых данных. Чем больше материал, тем выше достоверность выводов, тем шире сфера действия наблюден­ных закономерностей. В традиционном языкознании сбору материала всегда придавалось особое значение. Более того, во многих областях лингвистики сбор новых языковых фактов может считаться основной задачей лингвистического описания — ср. исследование неописанных и плохо описанных языков, выявление фонетических и морфологических различий в диалектах, изучение функционирования жаргонов, определе­ние изменений в ф|ункционировании языка и множество других задач, которые невозможна даже перечислить.

Каковы традиционные способы сбора и хранения языковых данных? Если отвлечься от области фонетики (это совершенно особая тема, тре­бующая специального обсуждения), то чаще всего речь идет о ручной об­работке письменных текстов, опросе информантов по разным методикам и последующем изучении полевых анкет, о записях текстов в письменной форме, словарных картотеках и пр[21]. Нет нужды говорить, что часто этап сбора материала в традиционной технологии исследования занимал мно­гие годы. Конечно, при удачном стечении обстоятельств лексикографиче­ская картотека становилась важнейшим источником для изучения языко­вых форм — такова судьба картотеки Академического словаря петербург­ского Института лингвистических исследований (ранее ленинградского отделения Института языкознания АН СССР). Однако это скорее ис­ключение, чем правило. К сожалению, многие картотеки недоступны для лингвистов-исследователей, некоторые из них просто потеряны.

Имеются и другие проблемы. При традиционной технологии сбора и обработки языковых данных обновление собранного материала предста­вляет собой отнюдь не тривиальную задачу. Текущая обработка картотеки, поиск нужных единиц и пр. — все эти абсолютно необходимые операции отнимают значительное время. Кроме того, традиционная технология делает практически невозможным доступ к языковым данным на рас­стоянии. Некоторые типы данных — корпусы текстов — существовали


в весьма ограниченном по объему виде (например, в виде хрестоматий, сборников текстов).

Новые информационные технологии и технические средства (ком­пьютерные системы, системы связи, системы мультимедиа) значительно облегчили сбор языковых данных. Так, поскольку компьютерные тех­нологии широко используются в печатном деле и в средствах массовой информации, то существенно упростился процесс получения материала: большинство крупных газет имеют электронные версии, функциониру­ющие в информационных сетях, в частности, в Интернете. Имеются довольно продуктивные устройства сканирования текста (сканеры) и эф­фективные программы расшифровки графической информации («кар­тинки» текста) в собственно текстовый формат (текст как совокупность графем). Налицо колоссальный технологический рывок вперед. Многие издательства используют для составления словарей специально подго­товленные корпусы текстов — ср., например, Бирмингемский корпус английского языка и соответствующую базу данных, созданные как ис­точники для подготовки англоязычных словарей издательства «Коллинз» (см., например, [Collins COBUILD English language dictionary 1987]).

Этот технологический рывок создал, однако, другие — не менее серьезные — проблемы, существенно осложняющие использование язы­кового материала как для чисто научных, так и научно-практических целей (например, для составления словарей). Дело в том, что чрезмерный объем изучаемых данных может и затруднить описание исследуемого феномена. Такой эффект возникает в двух случаях: во-первых, когда информации слишком много[22], и, во-вторых, когда выбранный язы­ковой материал искажает реальную картину функционирования языка относительно описываемого феномена. При наложении первой и вто­рой ситуации — и материал слишком велик и он не отражает реальный узус — результаты исследования практически не поддаются никакой разумной оценке. Заметим, что перечисленные проблемные ситуации не исключение, а рутинная практика современной лингвистики. В этом смысле остроумная метафора У. Фрэнсиса, сравнившего процесс форми­рования корпуса с попыткой вычерпывания ведром океана, не кажется значительным преувеличением [Фрэнсис 1983, с. 337].

Встает задача разработки общих принципов построения лингвисти­ческих корпусов данных с использованием современных компьютерных технологий. Рассмотрим здесь две важнейших темы корпусной лингви­стики, связанные с конструированием корпусов текстов:

• формулировка общих требований к корпусу данных с точки зрения

пользователя;