Электронный текстовый корпус

Корпусная лексикография (corpus-orientedlexicography) - область изучения языка на основе текстовых или акустических корпусов при постоянном использовании компьютера в определенных фазах хранения, извлечения и анализа данных (Oii 1998).

Электронный корпус (languagecorpus / corpora) – это массив естественных текстов современного языка (письменных и устных), представленных на машинном носителе и должным образом упорядоченных с целью их использования в научных и практических целях (Шевчук 2009).

Тематика и жанровая направленность текстов весьма разнообразна: газетные и журнальные статьи, художественная и научная литература, брошюры, доклады, записи бытовых разговоров, радиопередач, интервью и т.д.

Поиск лингвистической информации в корпусе осуществляется с помощью программы-конкордансера (например, AntConc 3.1 (Windows), ConcGram 1.0, WordSmithTools, WebQuiz, TACT, TACTWeb, WordSplitter, Concordance, Lexa и др.), которая выстраивает соответствующий конкорданс – вертикальный список случаев употребления слова, расположенных в алфавитном порядке в электронном корпусе текстов.

В число задач, решаемых с помощью текстовых корпусов в переводе, традиционно включаются следующие:

• Исходя из критерия частотности выбрать правильный или наиболее распространенный вариант лексико-грамматического сочетания и проанализировать комбинаторные возможности того или иного слова;

• Определить правильность выбранной синтаксической конструкции;

• Выяснить, допустим ли интерлинеарный (буквальный) перевод выражения;

• Установить коннотации используемого при переводе слова;

• Проверить грамматические возможности слова и др.

Обращение к текстовому корпусу в переводческой практике имеет целый ряд преимуществ:

• Быстрый поиск лингвистически релевантной информации в автоматическом режиме;

• Высокая степень репрезентативности (большое число примеров словоупотребления);

• Регулярное пополнение состава корпуса и расширение объема выборки;

• Возможность проведения самостоятельного мини-исследования и самостоятельного принятия решения относительно типовой сочетаемости искомого слова.

Однако использование текстовых корпусов требует от переводчика специальных исследовательских навыков, умения вести поиск, анализировать примеры, делать выводы (Карпова 2010).

Какие текстовые корпусы доступны переводчику сегодня?

Англоязычные текстовые корпусы:

• Bank of English (525 mln words) – http://www.titania.bham.ac.uk/docs/svenguide.html

• British National Corpus (100 mln words) – http://corpus.byu.edu/bnc

• American National Corpus (22 mln words) – http://anc.org

• The Australian Corpus of English (1 mln words)

• Brown Corpus of Standard American English (over 1mln words) – http://www.essex.ac.uk/linguistics/Default.aspx

• International Corpus of English (600 000 words) – http://www.ucl.ac.uk/english-usage/projects/ice-gb

Электронные текстовые корпусы других языков:

• Национальный корпус русского языка (более 20 млн слов) – http://www.ruscorpora.ru

• Чешский национальный корпус (100 млн слов)

• The Finnish Translation Corpus (7 млнслов)

• IDS Korpora IMS Stuttgart (корпуснемецкогоязыка)

• English-Norwegian Parralel Corpus, etc.

Более подробную информацию по национальным электронным текстовым корпусам можно получить по ссылке: www.corpora_menu.htm.

Итак, электронные текстовые корпусы дают общее представление относительно закономерностей и тенденций в словоупотреблении, действующих в современном английском языке. Однако они могут оказаться малопригодны для переводчиков, работающих с техническими, экономическими и другими специальными текстами. Для таких целей профессиональные переводчики создают собственные специализированные или виртуальные корпусы (disposable / adhoc / DIYcorpora).

Специализированный (виртуальный) корпус – это обширная по объему подборка текстов по конкретной тематике, специально составленная для поиска переводчиком определенной лингвистической информации. Тексты отбираются из разных источников по строго определенной тематике и обязательно представлены в электронной форме. Такой корпус в сочетании с программой-конкордансером незаменим при переводе, в особенности с родного языка на иностранный (Шевчук 2009).

Лингвисты высоко оценивают возможности специализированных корпусов, в том числе в части представления дополнительной энциклопедической и языковой информации, которую нельзя найти в традиционных источниках (словарях, стилистических руководствах, Интернет-ресурсах и т.п.). Корпус может быть использован для контроля правильности переводческих решений, поиска дефиниций, терминологических дублетов, антонимов, референтов, номенклатурных наименований, значений аббревиатур и др. Инструментом поиска в этом случае выступают особые фразы-индикаторы, например, alsocalled / knownas / referredto / asynonymfor, etc. (для поиска синонимов), thetermisappliedto (для поиска дефиниции), designationof (для поиска референта), shortfor / standsfor (для поиска значения аббревиатур) и т.д. (Шевчук 2009)