Электронный текстовый корпус

Электронный словарь

Электронный словарь (computer dictionary) – это компьютерная база данных, содержащая особым образом закодированные словарные статьи, позволяющие осуществлять быстрый поиск нужных слов, часто с учетом морфологических форм и с возможностью поиска сочетаний слов (примеров употребления), а также изменения направления перевода (http://ru.wikipedia.org).

Таким образом, электронные словари обладают весомыми преимуществами над бумажными словарями, обеспечивая

• Высокую скорость обработки информации

• Возможность оперативного импортирования эквивалента в текст перевода

• Портативность носителей информации

• Наличие новейшей и специальной лексики

• Оперативное пополнение новыми словами

• Возможность включения пользовательских словарей, их дальнейшее расширение и совершенствование

• Формирование истории запросов

• Возможность переключения направления перевода

• Дополнительные опции, например, полнотекстовый поиск, распознавание и синтез звука и др. (Карпова 2010)

В роли электронного словаря может выступать не только компьютерная программа, но и специальное портативное устройство – словарь-переводчик, пользующийся популярностью, например, у туристов, или сканер-переводчик, такой как Quicktionary. Эти портативные электронные словари обладают достаточно большой словарной базой, могут содержать правила грамматики, произношения и т.д. Сканеры-переводчики обладают и еще одной уникальной функцией: достаточно провести сканером по слову, и на дисплее ручки появится его соответствие на языке перевода.

Тем не менее, судя по тенденциям развития рынка электронной словарной продукции, программные продукты, обладающие широким спектром функций и возможностью установки на КПК, ноутбуки, смартфоны и т.д., составляют очевидную конкуренцию портативным словарям.

Разработчики программного обеспечения, как правило, поставляют его в различных вариациях: одноязычная или многоязычная версия, версия для мобильных устройств, онлайн-версия (используется только в сети Интернет) или оффлайн-версия (для работы в автономном режиме) (Соловьева 2008).

Словари, доступные в режиме онлайн, сегодня оцениваются как наиболее удобные и функциональные. Помимо возможностей, присутствующих в оффлайновых версиях (комплексный поиск в нескольких словарях одновременно, возможность обновления, пополнения, модификации), онлайн-словари имеют и уникальные черты:

• Широкая представленность и общедоступность

• Большой объем

• Возможность параллельных ссылок на другие онлайновые лексикографические источники

• Предоставление статистических данных о словоупотреблении единиц

• Отсутствие необходимости отведения места на жестком диске для хранения и др. (Карпова 2010).

Онлайн-словари или интернет-словари – это продукты целого направления практической лексикографии, название которого вошло в терминологический лексикографический аппарат как интернет (или кибер-) лексикография.

Интернет (кибер-) лексикография (cyberlexicography) – направление в современной лексикографической практике, основанное на использовании интернет-пространства для создания словарей (Carr 1997).

Электронный словарь состоит из двух частей: программной оболочки и словарной базы. Если оболочка практически не меняется, то словарные базы можно подключать, отключать и изменять.

Методика работы с электронными словарями достаточна проста. Действия сводятся к выделению слова в программе и вызову словаря по «горячей» клавише либо запуску словаря и вводу нескольких первых букв искомого слова.

С внедрением информационных технологий в профессиональную и образовательную деятельность человека электронные словари получили тотальное распространение в 21 столетии. История вопроса уходит, однако, на пятьдесят с лишним лет назад. Одним из первых лексикографических ресурсов, созданных на базе компьютера (тогда еще электронно-вычислительной машины) стала словарная база Джорджтаунского университета, собранная в процессе широко известного Джорджтаунского эксперимента – GeorgetownUniversityMachineTranslationResearchandLanguageProject (1956). За ней последовали 7-е (компьютерное) издание толкового словаря Н.Уэбстера (Webster’s 7thEdition, 1963), электронные издания толковых словарей издательских домов «Рэндом Хаус» (RandomHouseEditionoftheEnglishLanguage, 1966) и «Американ Херитидж» (AmericanHeritageDictionary, 1969), компьютерные версии толковых словарей современного английского языка издательств «Лонгман» (LongmanDictionaryofContemporaryEnglish, 1978) и «Харпер Коллинз» (CollinsCOBUILDEnglishDictionary, 1979) и др. (Карпова 2010)

Какие электронные словари востребованы переводчиками сегодня? Приведем краткий перечень наиболее популярных словарей, функционирующих в режимах он- и оффлайн.

Двуязычные для общих целей:

• Lingvo (версии X3, X5)

• Multitran

• Polyglossum (версии 3.52, 3.72)

• МультиЛекс 6 (версии «Компакт» и «Де-люкс»)

Одноязычные для общих целей (в режиме онлайн):

• AmericanHeritageDictionaryof the English Language (толковый словарь американского варианта английского языка)

• Merriam-Webster English Dictionary

• OxfordEnglishDictionary (толковый словарь в 20 томах, платный доступ в режиме онлайн или на CD-ROM)

• WordNet English Dictionary and Thesaurus

• The Internet Language Dictionary

• AllWords.com Dictionary

• Encarta World English Dictionary

• Ultralingua English Languauge Dictionary

• Wordsmyth English Dictionary

• Толковый словарь русского языка (под ред. С.И. Ожегова и Н.Ю. Шведовой)

• Толковый словарь русского языка (под ред. Д.Н. Ушакова)

Одноязычные для специальных целей:

• Academic Press Dictionary of Science and Technology

• Free Online Dictionary of Computing

• The Dictionary of Art

• Dictionary of Banking and Finance

• Law Dictionary

• Medical Dictionary On-line

• WebElements (он-лайн таблица Д.И. Менделеева с произношением химических элементов и их названиями на 7 языках)

• Dictionary of Old English

Тезаурусы:

• Roget’s International Thesaurus

• Roget’s Thesaurus of English Words and Phrases

• Specialized On-line Thesauri

• Synonym Dictionary of English

• WWWebster Thesaurus

Наиболее популярные каталоги и коллекции словарей:

• Dictionary.com (www.dictionary.com)

• Dictionaries (http://math-www.unipadeborn.de)

• OnelookDictionaries (более 600 словарей и глоссариев, общий объем – 4,2 млн слов) www.facstuff.bucknell.edu

• Your Dictionary.com (www.yourdictionary.com)

• 1000 словарей (www.primavista.ru)

• dic.academic.ru (подборка русских словарей и энциклопедий)

• glossary.ru (подборка глоссариев на русском языке, иногда с переводом)

• WordIQ (толковые словари и энциклопедия)

• Др.

Переводческий портал

Переводческие порталы – это специальные сайты, организованные и поддерживаемые наиболее активными членами переводческого сообщества (лицами, организациями, союзами и т.д.), публикующие актуальную информацию в области перевода.

Регистрация на переводческих порталах чаще всего осуществляется бесплатно, однако доступ к некоторым зонам и разделам портала может быть предоставлен за определенный взнос.

Порталы публикуют информацию о проводимых встречах, конкурсах и конференциях, обеспечивают доступ к новейшим публикациям в переводческих журналах и альманахах, организуют переводческие форумы и т.п. На порталах также размещаются объявления о вакансиях, анонсы новых лексикографических продуктов и др.

Список наиболее полезных адресов включает:

• www.proz.com

• www.translatorscafe.com

• www.trworkshop.net (Город переводчиков)

• http://translation-blog.ru

• www.perevod-pro.ru

• www.tattolmach.narod.ru

• Др.

Виртуальная библиотека

Еще одним полезным для переводчика ресурсом, обеспечивающим автоматический поиск информации в Интернете, являются электронные или виртуальные библиотеки (digital / electronic / virtuallibrary). Они размещаются на отдельных веб-порталах и дают обширную информацию о таких СМИ, как новостные блоки, информационные агентства, газеты, журналы, телекомпании, радиостанции и радиопрограммы. Здесь одновременно содержатся самые свежие материалы практически на любую тему и архивные данные за несколько лет.

Самой крупной виртуальной библиотекой в мире является Национальная электронная библиотека при Конгрессе США (NationalCongressDigitalLibrary). Среди наиболее известных публичных Интернет-библиотек можно назвать TheInternetPublicLibrary (IPL). Наиболее востребованные библиотеки на русском языке – это Библиотека XServer.ru (http:// xserver.ru), Библиотека экономической и управленческой литературы (http://aup.ru/library), Электронный каталог Российской национальной библиотеки (http://www.nlr.ru/poisk) и др.

Существуют электронные ресурсы, которые содержат базу данных по сотням газет, журналов, книг и т.д. на разных языках. Среди них:

• Cities.com (WorldNews Network)

• Cosmopolis

• Database of worldwide on-line newspapers

• InfoPilot-Publishers

• RapidTree

• The Flying Inkpot’s World Newspaper Links, etc.

Кроме того, любое крупное информациооное агентство, газета, журнал, теле- и радиоканал в России, Великобритании, США и других странах мира имеют свою электронную версию или архив.

Обращение к электронным библиотекам и архивам помогает переводчику отыскать разнообразную лингвистическую и энциклопедическую (фоновую) информацию по любому возникающему в процессе работы вопросу. Для получения информации в архивах изданий можно воспользоваться одним из следующих способов:

• Прямой выход на электронный адрес надежных источников информации (газетных или журнальных архивов

• Расширенный поиск через электронную библиотеку или базу данных

• Ускоренный поиск выделенного в тектовом редакторе слова или выражения на сайтах газет или журналов с помощью специального макроса (например, GoogleNewspapersUk).

Электронный текстовый корпус

Корпусная лексикография (corpus-orientedlexicography) - область изучения языка на основе текстовых или акустических корпусов при постоянном использовании компьютера в определенных фазах хранения, извлечения и анализа данных (Oii 1998).

Электронный корпус (languagecorpus / corpora) – это массив естественных текстов современного языка (письменных и устных), представленных на машинном носителе и должным образом упорядоченных с целью их использования в научных и практических целях (Шевчук 2009).

Тематика и жанровая направленность текстов весьма разнообразна: газетные и журнальные статьи, художественная и научная литература, брошюры, доклады, записи бытовых разговоров, радиопередач, интервью и т.д.

Поиск лингвистической информации в корпусе осуществляется с помощью программы-конкордансера (например, AntConc 3.1 (Windows), ConcGram 1.0, WordSmithTools, WebQuiz, TACT, TACTWeb, WordSplitter, Concordance, Lexa и др.), которая выстраивает соответствующий конкорданс – вертикальный список случаев употребления слова, расположенных в алфавитном порядке в электронном корпусе текстов.

В число задач, решаемых с помощью текстовых корпусов в переводе, традиционно включаются следующие:

• Исходя из критерия частотности выбрать правильный или наиболее распространенный вариант лексико-грамматического сочетания и проанализировать комбинаторные возможности того или иного слова;

• Определить правильность выбранной синтаксической конструкции;

• Выяснить, допустим ли интерлинеарный (буквальный) перевод выражения;

• Установить коннотации используемого при переводе слова;

• Проверить грамматические возможности слова и др.

Обращение к текстовому корпусу в переводческой практике имеет целый ряд преимуществ:

• Быстрый поиск лингвистически релевантной информации в автоматическом режиме;

• Высокая степень репрезентативности (большое число примеров словоупотребления);

• Регулярное пополнение состава корпуса и расширение объема выборки;

• Возможность проведения самостоятельного мини-исследования и самостоятельного принятия решения относительно типовой сочетаемости искомого слова.

Однако использование текстовых корпусов требует от переводчика специальных исследовательских навыков, умения вести поиск, анализировать примеры, делать выводы (Карпова 2010).

Какие текстовые корпусы доступны переводчику сегодня?

Англоязычные текстовые корпусы:

• Bank of English (525 mln words) – http://www.titania.bham.ac.uk/docs/svenguide.html

• British National Corpus (100 mln words) – http://corpus.byu.edu/bnc

• American National Corpus (22 mln words) – http://anc.org

• The Australian Corpus of English (1 mln words)

• Brown Corpus of Standard American English (over 1mln words) – http://www.essex.ac.uk/linguistics/Default.aspx

• International Corpus of English (600 000 words) – http://www.ucl.ac.uk/english-usage/projects/ice-gb

Электронные текстовые корпусы других языков:

• Национальный корпус русского языка (более 20 млн слов) – http://www.ruscorpora.ru

• Чешский национальный корпус (100 млн слов)

• The Finnish Translation Corpus (7 млнслов)

• IDS Korpora IMS Stuttgart (корпуснемецкогоязыка)

• English-Norwegian Parralel Corpus, etc.

Более подробную информацию по национальным электронным текстовым корпусам можно получить по ссылке: www.corpora_menu.htm.

Итак, электронные текстовые корпусы дают общее представление относительно закономерностей и тенденций в словоупотреблении, действующих в современном английском языке. Однако они могут оказаться малопригодны для переводчиков, работающих с техническими, экономическими и другими специальными текстами. Для таких целей профессиональные переводчики создают собственные специализированные или виртуальные корпусы (disposable / adhoc / DIYcorpora).

Специализированный (виртуальный) корпус – это обширная по объему подборка текстов по конкретной тематике, специально составленная для поиска переводчиком определенной лингвистической информации. Тексты отбираются из разных источников по строго определенной тематике и обязательно представлены в электронной форме. Такой корпус в сочетании с программой-конкордансером незаменим при переводе, в особенности с родного языка на иностранный (Шевчук 2009).

Лингвисты высоко оценивают возможности специализированных корпусов, в том числе в части представления дополнительной энциклопедической и языковой информации, которую нельзя найти в традиционных источниках (словарях, стилистических руководствах, Интернет-ресурсах и т.п.). Корпус может быть использован для контроля правильности переводческих решений, поиска дефиниций, терминологических дублетов, антонимов, референтов, номенклатурных наименований, значений аббревиатур и др. Инструментом поиска в этом случае выступают особые фразы-индикаторы, например, alsocalled / knownas / referredto / asynonymfor, etc. (для поиска синонимов), thetermisappliedto (для поиска дефиниции), designationof (для поиска референта), shortfor / standsfor (для поиска значения аббревиатур) и т.д. (Шевчук 2009)