Создание Частотного словаря

Word List Tool – это инструментальное средство для подсчета всех слов в корпусе и представления их в виде упорядоченного списка (частотного словаря), что позволяет быстро установить самые частотные слова.

Слова могут упорядочиваться по частоте либо алфавиту от конца или начала слова, и упорядочивание может быть изменено. Список слов может создаваться без учета прописных и строчных букв, когда слова с использованием прописных и строчных букв могут рассматриваться как одно и то же слово (по умолчанию), или с их учетом, тогда подобные слова рассматриваются как разные.

Следующие действия необходимы, чтобы получить список слов и продемонстрировать основные черты этого инструментального средства:

1) Выберите подходящие опции для упорядочивания.

2) Нажмите кнопку 'Start'. Создание частотного словаря может быть приостановлено в любой момент нажатием кнопки 'Stop' (см. рисунок ниже).

3) Кликните по слову, чтобы получить набор строк KWIC, используя текст как условие поиска.

4) Кликните по кнопке “Clone Results”, чтобы создать копию результатов так, чтобы получить возможность сравнивать различные наборы результатов.

Рис. 12. Создание частотного словаря.

Keyword List – это инструментальное средство, демонстрирующее, какие слова являются необычно высокочастотными (или низкочастотными) в корпусе текстов по сравнению со словами в эталонном корпусе, что позволяет опознать в корпусе текстов характерные слова, например, как часть исследования английского языка для специальных целей или жанра.

Следующие действия необходимы, чтобы получить список ключевых слов и продемонстрировать основные черты этого инструментального средства:

1) Выберите необходимые файлы.

2) Перейдите к меню 'Preferences' и выберите опцию 'Keyword Preferences'.

3) Выберите метод порождения ключевого слова (статистическую меру), чтобы вычислить степень принадлежности слова к ключевым словам исследуемого текста (keyness). По умолчанию рекомендуется выбирать значение логарифмического подобия вероятности. При использовании значения логарифмического подобия вероятности, либо значения c-квадрат в качестве статистической меры применяются следующие значения (см.: http://ucrel.lancs.ac.uk/llwizard.html):

персентиль 95; уровень 5%; p <0.05; критическое значение = 3.84

персентиль 99; 1% уровень; p <0.01; критическое значение = 6.63

персентиль 99.9; уровень 0.1%; p <0.001; критическое значение = 10.83

персентиль 99.99; уровень 0.01%; p <0.0001; критическое значение = 15.13

4) выберите пороговое количество ключевых слов, которые должны быть выведены на экран,

5) выберите, следует ли рассматривать 'Negative Keywords' (слова исследуемого файла с необычно низкой частотой по сравнению с частотой в эталонном корпусе текстов),

6) выберите одну из опций для создания эталонного корпуса. Выберите функцию "Use raw file(s)" для использования исходного текста в формате .txt для того, чтобы выделить те тексты, которые будут рассматриваться как эталонные. Выберите опцию "Use word list(s)" при использовании одного из списков слов эталонного корпуса текстов. Использование опции "Use word list(s)" позволяет получить ключевые слова даже в случае, когда исходный эталонный корпус текстов не доступен.

 

Сохранение результатов: чтобы сохранить конкретное окно результатов, выберите опцию ‘File’ в навигационном меню в верхней части окна AntConc. Затем выберите функцию‘Save Output to Text File’ - или- нажмите комбинацию CTRL+S.