Глава 5. Оптимизация социальной функции языка. Политическая лингвистика


Политическая лингвистика



 


может реализоваться и в тексте о правилах техники безопасности на про­изводстве. Предсказать такие значения К-переменной довольно трудно. Понятно, что компьютерный контент-анализ пока используется только как средство жесткого контент-анализа. Использование разрабатываемых в настоящее время интеллектуальных процессоров может в перспективе изменить ситуацию.

На пятом этапепроисходит кодировка данных.

И, наконец, на шестом этапеосуществляется подсчет данных и ин­терпретация результатов. Для обработки результатов часто используются сложные статистические методы анализа, в том числе факторный и кла­стерный анализ.

Факторы контроля качества эксперимента. Втеории контент-анали­за уделяется большое внимание обеспечению адекватности и точности проведения эксперимента. Для подготовки экспериментов и оценки их результатов учитываются факторы надежности (reliability) и достовер­ности/обоснованности (validity). Фактор надежностипроявляется в трех основных формах — стабильности, повторяемости и тщательности (accu­racy). Стабильность— самая слабая форма надежности. Она определяется тем, насколько один и тот же кодировщик через некоторое время после первой кодировки так же сможет обработать данные. Понятно, что для компьютерной версии контент-анализа эта характеристика надежности выполняется постольку, поскольку не меняется программа кодировки. Повторяемостьявляется более сильной формой надежности, она характе­ризует возможность получения тех же результатов разными кодировщи­ками в разное время и в разных ситуациях по тем же инструкциям. Если разные кодировщики в разное время похожим образом кодируют одни и те же данные, используя одинаковые инструкции, то повторяемость эксперимента достаточно велика. Самой сильной формой надежности является тщательность,под которой понимается соответствие некоторой норме кодирования, выработанной экспертами. В элементарном случае тщательность проявляется в следовании выработанным инструкциям.

Фактор достоверности/обоснованностипроявляется во многих раз­нообразных формах. Одна из них — семантическая достоверность— определяется тем, насколько инструкции кодировщику учитывают много­значность языковых выражений, являющихся значениями К-переменной. Так, при проведении контент-анализа на К-переменную «ВОЙНА-МИР» (по отношению к межгосударственным связям) инструкция кодирова­ния, учитывающая фактор семантической достоверности, должна делать различие между значениями слова война, отсеивая употребления типа (1).

(1) После этого тихо тлевшая войнаперешла в открытые боевые действия. «Мослифт» полностью перестал обращаться на тот самый завод, чьи технологии — капельная пропитка статоров, централизованная нарезка канатов с обваркой кон­цов, автоматизированная очистка редукторов главного привода и тому подобные лифтовые премудрости, — существенно улучшают качество ремонта.

[«Известия»]


Для достижения семантической достоверности в компьютерном кон­тент-анализе широко используется метод Key-Word-In-Context, сводя­щийся к построению конкордансов на каждое из значений К-перемен­ной. Эксперт (иногда в интерактивном режиме) помогает компьютерной программе и отбрасывает те контексты, в которых языковой репрезентант К-переменной употребляется не в том значении, которое нужно.

Семантическая достоверность может быть усилена и в том случае, если вкачестве концептуальной переменной и ее репрезентантов высту­пает не одно слово, а словосочетание, более точно указывающее на сферу поиска. Например, в только что рассмотренном случае К-переменную «ВОЙНА-МИР» (по отношению к межгосударственным связям) можно переформулировать в виде «МЕЖГОСУДАРСТВЕННЫЙ КОНФЛИКТ» или «ПРОБЛЕМЫ В МЕЖДУНАРОДНЫХ ОТНОШЕНИЯХ» со значе­ниями типа кризис в межгосударственных отношениях, международный конфликт/международные конфликты, напряженность в отношениях меж­ду странами X и Y и т. п. В литературе это иногда не вполне удачно называется введением темы[Мангейм, Рич 1999, с. 274, 275].

Еще одна форма достоверности — достоверность отбора данных(sam­pling validity) — относится к формированию корпуса данных. Выборка данных для кодирования должна быть репрезентативна для проблемной области. В контент-анализе для отбора данных часто используется ме­тод случайной выборки, а также метод стратификационной выборки. В последнем случае проблемная область разбивается по релевантным параметрам и на каждое значение параметра подбирается пример. На­конец, для некоторых типов данных, характеризующихся регулярностью, привлекается систематический отбор. Анализ объявлений о найме жи­лья предполагает сплошной отбор материала из определенных изданий за фиксированный промежуток времени. В принципе, здесь могут исполь­зоваться те же критерии репрезентативности, которые разрабатывались в корпусной лингвистике — см. § 3 главы 3. Другим аспектом достоверно­сти отбора данных является отбор единицы кодирования, которая может определяться самим кодировщиком или диктоваться структурой данных.

Прагматическая достоверностьили достоверность предсказания,будучи довольно сильной формой фактора достоверности, характеризует возмож­ность распространения выбранного метода и/или результатов на другие данные.

Виды контент-анализа.Выше уже говорилось о том, что в зависимо­сти от принципов кодировки контент-анализ может быть жесткий и мяг­кий. Выделяется также содержательный и структурный контент-анализ. Контент-анализ, основанный на выделении концептуальной переменной и исследовании ее значений (репрезентантов) в тексте, называется содер­жательным.Возможен и другой вариант контент-анализа, при котором также предполагается выделение концептуальной переменной, однако ее репрезентанты изучаются с точки зрения формы. Например, К-пе-ременная «ВЫБОРЫ ПРЕЗИДЕНТА РОССИИ» может анализироваться