Проблемы машинной обработки информации
Вы хотите узнать, скольким сицилийкам по имени Элеонора сделали операцию в 1940 г.?
Достаточно нажать вот на эту клавишу – и вы получите ответ. Но сначала надо ввести в машину определенные данные, а это порядочное неудобство.
Примо Леви. Патент Симпсона
Мы должны коснуться возможностей машинной обработки материалов способом контент-анализа. Из всех возможностей контент-анализа, которые суммированы в двух группах, компьютеру можно поручить задачи анализа текстов, когда в качестве единицы анализа выступает слово. Когда мы говорим, что речь идет о достаточно ограниченном наборе слов, мы имеем в виду ограниченность с точки зрения человеческого мышления. Память же компьютера оперирует списком, состоящем из тысяч слов, но машинный анализ текста возможен, когда в память компьютера заложены эти тысячи слов. И тогда машина при обработке текстов ничем иным не занимается, как подсчитывает число материалов, где встречаются слова, интересующие исследователя. Такие операции находят все большее применение, и предложениями подобного рода – провести такой анализ – уже пестрят рекламные странички профессиональных журналов.
Более сложные случаи, когда речь идет о генерализации вывода, не обеспеченного симметричным рядом известных слов, пока неподвластны компьютеру. Другое дело, что компьютер может использоваться как лист для фиксации результатов, к которым приходит кодировщик текста. Но и тут существует соображение контроля за этим выводом. Возможности предъявления такого анализа для контроля сдерживают применение компьютера в этом качестве.
Но вспомним, как все это начиналось. Группа ученых Гарвардского университета в США (руководитель Ф. Стоун) в 1961 г. начала разработку машинной обработки, проведя серию анализов текстов самых различных: газет, сочинений членов малых групп, программных речей, произнесенных кандидатами на президентский пост, личных документов[1]. Становились ясными преимущества и недостатки обработки текстового материала с помощью машин – они обеспечивали адекватность анализа огромных текстовых материалов, но требовали огромных усилий по составлению программы – собственно словника, с учетом всех синонимических вариантов понятий, которые надо будет отыскивать в этом море слов. Авторы отлично понимали перспективы компьютерного дела – их размышления о том, что наборная клавиатура, связанная с компьютером, будет обычной принадлежностью школьного класса и делового офиса учителя, бухгалтера, психотерапевта, библиотекаря, звучат сегодня как предвидение. Но для того чтобы выполнять все эти операции, нужно было, чтобы компьютер мог различать не только слова, но и смысл более пространных языковых единиц. Для этого требовалось решение проблемы синтаксического анализа. К сегодняшнему дню частично такие проблемы решены, коль скоро мы доверяем своему компьютеру – при наличии в нем особых программ – проверку ошибок набранного текста. С тех пор машинный метод обработки текстовых массивов все больше находит себе применение. Уже через десять лет после этого проекта Ф. Стоуна и его коллег практически повсеместно стали осуществляться проекты контент-аналитических исследований с применением ЭВМ.
Упомянем еще пример о близкой к сегодняшнему дню ситуации. В прессе прошла информация, что американские ученые решили скрупулезно проследить ход политических событий в ряде стран задолго до возникновения революционной ситуации с использованием компьютерной техники[2]. Такой эксперимент был осуществлен в компьютерном центре по гуманитарным и социальным исследованиям Университета штата Иллинойс. Использовался суперкомпьютер Nautilus, совокупная мощность 1024 процессоров которого превышает более 8 трлн операций в секунду! Как отмечает руководитель К. Литару, в компьютер был заложен огромный массив политических текстов со всего мира за последние 30–40 лет. Среди них архив газеты New York Times за период с 1945 по 2010 г., сообщения агентства ВВС за 30 лет и Google News за последние 10 лет. В общей сложности суперкомпьютер прочитал свыше 100 млн сообщений. Программа анализировала время и место публикаций, имена лидеров страны, тональность настроения общества и реакцию на те или иные крупные события в мире. Были, в частности, введены такие ключевые слова для характеристики текста, как terrible ("страшный"), horrific ("ужасный") и nice ("хороший").
Геокодирование указывает привязку к карте мира. Так, например, упоминания такого географического объекта, как Каир, или такого субъекта, как X. Мубарак, происходят во многих текстах сотни и тысячи раз. За 30 лет правления в Египте Мубарака резкое снижение его авторитета отмечается лишь три раза – в 1991 г. во время бомбардировок США иракских войск в Кувейте и в 2003 г. в период вторжения США в Ирак. Третий раз такое резкое снижение отмечено за месяц до его отставки – в период начала народных волнений. Доктор Литрау говорит: "Суперкомпьютер с точки зрения поставки информации может заменить сотни аналитиков спецслужб". В качестве примера приводится определение местонахождения бен Ладена – из нескольких тысяч упоминаний в печати его имени 50% были связаны с Пешаваром и Исламабадом (Пакистан), находящимися примерно в 200 км от места его уничтожения, которое также упоминалось одной из газет незадолго до налета американских спецназовцев.
Ретроспективный анализ крупных событий оказался очень близок к реальной действительности. Отсюда делается вывод, что на базе разработанных компьютерных моделей в будущем вполне возможно предсказывать развитие событий и обстановки в тех или иных регионах нашей планеты. Вычислительные центры смогут предсказывать поведение активной части общества той или иной страны, от действий которой зависит ход развития событий на всей планете.
Прошла информация, что и наши ведомства понимают ценность таких исследований. За 3,5 млн руб. Министерство юстиции РФ намерено приобрести систему мониторинга и анализа материалов СМИ и интернет-блогов[3]. Предложение размещено на сайте госзакупок. Система обязана обеспечивать сбор, обработку, анализ и отображение текстовой, аудио- и видеоинформации, проходящей по всем открытым источникам: лент информагентств, передач федеральных и региональных телеканалов и радиостанций, прессы – федеральной и региональной (минимум 90 изданий), интернет-СМИ, сайтов федеральных и региональных органов власти, а также интернет-дневников граждан. Отслеживание не менее 5 тыс. источников должно происходить непрерывно. Сообщения, подвергаемые мониторингу, будут касаться президента, премьера, Минюста, других российских госорганов, а также Страсбургского суда и еще ряда тем правового характера. Система должна будет проводить лингвистический и статистический анализы собранного материала: отображать результаты в режиме реального времени.
В обязательном перечне, прилагаемом к аукционной заявке, есть все ведущие издания. В системе также должно мониториться не менее 1 тыс. региональных изданий и не менее 35 передач центральных телеканалов. Плюс основные региональные каналы и еще десяток радиопрограмм: от ведущих станций до региональных – вместе с 1 тыс. интернет-СМИ и не менее чем 500, как указано, "наиболее влиятельных блогов". Мониторинг медиапространства должен идти непрерывно – 365 дней в году.
Пример с машинной обработкой текстов иллюстрирует очень важную для понимания сущности контент-анализа мысль. Анализ содержания как метод не обладает магическими качествами – вы не получите из него больше, чем вложили в пего. Если нечто значительное, важное, необычное нс предусмотрено процедурой, то оно нс появится в результате анализа, каким бы сложным и кропотливым он ни был.