МЕТОДЫ СТРУКТУРИРОВАНИЯ ИНФОРМАЦИИ
Многообразие методов структурирования информации обусловлено тем, что способов ее представления и организации существует масса, да и информация, сама по себе, бывает весьма различного свойства. Например, весьма существенно то, какие средства отображения/каналы восприятия задействуются при выводе/вводе данных, потенциально содержащих информацию, каков исходный уровень организации этих данных, относятся ли они к разряду числовых, текстовых, графических, видео, аудио и т. д. Очень важную роль играют те цели, которые преследуются при выполнении процедуры структурирования данных (информации).
Краткое отступление: ранее мы уже указывали на различие между данными и информацией, говоря о том, что понятие «данные» связано с представлением информации на материальных носителях, а также о том, что данные для конкретного потребителя могут вообще не содержать информации, поскольку информация — это те новые знания, которые приобретает получатель данных. Здесь мы считаем нелишним напомнить об этом и, по привычке оперируя словом «информация», будем подразумевать, что структурируем мы все-таки данные (хотя в голове мы можем структурировать и информацию, пытаясь мысленно систематизировать, упорядочить имеющиеся знания).
Для начала введем классификацию целей структурирования информации. Здесь могут быть выделены следующие классы целей:
- получение качественно нового знания о системе/процессе;
- установление факта и локализация неполноты и/или противоречивости совокупности знаний;
- систематизация, упорядочение некоторой совокупности знаний;
- акцентирование или выделение одного или нескольких аспектов информации (например, временного, пространственного, функционального и т. д.);
- сокращение избыточности представления информации;
- согласование представления информации с некоторой системой обработки и интерпретации;
- повышение наглядности отображения информации;
- смена уровня общности/абстракции описаний.
В зависимости от класса цели меняются методы и технологии структурирования информации. Но мы уже указывали на то, что цель — это не единственный фактор, определяющий выбор метода структурирования информации. По этой причине необходимо рассмотреть виды информации, подлежащей структурированию, а также способы ее представления.
Введем классификацию видов информации по ее сущности/содержанию и способу ее использования:
- информация о ценностях и целях (информация целеполагания), используемая при планировании/прогнозировании;
- информация о функциях системы/процесса;
- информация о структуре системы/процесса;
- информация о динамике системы/процесса;
- информация о состоянии системы/процесса;
- информация о задачах системы/процесса.
В приведенной классификации виды информации размещены в порядке убывания периода стабильности/актуальности. Однако два класса информации, описывающей ценности, цели и задачи, являются относительно независимыми от состояния, динамики, структуры и функций системы/процесса, поскольку связаны с реализацией функции целеполагания. Впрочем, можно считать, что решение об использовании именно такой схемы размещения этих классов информации вполне обоснованно, поскольку позволяет решать многие прикладные задачи.
Кроме всего прочего, следует учитывать еще и такие классификационные признаки, как:
- отношение информации к объекту:
- информация, относящаяся к объекту;
- информация, относящаяся к классу объектов;
- информация, относящаяся к среде;
- отношение информации к некоторому моменту времени:
- информация, относящаяся к прошлому;
- информация, относящаяся к настоящему;
- информация, относящаяся к будущему;
- отношение информации к классу структурной организации:
- информация неструктурированная;
- информация структурированная;
- информация упорядоченная;
- информация формализованная.
Теперь, после того как мы определились с тем, что же, собственно, нам предстоит структурировать, можно перейти к рассмотрению методов структуризации.
Можно ли сказать, что структуризация информации/данных — это нечто новое или незнакомое нам? — Конечно, нет. Собственно, все те действия, которые мы проделывали в начале этого подраздела, представляли собой одну из множества ипостасей процесса структуризации информации. В нашем случае мы занимались структурированием знаний — мы решали задачу изменения уровня организации знаний, пытаясь построить компактную систему знаний, которая могла бы выступать в качестве основы для дальнейшего развития теории (американцам очень нравится слово «скелет/skeleton», которым они пользуются в таких случаях).
Следует признать, что у американцев язык науки гораздо более метафоричен, нежели чем у нас, а ведь метафора, как мы указывали, — это ступень к новому знанию. Если мы знаем, с чем можно сравнить нечто, то вполне вероятно, что на это нечто могут быть перенесена некоторая часть наших знаний об объекте, с которым мы сравниваем это нечто. Наш «великий и могучий русский язык» гораздо более академичен, а процесс словообразования достаточно сложен и не всегда приводит к желаемому результату (закреплению нового, более «экономного» слова). Это довольно грустно, поскольку одним из первых признаков научного и культурного застоя является прекращение словотворчества и преобладание процесса приращения словаря за счет иноязычных заимствований. Надо сказать, что даже предмет национальной «гордости» россиян — русский мат — по запасу ругательных слов, оказывается, уступает большинству языков мира. Зато мы чаще пользуемся этими словами — запальчиво возразит «патриот»... что ж, возможно, но это тоже аргумент не в нашу пользу.
Итак, зачем мы так старательно расклассифицировали цели структурирования информации? Да затем, чтобы создать тот самый скелет, который нам предстоит в дальнейшем оснастить «сухожилиями», «мышцами» и обтянуть «кожей» — то есть дополнить более конкретными знаниями. Что ж, скелет мы уже смастерили — пора приступать к следующему этапу.
В основе большинства процедур структурирования лежит метод классификации. Классификация — это иерархически организованная система информационных элементов, обозначающих объекты/процессы реального мира и упорядоченных по признаку сходства/различия классификационных признаков, отражающих избранные свойства объектов. Как правило, процедура классификации (классифицирование) осуществляется для удобства исследования некоторой предметной области (фрагмента реального мира). Принято различать следующие виды классификации:
- искусственную, осуществляемую по внешним признакам, не выражающим сущности объектов/процессов, и служащую для упорядочения некоторого их множества;
- натуральную (естественную), осуществляемую по существенным признакам, характеризующим внутреннюю (сущностную) общность объектов/процессов.
Натуральная классификация является инструментом и результатом научного исследования, поскольку выражает результаты изучения закономерностей классифицируемых объектов/процессов. В то время как искусственная классификация обладает исключительно прикладной ценностью в рамках решения конкретной задачи. Например, спелое/неспелое яблоко — натуральная классификация, красное/зеленое яблоко — искусственная.
От качества выполнения процедуры классификации на ранних этапах исследований сложных систем (да и не только сложных) зависит результативность и качество всей работы. Поэтому при осуществлении процедуры классификации необходимо придерживаться следующих принципов:
- при выполнении каждой операции разделения на классы (акт деления) допускается применение только одного классификационного основания;
- совокупный объем полученных в результате разделения на классы понятий должен равняться объему делимого понятия;
- понятия, полученные в результате деления должны взаимно исключать друг друга;
- деление должно быть последовательным.
Классификации делятся на следующие виды:
- простые (одноуровневые), например — дихотомия, когда одно понятие верхнего уровня (А) делится на два таких (В и С), что для них выполняются условия А = В + С и В = не С (С = не В);
- сложные (многомерные) обычно, представляемые в виде таблиц сложной организации, где строкам и столбцам соответствуют различные классификационные признаки, например — периодическая таблица химических элементов Д.И. Менделеева;
- иерархическая (древовидная), едва ли нуждающаяся в примерах и пояснениях.
Метод классификации в том или ином виде используется при решении самых разнообразных задач, связанных со структурированием информации. Неорганизованные информационные элементы подвергаются процедурам группирования, связывания, обобщения, в результате чего структура или проявляется (при натуральной классификации), или образуется (при искусственной классификации). В книге В.Ф. Турчина «Феномен науки: Кибернетический подход к эволюции»[71] момент смены уровня организации системы именуется метасистемным переходом (возникновения системы более высокого уровня иерархии), который и рассматривается как эволюционный процесс. Соответственно, процессы синтеза новой классификации и структурирования информации можно рассматривать, как процесс эволюции знаний. Это не означает, что в результате выполнения процедур классификации или структурирования появляется новое знание, но означает, что в результате выполнения этих процедур создается новая система управления знаниями, существенно упрощающая различные манипуляции с ними, в том числе — и поиск ранее не выявленных закономерностей и законов.
Заметим, что процедура классификации не имеет собственной ценности и приобретает ее только, если она способствует достижению некоторого комплекса целей. Созданная в результате выполнения классификационной процедуры система управления знаниями должна быть полезной — что означает, что выбор классификационных критериев не может быть произвольным, а должен осуществляться с учетом решаемой задачи. Они должны отвечать целям деятельности. При этом следует различать два вида/аспекта деятельности:
- деятельность, направленную на достижение конечной (генеральной или глобальной) цели;
- деятельность, направленную на решение задач обеспечения этой деятельности.
К последней категории может быть отнесена деятельность, направленная на решение задач построения адекватной модели предметной области, ее тезауруса, создания инструментальных средств, используемых для достижения конечной цели.
При структурировании информации должна учитываться специфика потребителя полученного информационного продукта. Иными словами, полученный информационный продукт должен отвечать требованиям к уровню детализации информации, способу ее представления и составу тезауруса, обеспечивающим оптимальный режим восприятия информационного продукта.
Ранее, при рассмотрении видов моделей и методов моделирования мы установили, что уровень формализации представления знаний может изменяться в пределах от неструктурированного текста, представленного на естественном языке (ЕЯ) до структурированного текста на некотором искусственном (формальном) языке (ИЯ). Искусственные языки могут быть построены в базисе различных формальных систем (формальной логики, теоретико-множественного, алгебраического формального аппарата и иных).
В зависимости от исходного уровня структурной организации обрабатываемых данных, могут быть выделены следующие классы задач (классы задач по уровню структурной организации информации на входе/выходе):
1. Задачи преобразования неструктурированного ЕЯ-текста в ЕЯ-текст с разбиением на рубрики;
2. Задачи преобразования ЕЯ-текста с разбиением на рубрики в структурированный ЕЯ текст с элементами логического формализма;
3. Задачи преобразования структурированного ЕЯ текста с элементами логического формализма в символьную модель, использующую формализм теории графов с ЕЯ-маркировкой вершин (узлов) и связей (дуг);
4. Задачи преобразования символьной модели, использующей формализм теории графов с ЕЯ-маркировкой вершин (узлов) и связей (дуг), в символьную модель, использующую формализм теории графов с ИЯ-маркировкой вершин (узлов) и связей (дуг);
5. Задачи преобразования символьной модели, использующей формализм теории графов с ИЯ-маркировкой вершин (узлов) и связей (дуг), в строгую символьную ИЯ-модель.
В принципе, уже после решения задачи второго типа, может осуществляться переход от ЕЯ-представлений к некоторой промежуточной системе обозначений (имен), как это делается при разработке программ. Однако такой переход имеет смысл только при условии, что уже произведена декомпозиция на элементарные термины, выражающие свойства и функции объектов, с тем, чтобы в дальнейшем для них не потребовалось осуществлять процедуру восстановления ЕЯ-представления. Если это условие выполняется, то становится возможен даже автоматизированный переход от промежуточной системы имен к ИЯ-представлению (при условии существования тезауруса соответствующего уровня). В общем же случае, операция детальной декомпозиции осуществляется лишь при решении задачи четвертого типа. Впрочем, жесткий стандарт здесь установить трудно, да и не может он быть жестким, поскольку специфику алгоритма структуризации определяют цели деятельности.
Более того, в случае, когда достигнутая степень формализации не удовлетворяет требованиям, предъявляемым спецификой деятельности, полученное формальное описание может быть повторно подвергнута процедурам, которые ранее осуществлялись в отношении представления иного типа.
Заметим, что структурированию может подвергаться и информация, представленная в нетекстовом виде, однако и здесь могут быть выделены задачи, по своему содержанию равносильные перечисленным.
Например, рассматривая в качестве исходного массива данных массив графических изображений различных фрагментов некоторого объекта/процесса, относящихся к разным моментам времени и полученных с разных ракурсов, можно решить задачу структурирования, воспользовавшись теми же этапами/задачами. Для чего можно воспользоваться одной из двух стратегий:
- осуществить предварительную трансляцию в текстовую форму (составление подробных описаний изображений на ЕЯ с указанием пространственных и временных отношений между описываемыми объектами), после чего воспользоваться ранее описанными процедурами;
- интерпретировать изображение, как разновидность текста, с применением альтернативной знаковой системы, позволяющей осуществить процесс структуризации в другой знаковой системе.
В качестве теоретического основания для применения такого подхода выступает семиотика, интерпретирующая любой способ представления информации как разновидность текста, представленного средствами некоторой знаковой системы. Для графического представления информации разработан ряд методов, позволяющих перейти от обычного цветного тонального изображения к контурным и иным представлениям, упрощающим процедуры распознавания и трансляции к иным знаковым системам. Однако, поскольку графические модели, получаемые методом последовательной фиксации состояния объектов реального мира, способны отражать лишь пространственно-временные и атрибутивные характеристики наблюдаемых объектов/процессов, постольку извлечение из них системы причинно-следственных отношений становится возможным только с привлечением внешней (чаще всего — экспертной) модели интерпретации.
Наиболее распространенным путем решения задач структуризации информации является привлечение эксперта-аналитика. В этом случае на него ложится вся нагрузка по преобразованию исходного текста: от поиска связных фрагментов до выявления системы логических, пространственных, временных отношений и дальнейших процедур синтеза формальной модели. Хотя в последнее время, благодаря развитию семиотики, лингвистики, теории искусственных языков, теории систем искусственного интеллекта, нейрокибернетики и ряда других научных дисциплин, в эту отрасль стали все чаще вторгаться технологии если не автоматического, то автоматизированного анализа и структурирования информации. Среди такого рода технологий можно выделить системы автоматизированного реферирования текста, предназначенные для извлечения фрагментов текста, наиболее ярко выражающих сущность текста или его основные положения. Как правило[72], эта операция осуществляется за счет применения статистических закономерностей, открытых Дж. Зипфом (George Kingsley Zipf) и получивших название принципа экономии усилий в лингвистике или закона Зипфа (или, более общей формулировке, закона Зипфа-Мандельброта).
В зависимости от реализации статистические критерии могут применяться к тексту на раннем этапе (до грамматико-логической обработки текста), а могут и на завершающей стадии (после предварительной обработки, согласования словоформ и т. п.). Однако, в настоящее время без поддержки интерактивного режима (диалога с экспертом) качество реферирования достаточно низко и не всегда удовлетворяет потребителя. Вне зависимости от спектра технологий, используемых при анализе словоформ (формальные ли грамматики, нейросетевые ли технологии), результаты семантической обработки пока далеки от тех, которые в состоянии обеспечить эксперт, что отчасти объясняется тем, что любая из созданных на сегодня баз знаний, в известном смысле, наивнее ребенка. Причиной такой «наивности» является то, что механизмы обучения подобных систем и способы организации знаний в них несовершенны, а количество каналов приобретения знаний слишком мало. Существуют прототипы самообучающихся интеллектуальных систем, но до уровня интеллекта разумных существ эти системы пока не могут дорасти.
Однако оставим подробное рассмотрение этих вопросов специалистам в области теории систем искусственного интеллекта. Заметим лишь, что работы в области теории систем искусственного интеллекта действительно заслуживают того, чтобы с ними ознакомились люди, занятые в «сфере информационного производства». Чрезвычайно интересны эти работы хотя бы потому, что представляют собой попытки осмыслить то, каким образом человек осуществляет свою мыслительную деятельность, алгоритмизировать и упорядочить ее, что крайне важно и для эксперта-аналитика. Кроме того, нелишне хотя бы в общих чертах представлять, каким образом работает твой инструмент, каковы его параметры и особенности функционирования. Так, например, ряд направлений современной психологии выросли не из классической психологии, а из гибрида теории искусственного интеллекта, классической психологии и философской теории познания. И столь необычное происхождение этих психологических теорий, отнюдь, не мешает специалистам в этой области успешно решать задачи именно психологического плана.
Методы первичного структурирования информации широко используются при синтезе баз данных и подробно рассматриваются в разнообразных изданиях по информатике, в частности — тех, которые посвящены вопросам проектирования и разработки баз данных различного назначения[73]. В наиболее популярном и, в то же время, профессиональном изложении эти проблемы рассматриваются в книге американского автора Дэвида Васкевича[74], написанной именно для тех людей, которые руководят деятельностью или формулируют задачи перед специалистами в области разработки программного обеспечения, но не обязаны вникать в технологические подробности процесса разработки. В частности, в книге Васкевича описываются различные способы организации и структурирования данных, виды отношений между ними, приведены наглядные примеры, что позволяет руководителю по ее прочтении квалифицированно руководить коллективом разработчиков и грамотно организовать технологический процесс. Но подчеркнем еще раз: для нас в этой книге содержится информация, связанная именно с проблемой структурирования информации.
Нет ничего удивительного в том, что мы обращаемся к базам данных для того, чтобы проиллюстрировать процессы структурирования информации. Базы данных — это тоже модели, описывающие те или иные аспекты существования системы/процесса, поэтому при их создании и проектировании так же применяются методы структурирования информации, отличающиеся от прочих методов лишь тем, что структурирование осуществляется уже с учетом ограничений, налагаемых технологической платформой. В общем случае при структурировании информации такие ограничения не всегда принимаются в расчет.
Так или иначе, но полученный массив описаний предметной области или проблемы на начальном этапе структурирования информации должен быть приведен к виду, упрощающему его дальнейшую обработку. Если сведения получены в результате проведения информационно-поисковых процедур (например, в различного рода средствах массовой информации — от печатной прессы до сети Интернет), полученный исходный массив, как правило, не структурирован и разноформатен. В этом случае перед аналитиком встает задача первичного структурирования массива сообщений в ее наиболее сложном варианте (здесь требуется выделение из сообщений информации, релевантной задачам исследования, ее компоновка и т. п.).
Однако если речь идет о сборе информации методом опроса экспертов, первичное структурирование информации может быть проведено уже на предшествующем этапе за счет разработки системы опросников, анкет и иных средств упорядочивания информации. Стратегия опроса экспертов (в том числе — проведения мозговых атак или деловых игр) может быть организована таким образом, чтобы ввести экспертов в ситуацию, управляющую процессом высказывания суждений в той последовательности, при которой информация будет изначально структурирована некоторым образом, отвечающим потребностям последующей ее формализации. В некоторых случаях экспертам могут быть предъявлены на оценку заранее подготовленные варианты решения задач, массивы исходных данных и прочие материалы, нуждающиеся в оценивании и ранжировании с привлечением их опыта.
В одном случае (при анкетировании и управлении процедурой опроса или стратегией игры) информация извлекается в соответствии с заранее установленной рубрикацией. В другом случае (при оценивании вариантов) структура организации информации не изменяется и остается в рамках заранее установленной формы любого уровня структурной организации. В частности, варианты, предложенные для оценивания, могут быть сформулированы на основе исследований, предварительно проведенных на имитационных моделях, или полученных в результате собеседования с другими группами или с той же группой экспертов.
Для выделения логической структуры описаний, предварительно разделенных на рубрики (относящиеся к одним и тем же группам объектов, процессам, временным и пространственным областям) применяются различные методы, обеспечивающие возможности:
- выделения «дискретных» состояний (для текстовых описаний — это связано с определением множества терминов, используемых для описания некоторого, существенного для решаемой задачи, состояния);
- упорядочивания их во времени (построение сценариев типа «раньше — позже»);
- причинно-следственного связывания (построение сценариев типа «причина — следствие»);
- пространственного связывания и иные.
На следующем этапе в зависимости от целей деятельности подобные модели могут быть подвергнуты процедуре декомпозиции (детализации) или агрегации (композиции или свертке), в результате чего формируется описание необходимого уровня абстракции/детализации.
Дальнейшие этапы выполняются за счет введения специальных систем именования элементов модели, приписывания им поименованных атрибутов, описания функциональных зависимостей и так далее. Например, в качестве функциональных зависимостей для ряда задач могут быть рассмотрены зависимости ресурс-время-результат и иные, которые на начальных этапах могут быть использованы для маркирования дуг графа, а впоследствии — воплощены в программные коды имитационных моделей. Особый класс составляют модели ситуаций, используемые для распознавания объектов, их состояний, тенденций и процессов. В таких моделях может абсолютизироваться либо статический, либо динамический аспект существования/функционирования системы. Однако подробно рассматривать эти процедуры мы здесь не будем, тем более, что некоторые аспекты этой деятельности нами уже были описаны при рассмотрении соответствующих классов моделей.