Применение семантических технологий для анализа инновационных проектов

Семантические технологии, в основе которых лежит смысловой анализ неструктурированной информации, позволяют обеспечить новое качество принятия решений на всех этапах жизненного цикла инновации. Особенно важным является их использование на этапах отбора инновационных проектов. Объективная и компетентная экспертиза инновационных проектов, находящихся на начальной стадии реализации (стадия стартап, "посевные" проекты), является важнейшей и труднейшей задачей. Ее сложность заключается в большом объеме работ, поскольку проведение такой экспертизы предполагает оценку мирового уровня разработок в определенной сфере; исследование существующих рынков сбыта высокотехнологичных товаров и услуг; анализ конкуренции и т.д., а также в отсутствии надежных количественных критериев оценки. Очевидно, что полностью заменить эксперта в такой высокоинтеллектуальной работе невозможно, но автоматизировать процедуры отбора сведений о новизне проекта, проектах-конкурентах, предприятиях, реализующих эти проекты, и другую информацию, содержащуюся в Интернете и других информационных источниках, возможно.

Технологии извлечения данных сегодня представлены несколькими взаимосвязанными направлениями, к которым относятся Data Mining, Техт Mining, Web Mining и контент-анализ, к которому можно отнести и Opinion Mining, Business Intelligence.

Data Mining развилась как технология анализа хранилищ данных, основанная на методах и инструментах поддержки принятия решений. Основу ее современных методологий составляет концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных. Шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Технологии Data Mining могут быть эффективно использованы для поиска прибыльных клиентов, понимания потребностей пользователей, предсказания продаж, построения эффективных маркетинговых кампаний.

Text Mining, используя методы добычи данных, включает ряд дополнительных возможностей. К ее основным элементам относятся: суммаризация, выделение феноменов, понятий, кластеризация, классификация, ответ на запросы, тематическое индексирование и поиск по ключевым словам. Эти средства дополняются средствами поддержки и создания таксономии и тезаурусов.

Технологии Web Mining используют методы Text Mining и традиционные технологии Data Mining для анализа неоднородной, распределенной и значительной по объему информации Web-ресурсов. Ряд авторов выделяет технологии Web content mining и Web usage mining. Web content mining связан с автоматическим поиском и извлечением качественной информации из интернет-источников, использованием средств автоматической классификации и аннотирования документов. Web usage mining направлен на обнаружение закономерностей в поведении пользователей конкретного Web-узла или группы узлов.

Контент-анализ представляет собой систематическую числовую обработку, оценку и интерпретацию формы и содержания информационного источника. При этом внимание сосредотачивается на элементах контекстуального употребления, оценке информации, анализе способа презентации информации, адекватной оценке значимости информации. Выделяют количественный и качественный контент-анализ.

Количественный контент-анализ ориентирован на исследование частоты появления в тексте указанных выше характеристик содержания. Он легче поддастся реализации в компьютерных программах.

Качественный контент-анализ предполагает формирование мнения но определенному вопросу даже на основе единственного присутствия или отсутствия определенной характеристики содержания.

Контент-анализ использует определенный набор категорий, представляющих собой определенные концептуальные образования, в качестве которых может выступать набор слов, объединенных по определенному основанию. Набор категорий задает концептуальную сетку, в терминах которой анализируется текст, и оказывает существенное влияние на качество результатов анализа. Это придает особую значимость задаче автоматической категоризации слов текста, т.е. выделение обсуждаемых в нем тем.

Сегодня указанные технологии реализуются целым рядом программных продуктов.

Средства глубинного анализа больших массивов данных (Data Mining) с целью выявления скрытых зависимостей, аномалий, корреляций и тенденций с использованием методов распознавания образов, нечеткой логики, математической статистики, обнаружения аномалий представлены следующими продуктами Angoss KnowledgeStudio, Attar XpertRule Miner, DataEngine, DBMiner Insight, Hummingbird Miner, IBM DB2 Intelligent Miner, Information Discovery, KXEN Analytic Framework, Megaputer Intelligence PolyAnalyst, PolyVista, Quadstone System, RuleQuest Cubist.

Средства глубинного анализа (добычи) текста (Text Mining) и гипертестов (Web Mining) представлены такими продуктами, как: ClearForest, NetOwl, Attensity Powerdrill, RCO Extractor, "Медиалогия", "Галактика ZOOM", Intelligent Miner for Text (IBM), Text Analyst, WebAnalyst, Oracle Text (Oracle).

Сегодня большое значение имеют средства для быстрого анализа неструктурированной информации. Их хорошим примером является IBM Content Analytics – платформа для быстрого преобразования необработанной информации в ценный бизнес-актив.

Использование технологий семантического анализа позволяет повысить не только качество решений на ранних стадиях инвестирования в инновационные проекты, но и эффективность маркетинговых исследований, программ лояльности клиентов, управления рисками проекта.