Интеллектуальный анализ данных — одно из новых направлений искусственного интеллекта. Этот термин является кратким и весьма неточным переводом с английского языка терминов Data Mining и Knowledge Discovery in Databases (DM&KDD). Более точный перевод — «добыча данных» и «выявление знаний в базах данных».
Data Mining — это процесс обнаружения в сырых данных (row data) раннее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний (закономерностей), необходимых для принятия решений в различных сферах человеческой деятельности (Г.Пятецкий-Шапиро).
Появление технологий DM&KDD обусловлено накоплением огромных объемов информации в компьютерных базах данных, которые стало невыгодно хранить и которыми стало трудно пользоваться традиционными способами. Последнее обстоятельство связано со стремительным развитием вычислительной техники и программных средств для представления и обработки данных. Большие объемы накопленных данных постоянно приходится модифицировать из-за быстрой смены аппаратного и программного обеспечения БД, при этом неизбежны потери и искажение информации. Одним из средств для преодоления подобных трудностей является создание информационных хранилищ данных, доступ к которым не будет сильно зависеть от изменения данных во времени и от используемого программного обеспечения. Другой подход ориентирован на сжатие больших объемов данных путем нахождения некоторых общих закономерностей (знаний) в накопленной информации. Оба направления актуальны с практической точки зрения. Второй подход более интересен для специалистов в области ИИ, так как связан с решением проблемы приобретения новых знаний. Следует заметить, что наиболее плодотворным является сочетание обоих направлений.
Наличие хранилища данных — необходимое условие для успешного проведения всего процесса KDD. Хранилищем данных называют предметно-ориентированное, интегрированное, привязанное ко времени, неизменяемое собрание данных, используемых для поддержки процесса принятия управленческих решений. Предметная ориентация означает, что данные объединены в категории и хранятся в соответствии с теми областями, которые они описывают, а не в соответствии с приложениями, которые их используют. Такой принцип хранения гарантирует, что отчеты, сгенерированные различными аналитиками, будут опираться на одну и ту же совокупность данных. Привязанность ко времени означает, что хранилище можно рассматривать как собрание исторических данных, т.е. конкретные значения данных однозначно связаны с определенными моментами времени. Атрибут времени всегда явно присутствует в структурах хранилищ данных. Данные, занесенные в хранилище, уже не изменяются в отличие от оперативных систем, где присутствуют только последние, постоянно изменяемые версии данных. Для хранилищ данных характерны операции добавления, а не модификации данных. Современные средства администрирования хранилищ данных обеспечивают эффективное взаимодействие с программным инструментарием DM и KDD. В качестве примера можно привести разработки компании SAS Institute: SAS Warehouse Administrator и SAS Enterprise Miner.
Рассмотрим простой пример, иллюстрирующий технологии DM&KDD. В базах данных можно хранить большую таблицу значений переменных Х и Y, но если удалось установить зависимость между этими переменными, то без существенных потерь информации можно значительно сократить объем занимаемой памяти, поместив туда найденную зависимость, например Y=sin(kX). В общем случае зависимости, выявляемые в базах данных, могут быть представлены правилами, гипотезами, моделями нейронных сетей и т.п. Интеллектуальные средства извлечения информации позволяют почерпнуть из БД более глубокие сведения, чем традиционные системы оперативной обработки транзакций (OLTP — On-Line Transaction Processing) и оперативной аналитической обработки (OLAP). Выведенные из данных закономерности и правила можно применять для описания существующих отношений и закономерностей, а также для принятия решений и прогнозирования их последствий.
Извлечение знаний из БД является одной из разновидностей машинного обучения, специфика которой заключается в том, что реальные БД, как правило, проектируются без учета потребностей извлечения знаний и содержат ошибки.
В технологиях DM&KDD используются различные математические методы и алгоритмы: классификация, кластеризация, регрессия, прогнозирование временных рядов, ассоциация, последовательность.
Классификация — инструмент обобщения. Она позволяет перейти от рассмотрения единичных объектов к обобщенным понятиям, которые характеризуют некоторые совокупности объектов и являются достаточными для распознавания объектов, принадлежащих этим совокупностям (классам). Суть процесса формирования понятий заключается в нахождении закономерностей, свойственных классам. Для описания объектов используются множества различных признаков (атрибутов), Проблема формирования понятий по признаковым описаниям была сформулирована М. М. Бонгартом. Ее решение базируется на применении двух основных процедур: обучения и проверки. В процедурах обучения строится классифицирующее правило на основе обработки обучающего множества объектов. Процедура проверки (экзамена) состоит в использовании полученного классифицирующего правила для распознавания объектов из новой (экзаменационной) выборки. Если результаты проверки признаны удовлетворительными, то процесс обучения заканчивается, в противном случае классифицирующее правило уточняется в процессе повторного обучения.
Кластеризация — это распределение информации (записей) из БД по группам (кластерам) или сегментам с одновременным определением этих групп. В отличие от классификации здесь для проведения анализа не требуется предварительного задания классов.
Регрессионный анализ используется в том случае, если отношения между атрибутами объектов в БД выражены количественными оценками. Построенные уравнения регрессии позволяют вычислять значения зависимых атрибутов по заданным значениям независимых признаков.
Прогнозирование временных рядов является инструментом для определения тенденций изменения атрибутов рассматриваемых объектов с течением времени. Анализ поведения временных рядов позволяет прогнозировать значения исследуемых характеристик.
Ассоциация позволяет выделить устойчивые группы объектов, между которыми существуют неявно заданные связи. Частота появления отдельного предмета или группы предметов, выраженная в процентах, называется распространенностью. Низкий уровень распространенности (менее одной тысячной процента) говорит о том, что такая ассоциация не существенна. Ассоциации записываются в виде правил: , где А — посылка, B — следствие. Для определения важности каждого полученного ассоциативного правила необходимо вычислить величину, которую называют доверительность А к В (или взаимосвязь А и В). Доверительность (А/В) показывает, как часто при появлении А появляется В, и рассчитывается как (А/В)=, где — распространенность совместного появления А и В; - распространенность А. Например, если (А/В)=20 %, то это значит, что при покупке товара А в каждом пятом случае приобретается и товар В. Необходимо отметить, что если , то (А/В)(В/А). В самом деле, покупка компьютера влечет за собой покупку дисков, но покупка дисков не ведет к покупке компьютера. Важной характеристикой ассоциации является мощность, которая рассчитывается по формуле М(А/В)=(А/В)/(В). Чем больше мощность, тем сильнее влияние, которое наличие А оказывает на появление В.
Типичным примером применения ассоциации является анализ структуры покупок. Например, при проведении исследования в супермаркете можно установить, что 65 % купивших картофельные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобретают в 85 % случаев. Подобные результаты представляют ценность при формировании маркетинговых стратегий.
Последовательность — это метод выявления ассоциаций во времени. В данном случае определяются правила, которые описывают последовательное появление определенных групп событий. Такие правила необходимы для построения сценариев. Кроме того, их можно использовать, например, для формирования типичного набора предшествующих продаж, которые могут повлечь за собой последующие продажи конкретного товара.
К интеллектуальным средствам DM&KDD относятся нейронные сети, деревья решений, индуктивные выводы, методы рассуждения по аналогии, нечеткие логические выводы, генетические алгоритмы, алгоритмы определения ассоциаций и последовательностей, анализ с избирательным действием, логическая регрессия, эволюционное программирование, визуализация данных. Иногда перечисленные методы применяются в различных комбинациях.
Нейронные сети относятся к классу нелинейных адаптивных систем с архитектурой, условно имитирующей нервную ткань, состоящую из нейронов. Математическая модель нейрона представляет собой некий универсальный нелинейный элемент, допускающий возможность изменения и настройки его характеристик. Подробнее вопросы построения моделей нейронных сетей рассмотрены в главе 5. Нейронные сети широко применяются для решения задач классификации. Построенную сеть сначала нужно «обучить» на примерах, для которых известны значения исходных данных и результаты. Процесс «обучения» сети заключается в подборе весов межнейронных связей и модификации внутренних параметров активационной функции нейронов. «Обученная» сеть способна классифицировать новые объекты (или решать другие примеры), однако правила классификации остаются не известными пользователю.
Деревья решений — метод структурирования задачи в виде древовидного графа, вершины которого соответствуют продукционным правилам, позволяющим классифицировать данные или осуществлять анализ последствий решений. Этот метод дает наглядное представление о системе классифицирующих правил, если их не очень много. Простые задачи решаются с помощью этого метода гораздо быстрее, чем с использованием нейронных сетей. Для сложных проблем и для некоторых типов данных деревья решений могут оказаться неприемлемыми. Кроме того, для этого метода характерна проблема значимости. Одним из последствий иерархической кластеризации данных является то, что для многих частных случаев отсутствует достаточное число обучающих примеров, в связи с чем классификацию нельзя считать надежной. Методы деревьев решений реализованы во многих программных средствах, а именно: С5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США).
Индуктивные выводы позволяют получить обобщения фактов, хранящихся в БД. В процессе индуктивного обучения может участвовать специалист, поставляющий гипотезы. Такой способ называют обучением с учителем. Поиск правил обобщения может осуществляться без учителя путем автоматической генерации гипотез. В современных программных средствах, как правило, сочетаются оба способа, а для проверки гипотез используются статистические методы. Примером системы с применением индуктивных выводов является XpertRule Miner, разработанная фирмой Attar Software Ltd. (Великобритания).
Рассуждения на основе аналогичных случаев (Case-based reasoning — CBR) основаны на поиске в БД ситуаций, описания которых сходны по ряду признаков с заданной ситуацией. Принцип аналогии позволяет предполагать, что результаты похожих ситуаций также будут близки между собой. Недостаток этого подхода заключается в том, что здесь не создается каких-либо моделей или правил, обобщающих предыдущий опыт. Кроме того, надежность выводимых результатов зависит от полноты описания ситуаций, как и в процессах индуктивного вывода. Примерами систем, использующих CBR, являются: KATE Tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).
Нечеткая логика применяется для обработки данных с размытыми значениями истинности, которые могут быть представлены разнообразными лингвистическими переменными. Нечеткое представление знаний широко применяется в системах с логическими выводами (дедуктивными, индуктивными, абдуктивными) для решения задач классификации и прогнозирования, например в системе XpertRule Miner (Attar Software Ltd., Великобритания), а также в AIS и NeuFuz и др. .
Генетические алгоритмы входят в инструментарий DM&KDD как мощное средство решения комбинаторных и оптимизационных задач. Они часто применяются в сочетании с нейронными сетями (см. главу 6). В задачах извлечения знаний применение генетических алгоритмов сопряжено со сложностью оценки статистической значимости полученных решений и с трудностями построения критериев отбора удачных решений. Представителем пакетов из этой категории является GeneHunter фирмы Ward Systems Group. Генетические алгоритмы используются также в пакете XpertRule Miner и др.
Логическая (логистическая) регрессия используется для предсказания вероятности появления того или иного значения дискретной целевой переменной. Дискретная зависимая (целевая) переменная не может быть смоделирована методами обычной многофакторной линейной регрессии. Тем не менее вероятность результата может быть представлена как функция входных переменных, что позволяет получить количественные оценки влияния этих параметров на зависимую переменную. Полученные вероятности могут использоваться и для оценки шансов. Логическая регрессия — это, с одной стороны, инструмент классификации, который используется для предсказания значений категориальных переменных, с другой стороны — регрессионный инструмент, позволяющий оценить степень влияния входных факторов на результат.
Эволюционное программирование — самая новая и наиболее перспективная ветвь DM&KDD. Суть метода заключается в том, что гипотезы о форме зависимости целевой переменной от других переменных формулируются компьютерной системой в виде программ на определенном внутреннем языке программирования. Если это универсальный язык, то теоретически он способен выразить зависимости произвольной формы. Процесс построения таких программ организован как эволюция в мире программ. Когда система находит программу, достаточно точно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных дочерних программ те, которые являются наиболее точными. Затем найденные зависимости переводятся с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и т.п.). При этом активно используются средства визуализации. Методы эволюционного программирования реализованы в системе PolyAnalyst (Unica, США).
В современных средствах DM&KDD часто используются комбинированные методы. Например, продукт компании SAS Enterprise Miner 3.0 содержит модуль автоматического построения результирующей гибридной модели, определенной на множестве моделей, которые предварительно были созданы различными методами: деревьев решений, нейронных сетей, обобщенной многофакторной регрессии. Программная система Darwin, разработанная компанией Thinking Machines, позволяет не только строить модели на основе нейронных сетей или деревьев решений, но также использовать визуализацию и системы рассуждений по аналогии. Кроме того, этот продукт включает своеобразный генетический алгоритм для оптимизации моделей. Активно работает в области интеллектуального анализа данных компания IBM. Многие из полученных в ее лабораториях результатов нашли применение в выпускаемых инструментальных пакетах, которые можно отнести к четырем из пяти стандартных типов приложений «глубокой переработки» информации: классификации, кластеризации, выявлению последовательностей и ассоциаций.
В настоящее время на рынке представлены разнообразные программные средства, реализующие технологии DM&KDD. Следует отметить, что большинство из них имеет очень высокую стоимость. Рассмотрим некоторые известные пакеты. Среди инструментальных средств создания интеллектуальных приложений для бизнеса определенный интерес вызывает семейство программных продуктов Business Intelligence (BI) компании Cognos, которое включает четыре взаимосвязанные и дополняющие друг друга системы: Impromptu, PowerPlay, Scenario и 4Thought. Отличительной особенностью рассматриваемых средств является сочетание эффективности реализуемых в них методов с дружественным интерфейсом, что делает их легкодоступными для освоения непрограммирующими пользователями [48].
Система Impromptu обеспечивает доступ к базам данных, позволяя непрофессиональному пользователю формировать разнообразные запросы и отчеты. Система поддерживает работу с распространенными типами СУБД: Oracle, MS SQL Server, Sybase SQL Server, Sybase NetGateway, OmniSQL Gateway, MDI DB2 Gateway, Informix, CA-Ingres, Gupta SQLBase, а также обеспечивает доступ через ODBC. Отчеты Impromptu могут использоваться в качестве источников данных для остальных систем семейства BI, выступая при этом в роли информационных витрин.
Система PowerPlay является средством для проведения OLAP-анализа. Технология OLAP позволяет существенно повысить эффективность обработки информации в реляционных БД за счет многомерного представления данных в виде гиперкубов; привязки информации ко времени, дающей возможность анализа динамики данных; реализации сложной вычислительной обработки больших массивов данных [54].
PowerPlay обеспечивает многомерный просмотр данных с нисходящим и уровневым анализом, в процессе которого существует возможность выявления исключений и особых случаев, ранжирования и разнообразной обработки данных. Гиперкубы имеют неограниченную размерность и могут создаваться как на серверах, так и на клиентских компьютерах. Новые версии PowerPlay обеспечивают возможность работы с гиперкубами через Web-браузеры.
Система Scenario предназначена для выявления взаимосвязей в данных статистическими методами, в частности по критерию Хи-квадрат (метод CHAID) для нахождения однородных сегментов данных с «аналогичным» поведением относительно целевого показателя. Кроме того, в системе используется метод деревьев решений для построения классификаций. Результаты обработки данных наглядно отображаются средствами визуализации.
В системе реализованы следующие виды анализа данных:
- ранжирование — упорядочение факторов по степени их влияния на целевой показатель. С каждым фактором связывается весовой коэффициент, дающий количественную оценку степени влияния;
- сегментация — разделение области значений фактора на сегменты для проведения дальнейшего нисходящего анализа;
- профилирование лучших образцов - выявление основных характеристик наиболее успешных результатов (регионов, филиалов, клиентов и т.д.);
- выявление ассоциаций — поиск ассоциированных групп значений факторов;
- ыявление исключений — поиск элементов, выпадающих изобщей картины. Появление подобных элементов может быть вызвано как ошибками в данных, которые следует исправить, так инеобычными ситуациями в работе компании, требующими определенных действий со стороны руководства.
В системе Scenario реализованы три стратегии анализа: 1) режим исследования, предназначенный для предварительного анализа задачи; 2) режим тестирования, ориентированный на высокую точность и надежность результатов; 3) режим верификации, позволяющий проводить оценку достоверности и значимости полученных знаний.
Система 4Thought осуществляет извлечение знаний из БД с применением нейронных сетей, предоставляя следующие возможности:
- моделирование сложных нелинейных зависимостей между факторами и целевыми показателями;
- выявление тенденций в данных (при наличии временных рядов);
- работа с неполными и зашумленными данными при относительно небольшом объеме исходной информации.
Анализируемые данные представляются в виде электронной таблицы, столбцам которой соответствуют атрибуты из таблиц базы данных, а строкам — записи. При подготовке данных для анализа пользователь может редактировать таблицы, а также включать в них вычисляемые столбцы. Как и в пакете Scenario, для постановки задачи моделирования должны быть указаны целевой (моделируемый) показатель и переменные-факторы. Данные в таблице рассматриваются системой как примеры для обучения нейронной сети. Совокупность всех данных разбивается на два подмножества — модельное и тестовое. В каждом цикле обучения сеть сначала обучается на модельном подмножестве, а затем проверяется корректность ее работы на тестовых данных. Обучение сети проводится до тех пор, пока точность результатов, полученных на модельном и на тестовом подмножествах, растет. При работе с небольшими объемами данных, когда выбор тестового подмножества существенно влияет на результаты обучения, пользователь может проводить обучение последовательными циклами, выбирая для каждого цикла новое разбиение на тестовые и модельные данные.
Кроме рассмотренных программных продуктов фирмы Cognos можно привести длинный список программных средств, ориентированных на поддержку DM&KDD, Особенно активно в последние годы развиваются средства с использованием нейронных сетей, примерами которых являются: BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic).
Применение технологий DM&KDD имеет большие перспективы, так как существенно влияет на увеличение доходов предприятия путем выбора правильных стратегий деятельности. Лидерами в применении технологий интеллектуального анализа данных являются телекоммуникационные компании и компании, выпускающие кредитные карточки. Средства DM&KDD активно применяют страховые компании и фондовые биржи. Серьезные успехи связаны с применением этих подходов в медицине, где можно прогнозировать эффективность применения медикаментов, хирургических процедур и медицинских тестов. Прогнозирование в финансовой сфере всегда было одной из самых актуальных задач. В настоящее время компании, действующие на финансовом рынке, на основе DM-технологий определяют рыночные и отраслевые характеристики для предсказания индивидуальных и фондовых предпочтений в ближайшем будущем.
Ключом успеха в применении методов DM&KDD являются качество данных, мощность используемого программного обеспечения и мастерство аналитика, который участвует в процессе построения модели. На эффективность обработки данных положительно влияют следующие параметры программного обеспечения: развитые средства формирования запросов и визуализации результатов, наличие графического инструментария, возможность оперативной аналитической обработки, разнообразие и эффективность алгоритмов построения моделей,
К типовым задачам DM&KDD в области экономики и бизнеса относятся:
- прогнозирование — в частности, при планировании и составлении бюджета фирмы необходимо прогнозировать объемы продаж и другие параметры с учетом многочисленных взаимосвязанных факторов: сезонных, региональных, общеэкономических и т.п.;
- маркетинговый анализ, в результате которого определяется зависимость спроса от таких факторов, как стоимость товара, затраты на продвижение продукции и рекламу и т.д.;
- анализ работы персонала — производительность труда служащих зависит от уровня подготовки, от оплаты труда, опыта работы, взаимоотношений с руководством и т.д. Установив степень влияния этих факторов, можно выработать методику повышения производительности труда, а также предложить оптимальную стратегию подбора кадров в будущем;
- анализ эффективности продажи товаров по почте — выявляется круг потенциальных покупателей, оценивается вероятность возможных покупок и исследуются различные формы рекламной переписки;
- профилирование клиентов — формирование «портрета типичного клиента компании», т.е. определение группы клиентов, сотрудничество с которыми наиболее выгодно. Кроме того, важно выяснить, почему работа с некоторыми из заказчиков стала неэффективной, и выработать стратегию поиска подходящих клиентов в будущем;
- оценка потенциальных клиентов — выявление характерных особенностей заявок, которые закончились реальными продажами. Полученные знания используются в процессах планирования переговоров и сделок;
- анализ работы региональных отделений компании;
- сравнительный анализ конкурирующих фирм.
Перечисленные задачи актуальны практически для всех отраслей бизнеса: банковского дела, страхования, финансовых рынков, производства, торговли и т.д.