StatSoft предлагает уникальные технологии анализа данных, Data Mining. Эти методы реализованы в удобном интерфейсе и позволяют провести исследования даже начинающему пользователю. В данной статье проводится обзор методов Data Mining, в числе которых реализованы методы Нейронных сетей, Обобщенного кластерного анализа, Правил связи, Деревьев классификации и регрессии, Интерактивных деревьев, Растущих деревьев, Обобщенных аддитивных моделей, МАР-сплайнов, Процедур машинного обучения и т.д.
В первой части статьи можно увидеть несколько диалоговых окон русифицированной версии программы STATISTICA Data Miner. Во второй части приводятся впечатляющие результаты работы некоторых методов Data Mining в реальной медицинской задаче.
Обычно работа начинается с загрузки файла данных и выбора метода анализа данных.
Шаг 1. Загрузка файла данных.
Программа STATISTICA встречает Вас диалоговым окном приглашения, в котором можно либо указать одно из типичных действий перед началом работы, либо выбрать один из последних файлов, с которым производилась работа в программе.
Рис. 1. Диалоговое окно Приглашение в STATISTICA
После нажатия OK в вышеприведенном диалоге, мы перейдем в окно открытия файлов:
Рис. 2. Окно открытия файлов STATISTICA
Отметим, что программа STATISTICA "понимает" все распространенные форматы файлов данных, среди которых файлы xls, txt, htm, xml, rtf и многие другие.
Рис. 3. Часть списка совместимых форматов данных
После открытия файла на экране отобразится таблица данных следующего вида:
Рис. 4. Таблица данных STATISTICA
После этого можно выбирать методы анализа данных.
Шаг 2. Выбор метода анализа данных
Перейти к выбору метода анализа можно несколькими способами: либо через пункт главного меню Анализ, либо нажав кнопку в левом нижнем углу рабочей области STATISTICA, либо нажав кнопку, соответствующую конкретному методу, на Панели инструментов.
Рис. 5. Выпадающее меню Анализ
После выбора строки с названием метода анализа появляется соответствующая ему стартовая панель.
Шаг 3. Задание параметров анализа.
Шаг 3.1. Выбор конкретного метода и интерфейса анализа.
В стартовой панели анализа выбирается одна из модификаций метода,
Рис. 6. Стартовая панель Анализа выживаемости
либо модификация метода и интерфейс настройки и проведения анализа (от Мастера анализа - максимальное число подсказок и настроек по умолчанию до Редактора кода - режим программирования).
Рис. 7. Стартовая панель Дисперсионного анализа
Шаг 3.2. Выбор переменных.
Следующий общий шаг анализа - выбор переменных (зависимых/независимых, непрерывных/категориальных).
Рис. 8. Стандартное окно выбора переменных
Шаг 3.3. Настройка параметров анализа.
Начинающий пользователь может задать параметры, приведенные на вкладке Быстрый, а остальные можно оставить по умолчанию.
Рис. 9. Настройка параметров анализа. Вкладка Быстрый
Продвинутые аналитики могут оценить всю гибкость настроек, воспользовавшись настройками на вкладке Дополнительно, и некоторых специальных вкладках.
Рис. 10. Настройка параметров анализа. Вкладка Дополнительно
Наконец, задав переменные и параметры, мы переходим к этапу анализа результатов.
Шаг 4. Получение и анализ результатов.
Типичным для программы STATISTICA является следующее диалоговое окно результатов:
Рис. 11. Диалог результатов Анализа выживаемости
На вкладке Быстрый можно ознакомиться с наиболее общими итогами анализа, таблицами результатов (прогнозов) и показателями качества работы метода.
Далее, если результаты анализа нас не устраивают, возвращаемся к пункту 2 (выбор переменных).
Ниже приведены некоторые диалоговые окна русской версии программы STATISTICA Data Miner (SDM):
Рис. 12. Меню выбора методов Data Mining - Добычи данных
Рис. 13. Интерактивное бурение и описательный анализ данных
Рис. 14. Готовый проект Углубленной классификации
Рис. 15. Нейронные сети - Диалог вывода результатов
Рис. 16. Обобщенные методы кластерного анализа - Диалог результатов
Рис. 17. Диалоговое окно Результаты правил связи
Рис. 18. Граф правил связи
Рис. 19. Деревья классификации и регрессии - Диалоговое окно результатов
Рис. 20. Процесс построения растущих деревьев
Рис. 21. Растущие деревья - Диалог результатов
Рис. 22. Процедуры машинного обучения - байесовские методы - Диалог результатов
Рис. 23. Пользовательский проект для решения задач классификации
Постановка задачи.
На основе данных, полученных к моменту выписки пациента из больницы, необходимо спрогнозировать, будет ли период восстановления протекать с осложнениями или без осложнений.
Были собраны данные по 43 пациентам, для каждого пациента известно до 38 характеристик (таких как рост, вес, пол, диагноз, исход операции). Данные неполные, в таблице много пропущенных ячеек.
Для проведения анализа были использованы следующие методы:
Association Rules - Правила связи;
Neural Networks - Нейронные сети;
C & RT Trees - Деревья классификации и регрессии;
Machine Learning - Процедуры обучения;
General CHAID Models - Общие CHAID модели.
Результаты анализа по методам:
1. Правила связи
Простой и интуитивно понятный метод поиска зависимостей вида "Если - То". Работает с многомерными откликами/дихотомиями. Результаты становятся понятны сразу, на подсознательном уровне. В данной задаче выявлено правило "Если исход = выписан, то осложнений не будет". Причем это правило действует в 91, 4% случаев, что становится ясно из итоговой таблицы результатов Правил связи.
Рис. 24. Таблица результатов поиска правил связи
Рис. 25. Граф найденных правил связи
2. Нейронные сети
Всего за 5-10 минут работы удалось построить и обучить сеть 100%-ной точности. При этом попутно были найдены и выделены всего 4 переменных из 40, которые полностью объясняли зависимую переменную.
Рис. 26. Архитектура многослойного персептрона
Сеть - многослойный персептрон, всего 3 слоя (1 скрытый), 4 элемента на входном слое, 10 на промежуточном, 1 на выходном.
Матрица ошибок для контрольной выборки:
Рис. 27. Матрица ошибок классификации на контрольной выборке
3. Процедуры обучения
Процедуры обучения (Метод опорных векторов и Байесовские оценки) не показали в данной задаче хороших результатов. Процент правильной классификации составил 91%, причем осложнения предсказывались с точностью всего 60%.
Рис. 28. Итоги классификации методом опорных векторов
4. Деревья классификации и регрессии
Метод, показавший 100%-ый результат при минимальном участии пользователя. Это связано с тем, что задача относительно несложная, и число классов зависимой переменной невелико (2 класса).
Рис. 29. Дерево классификации
Как видно, деревья классификации с построением выделили небольшое количество переменных, полностью классифицирующих зависимую.
Рис. 30. Матрица ошибок классификации с помощью деревьев классификации
5. Общие CHAID модели
Этот метод оказался неэффективным для данной задачи. Это связано с тем, что CHAID-модели предназначены в первую очередь для работы с большими объемами данных и большим числом классов выходной переменной.
Рис. 31. Матрица ошибок классификации с помощью CHAID алгоритма
С помощью методов Data Mining, реализованных в STATISTICA, удалось спрогнозировать общий ход процесса послеоперационного восстановления со 100% точностью. Был выделен набор из 4 характеристик, которые определяют наличие/отсутствие осложнений после выписки из стационара.
Решение такого рода задач очень важно для медицинских работников. Технологии StatSoft позволяют успешно решать эти задачи и эффективно применять на практике разнообразные методы data mining.
Боровиков В.П. Искусство анализа данных на компьютере (для профессионалов) - 3-е издание, СПб.: Питер, 2003.
В. Дюк, А. Самойленко. Data Mining: учебный курс. - СПб: Питер, 2001.
Узнайте больше на курсах Академии Анализа Данных StatSoft
Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
|
© StatSoft Russia |
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран. |