База примеров

Современные технологии Data Mining в медицине

Введение

Часть I. Русский интерфейс STATISTICA Data Miner

Часть II. Прогнозирование осложнений процесса послеоперационного восстановления с помощью STATISTICA Data Miner

Вывод

Список литературы

 

Введение

StatSoft предлагает уникальные технологии анализа данных, Data Mining. Эти методы реализованы в удобном интерфейсе и позволяют провести исследования даже начинающему пользователю. В данной статье проводится обзор методов Data Mining, в числе которых реализованы методы Нейронных сетей, Обобщенного кластерного анализа, Правил связи, Деревьев классификации и регрессии, Интерактивных деревьев, Растущих деревьев, Обобщенных аддитивных моделей, МАР-сплайнов, Процедур машинного обучения и т.д.

В первой части статьи можно увидеть несколько диалоговых окон русифицированной версии программы STATISTICA Data Miner. Во второй части приводятся впечатляющие результаты работы некоторых методов Data Mining в  реальной медицинской задаче.

 


Часть I. Русский интерфейс STATISTICA Data Miner

Обычно работа начинается с загрузки файла данных и выбора метода анализа данных.

Шаг 1. Загрузка файла данных.

Программа STATISTICA встречает Вас диалоговым окном приглашения, в котором можно либо указать одно из типичных действий перед началом работы, либо выбрать один из последних файлов, с которым производилась работа в программе.

Диалоговое окно Приглашение в STATISTICA

Рис. 1. Диалоговое окно Приглашение в STATISTICA

После нажатия OK в вышеприведенном диалоге, мы перейдем в окно открытия файлов:

Окно открытия файлов STATISTICA

Рис. 2. Окно открытия файлов STATISTICA

Отметим, что программа STATISTICA "понимает" все распространенные форматы файлов данных, среди которых файлы xls, txt, htm, xml, rtf и многие другие.

Часть списка совместимых форматов данных

Рис. 3. Часть списка совместимых форматов данных

После открытия файла на экране отобразится таблица данных следующего вида:

Нажмите, чтобы увеличить

Рис. 4. Таблица данных STATISTICA

После этого можно выбирать методы анализа данных.

Шаг 2. Выбор метода анализа данных

Перейти к выбору метода анализа можно несколькими способами: либо через пункт главного меню Анализ, либо нажав кнопку в левом нижнем углу рабочей области STATISTICA, либо нажав кнопку, соответствующую конкретному методу, на Панели инструментов.

Выпадающее меню Анализ

Рис. 5. Выпадающее меню Анализ

 После выбора строки с названием метода анализа появляется соответствующая ему стартовая панель.

Шаг 3. Задание параметров анализа.

Шаг 3.1. Выбор конкретного метода и интерфейса анализа.

В стартовой панели анализа выбирается одна из модификаций метода,

Стартовая панель Анализа выживаемости

Рис. 6. Стартовая панель Анализа выживаемости

либо модификация метода и интерфейс настройки и проведения анализа (от Мастера анализа - максимальное число подсказок и настроек по умолчанию до Редактора кода - режим программирования).

Стартовая панель Дисперсионного анализа 

Рис. 7. Стартовая панель Дисперсионного анализа

Шаг 3.2. Выбор переменных.

Следующий общий шаг анализа - выбор переменных (зависимых/независимых, непрерывных/категориальных).

Стандартное окно выбора переменных

Рис. 8. Стандартное окно выбора переменных

Шаг 3.3. Настройка параметров анализа.

Начинающий пользователь может задать параметры, приведенные на вкладке Быстрый, а остальные можно оставить по умолчанию.

Настройка параметров анализа. Вкладка Быстрый

Рис. 9. Настройка параметров анализа. Вкладка Быстрый

Продвинутые аналитики могут оценить всю гибкость настроек, воспользовавшись настройками на вкладке Дополнительно, и некоторых специальных вкладках.

Настройка параметров анализа. Вкладка Дополнительно

Рис. 10. Настройка параметров анализа. Вкладка Дополнительно

Наконец, задав переменные и параметры, мы переходим к этапу анализа результатов.

Шаг 4. Получение и анализ результатов.

Типичным для программы STATISTICA является следующее диалоговое окно результатов:

Нажмите, чтобы увеличить

Рис. 11. Диалог результатов Анализа выживаемости

На вкладке Быстрый можно ознакомиться с наиболее общими итогами анализа, таблицами результатов (прогнозов) и показателями качества работы метода.

Далее, если результаты анализа нас не устраивают, возвращаемся к пункту 2 (выбор переменных).

Ниже приведены некоторые диалоговые окна русской версии программы STATISTICA Data Miner (SDM):

Меню выбора методов Data Mining - Добычи данных

Рис. 12. Меню выбора методов Data Mining - Добычи данных

Интерактивное бурение и описательный анализ данных

Рис. 13. Интерактивное бурение и описательный анализ данных

Нажмите, чтобы увеличить

Рис. 14. Готовый проект Углубленной классификации

Нажмите, чтобы увеличить

Рис. 15. Нейронные сети - Диалог вывода результатов

Обобщенные методы кластерного анализа - Диалог результатов

Рис. 16. Обобщенные методы кластерного анализа - Диалог результатов

Диалоговое окно Результаты правил связи

Рис. 17. Диалоговое окно Результаты правил связи

Граф правил связи

Рис. 18. Граф правил связи

Деревья классификации и регрессии - Диалоговое окно результатов

Рис. 19. Деревья классификации и регрессии - Диалоговое окно результатов

Процесс построения растущих деревьев

Рис. 20. Процесс построения растущих деревьев

Растущие деревья - Диалог результатов

Рис. 21. Растущие деревья - Диалог результатов

Нажмите, чтобы увеличить

Рис. 22. Процедуры машинного обучения - байесовские методы - Диалог результатов

Нажмите, чтобы увеличить

Рис. 23. Пользовательский проект для решения задач классификации

 


Часть II. Прогнозирование осложнений процесса послеоперационного восстановления с помощью STATISTICA Data Miner

Постановка задачи.

На основе данных, полученных к моменту выписки пациента из больницы, необходимо спрогнозировать, будет ли период восстановления протекать с осложнениями или без осложнений.

Были собраны данные по 43 пациентам, для каждого пациента известно до 38 характеристик (таких как рост, вес, пол, диагноз, исход операции). Данные неполные, в таблице много пропущенных ячеек.

Для проведения анализа были использованы следующие методы:

  • Association Rules - Правила связи;

  • Neural Networks - Нейронные сети;

  • C & RT Trees - Деревья классификации и регрессии;

  • Machine Learning - Процедуры обучения;

  • General CHAID Models - Общие CHAID модели.

Результаты анализа по методам:

1. Правила связи

Простой и интуитивно понятный метод поиска зависимостей вида "Если - То". Работает с многомерными откликами/дихотомиями. Результаты становятся понятны сразу, на подсознательном уровне. В данной задаче выявлено правило "Если исход = выписан, то осложнений не будет". Причем это правило действует в 91, 4% случаев, что становится ясно из итоговой таблицы результатов Правил связи.

Нажмите, чтобы увеличить

Рис. 24. Таблица результатов поиска правил связи

правила связи

Рис. 25. Граф найденных правил связи

2. Нейронные сети

Всего за 5-10 минут работы удалось построить и обучить сеть 100%-ной точности. При этом попутно были найдены и выделены всего 4 переменных из 40, которые полностью объясняли зависимую переменную.

Нажмите, чтобы увеличить

Рис. 26. Архитектура многослойного персептрона

Сеть - многослойный персептрон, всего 3 слоя (1 скрытый), 4 элемента на входном слое, 10 на промежуточном, 1 на выходном.

Матрица ошибок для контрольной выборки:

Матрица ошибок классификации на контрольной выборке

Рис. 27. Матрица ошибок классификации на контрольной выборке

3. Процедуры обучения

Процедуры обучения (Метод опорных векторов и Байесовские оценки) не показали в данной задаче хороших результатов. Процент правильной классификации составил 91%, причем осложнения предсказывались с точностью всего 60%.

Итоги классификации методом опорных векторов

Рис. 28. Итоги классификации методом опорных векторов

4. Деревья классификации и регрессии

Метод, показавший 100%-ый результат при минимальном участии пользователя. Это связано с тем, что задача относительно несложная, и число классов зависимой переменной невелико (2 класса).

Дерево классификации

Рис. 29. Дерево классификации

Как видно, деревья классификации с построением выделили небольшое количество переменных, полностью классифицирующих зависимую.

Матрица ошибок классификации с помощью деревьев классификации

Рис. 30. Матрица ошибок классификации с помощью деревьев классификации

5. Общие CHAID модели

Этот метод оказался неэффективным для данной задачи. Это связано с тем, что CHAID-модели предназначены в первую очередь для работы с большими объемами данных и большим числом классов выходной переменной.

Матрица ошибок классификации с помощью CHAID алгоритма

Рис. 31. Матрица ошибок классификации с помощью CHAID алгоритма

 


Вывод

С помощью методов Data Mining, реализованных в STATISTICA, удалось спрогнозировать общий ход процесса послеоперационного восстановления со 100% точностью. Был выделен набор из 4 характеристик, которые определяют наличие/отсутствие осложнений после выписки из стационара.

Решение такого рода задач очень важно для медицинских работников. Технологии StatSoft позволяют успешно решать эти задачи и эффективно применять на практике разнообразные методы data mining.

 


Список литературы:

  1. Боровиков В.П. Искусство анализа данных на компьютере (для профессионалов) - 3-е издание, СПб.: Питер, 2003.

  2. В. Дюк, А. Самойленко. Data Mining: учебный курс. - СПб: Питер, 2001.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание груповых занятий






info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта