Запрос прайс-листа STATISTICA

Data Mining: современная технология интеллектуального анализа данных

Наиболее полный курс по работе с методами Data Mining. Включает общую концепцию проведения исследований с помощью Data Mining, предварительную обработку данных, классификацию, регрессию, временные ряды, нейронные сети, основы text mining, принципы автоматизации анализа данных.

Курс разделён на 3 модуля. Для более полного понимания методов анализа данных, программа может быть дополнена некоторыми темами, входящими в общие курсы (см. разделы Дополнительные темы в конце каждого модуля).


Цель курса

Научиться проводить самостоятельные исследования методами Data Mining и эффективно пользоваться результатами уже готовых статистических исследований.


Для кого этот курс?

Курс рассчитан на широкий круг аналитиков в различных областях: маркетинге, телекоммуникациях, промышленности, медицине и др. Курс не предполагает предварительных знаний и навыков работы со статистическими данными, однако интенсивность проведения занятий зависит от подготовки и пожеланий слушателей. 


Подробнее о системах
STATISTICA Data Miner
STATISTICA Automated Neural Networks

Программа курса

Модуль 1. Введение в Data Mining, подготовка и предварительный анализ данных

  1. Общая концепция методологии Data Mining и технологии реализации в пакете STATISTICA.
  2. Обзор задач, решаемых методами Data Mining (в сфере, интересной слушателям).
  3. Импорт и экспорт данных, взаимодействие с базами данных.
  4. Предварительная обработка («чистка») данных - обработка пропущенных значений, значений-выбросов, разреженных данных (sparse data), дублированных и некорректных элементов, избыточных значений.
  5. Описание и предварительный анализ данных, модуль Бурение и расслоение данных (Drill down).
  6. Визуализация исходных данных, интерактивный анализ построенных графиков.
  7. Поиск наиболее значимых факторов, модуль Отсеивание признаков (Feature selection).
  8. Поиск закономерностей в данных, модули Правила связи (Link analysis) и Ассоциативные правила (Association rules) .
  9. Анализ разделения значений переменных на категории, метод весомости признаков (Weights of evidence).

Дополнительные темы:

  1. Виды распределений случайных величин и проверка гипотез о распределении данных.
  2. Анализ взаимосвязей (корреляций) между переменными – коэффициенты корреляции Пирсона, Спирмена и Кендалла.
  3. Сравнение групп – критерии Стьюдента, Манна – Уитни и дисперсионный анализ (ANOVA).

 

Модуль 2. Задачи классификации и регрессии

  1. Постановка задач, ключевые понятия и определения.
  2. Модуль Деревья классификации и регрессии: графическое представление результатов, анализ важности предикторов, методика построения моделей, параметры качества построенных моделей, разделение данных на обучающую и контрольную выборки, метод кросс-валидации.
  3. Другие методики построения деревьев: Общие CHAIDмодели, Растущие деревья класификации и регрессии (Boosted trees), модуль Случайные леса (Random forests).
  4. Метод опорных векторов (SVM), понятие оптимальной разделяющей гиперплоскости.
  5. Вероятностный подход к решению задачи классификации, модуль Наивные Байесовские классификаторы.
  6. Построение непараметрической регрессионной зависимости, модуль Обобщённые аддитивные модели (GAM).
  7. Решение задачи регрессии методами сплайновой подгонки,модуль Многомерные адаптивные регрессионные сплайны (MARS).
  8. Сравнение качества построенных моделей при помощи модуля Качество подгонки (Goodness of fit), визуальное сравнение моделей - лифтовые диаграммы (lift charts) и карты выигрышей (gain charts).
  9. Совместное использование построенных моделей: бустинг (boosting) и создание ансамблей (bagging).
  10. Применение построенных моделей на новых данных при помощи модуля Быстрые прогнозирующие модели (Rapid Deployment), «голосование» среди моделей.

Дополнительные темы:

  1. Классические методы регрессионного анализа: множественная и логистическая регрессии, выбор переменных для анализа, критерий Акаике.
  2. Многомерное нормальное распределение, дискриминантный анализ Фишера.
  3. Анализ цензурированных данных, модуль Анализ выживаемости.

 

Модуль 3. Другие задачи и методы анализа данных

  1. Задача кластеризации: постановка задачи, ключевые понятия и определения, метод k-средних и EM-алгоритм.
  2. Задача понижения размерности: постановка задачи, проблема проклятия размерности, метод независимых компонент (independent component analysis).
  3. Модуль Нейронные сети (Neural networks): методология нейросетевого подхода в решении статистических задач, структура многослойных сетей, выбор сложности и архитектуры сети.
  4. Поиск информации в текстовых данных, модуль Добыча текста (Text & Document mining)
  5. Автоматизация анализа данных, генерирование автоматических отчётов: средства Data Miner Workspace и Data Miner Recipes.
  6. Совместное использование рассмотренных методов анализа данных.
  7. Деление методов анализа данных на параметрические, непараметрические и семипараметрические методы, преимущества и недостатки рассмотренных моделей.
  8. Подведение итогов.

Дополнительные темы:

  1. Классические методы кластеризации – Метод иерархической кластеризации (tree clustering) и Двухвходовое объединение (two-way joining).
  2. Классические методы понижения размерности: метод главных компонент (principal component analysis), многомерное шкалирование (Multidimensional scaling) и факторный анализ (Factor Analysis).
  3. Прогнозирование временных рядов – основные понятия (тренд, сезонность, календарные эффекты, разложение ряда), классическая модель АРПСС (ARIMA), экспоненциальное сглаживание, анализ лагов.

Длительность курса

16-20 академических часов (в зависимости от выбора Дополнительных тем)




Стоимость курса                                  Условия и порядок обучения

Другие курсы по Data Mining                Все курсы лекций

‹‹
››
ПнВтСрЧтПтСбВс


                info@statsoft.ru         +7 (495) 787-77-33      +7 (499) 674-06-15          STATISTICA 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2023

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта