Научиться проводить самостоятельные исследования методами Data Mining и эффективно пользоваться результатами уже готовых статистических исследований.
Курс рассчитан на широкий круг аналитиков в различных областях: маркетинге, телекоммуникациях, промышленности, медицине и др. Курс не предполагает предварительных знаний и навыков работы со статистическими данными, однако интенсивность проведения занятий зависит от подготовки и пожеланий слушателей.
Подробнее о системах
STATISTICA Data Miner
STATISTICA Automated Neural Networks
Модуль 1. Введение в Data Mining, подготовка и предварительный анализ данных
- Общая концепция методологии Data Mining и технологии реализации в пакете STATISTICA.
- Обзор задач, решаемых методами Data Mining (в сфере, интересной слушателям).
- Импорт и экспорт данных, взаимодействие с базами данных.
- Предварительная обработка («чистка») данных - обработка пропущенных значений, значений-выбросов, разреженных данных (sparse data), дублированных и некорректных элементов, избыточных значений.
- Описание и предварительный анализ данных, модуль Бурение и расслоение данных (Drill down).
- Визуализация исходных данных, интерактивный анализ построенных графиков.
- Поиск наиболее значимых факторов, модуль Отсеивание признаков (Feature selection).
- Поиск закономерностей в данных, модули Правила связи (Link analysis) и Ассоциативные правила (Association rules) .
- Анализ разделения значений переменных на категории, метод весомости признаков (Weights of evidence).
Дополнительные темы:
- Виды распределений случайных величин и проверка гипотез о распределении данных.
- Анализ взаимосвязей (корреляций) между переменными – коэффициенты корреляции Пирсона, Спирмена и Кендалла.
- Сравнение групп – критерии Стьюдента, Манна – Уитни и дисперсионный анализ (ANOVA).
Модуль 2. Задачи классификации и регрессии
- Постановка задач, ключевые понятия и определения.
- Модуль Деревья классификации и регрессии: графическое представление результатов, анализ важности предикторов, методика построения моделей, параметры качества построенных моделей, разделение данных на обучающую и контрольную выборки, метод кросс-валидации.
- Другие методики построения деревьев: Общие CHAIDмодели, Растущие деревья класификации и регрессии (Boosted trees), модуль Случайные леса (Random forests).
- Метод опорных векторов (SVM), понятие оптимальной разделяющей гиперплоскости.
- Вероятностный подход к решению задачи классификации, модуль Наивные Байесовские классификаторы.
- Построение непараметрической регрессионной зависимости, модуль Обобщённые аддитивные модели (GAM).
- Решение задачи регрессии методами сплайновой подгонки,модуль Многомерные адаптивные регрессионные сплайны (MARS).
- Сравнение качества построенных моделей при помощи модуля Качество подгонки (Goodness of fit), визуальное сравнение моделей - лифтовые диаграммы (lift charts) и карты выигрышей (gain charts).
- Совместное использование построенных моделей: бустинг (boosting) и создание ансамблей (bagging).
- Применение построенных моделей на новых данных при помощи модуля Быстрые прогнозирующие модели (Rapid Deployment), «голосование» среди моделей.
Дополнительные темы:
- Классические методы регрессионного анализа: множественная и логистическая регрессии, выбор переменных для анализа, критерий Акаике.
- Многомерное нормальное распределение, дискриминантный анализ Фишера.
- Анализ цензурированных данных, модуль Анализ выживаемости.
Модуль 3. Другие задачи и методы анализа данных
- Задача кластеризации: постановка задачи, ключевые понятия и определения, метод k-средних и EM-алгоритм.
- Задача понижения размерности: постановка задачи, проблема проклятия размерности, метод независимых компонент (independent component analysis).
- Модуль Нейронные сети (Neural networks): методология нейросетевого подхода в решении статистических задач, структура многослойных сетей, выбор сложности и архитектуры сети.
- Поиск информации в текстовых данных, модуль Добыча текста (Text & Document mining)
- Автоматизация анализа данных, генерирование автоматических отчётов: средства Data Miner Workspace и Data Miner Recipes.
- Совместное использование рассмотренных методов анализа данных.
- Деление методов анализа данных на параметрические, непараметрические и семипараметрические методы, преимущества и недостатки рассмотренных моделей.
- Подведение итогов.
Дополнительные темы:
- Классические методы кластеризации – Метод иерархической кластеризации (tree clustering) и Двухвходовое объединение (two-way joining).
- Классические методы понижения размерности: метод главных компонент (principal component analysis), многомерное шкалирование (Multidimensional scaling) и факторный анализ (Factor Analysis).
- Прогнозирование временных рядов – основные понятия (тренд, сезонность, календарные эффекты, разложение ряда), классическая модель АРПСС (ARIMA), экспоненциальное сглаживание, анализ лагов.
16-20 академических часов (в зависимости от выбора Дополнительных тем)
Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
|
© StatSoft Russia |
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран. |