База примеров

Построение предиктивных моделей авиаперевозок с помощью методов добычи данных

Statistica содержит полный набор методов машинного обучения и интеллектуального анализа данных, включая общие деревья классификации и регрессии, интерактивные деревья, случайные леса, многомерные адаптивные сплайны, автоматизированные нейронные сети и многие другие методы.

Методы машинного обучения и нейронных сетей Statistica позволяют строить эффективные предиктивные модели для данных авиаперевозок, включая прогнозирование авиаперевозок, сегментацию пассажиров, анализ лояльности и др.

Модель 1: Прогнозирование авиаперевозок с помощью нейронных сетей Statistica

Исходные данные пассажиропотока представлены в таблице.

Требуется построить прогноз на 12 месяцев вперед.

Прогноз строится с помощью модуля Нейронные сети Statistica в последовательно открывающихся диалоговых окнах.

Модель 2: Сегментация клиентов: кластеризация методом к-средних

Бизнес задача заключается в том, чтобы сгруппировать клиентов в однородные группы на основе демографических данных клиентов, истории рейсов и других атрибутов.

Бизнес-аналитики смогут анализировать каждый сегмент, чтобы лучше понять группу клиентов, обнаруженную моделью.

Клиенты группируются с использованием алгоритма кластеризации к-средних.

Найденные правила кластеризации определяют профиль клиентов в каждом кластере.

Данные: карты часто летающего пассажира, уникальный идентификатор, календарный месяц, пол часто летающего пассажира, уровень дохода часто летающего пассажира, семейное положение часто летающего пассажира, образование часто летающих пассажиров, профессия часто летающего пассажира, возраст, название страны пункта назначения, канал продаж, общая сумма миль полета частого пассажира, количество миль, заработанных частым пассажиром и др.

Обучающие данные: последние данные клиентов используются в качестве учебных данных, алгоритм используется для обучения модели по выбранным данным.

Тестовые данные: последние данные клиента используются в качестве скоринговых данных, а подготовленная модель применяется к выбранным данным для оценки прогнозируемой целевой переменной.

Чтобы обновить все модели интеллектуального анализа данных на основе последних данных о клиентах и в нестационарных условиях, вызовите процедуру.

Модель 3: Лояльность клиентов: деревья принятия решений, метод опорных векторов

Бизнес проблема заключается в создании профиля клиентов, чтобы объяснить влияние характеристик клиентов на их лояльность к авиакомпании.

Используя методы добычи данных, KPI моделируются с использованием двух популярных алгоритмов классификации - дерева решений и метода опорных векторов.

Этот анализ определяет, какие ключевые атрибуты клиента влияют на его лояльность к авиакомпаниям.

На выходе:

•    Найденные правила обеспечивают корреляцию между лояльностью клиентов к атрибутам «Авиалинии» и «Клиент»

•    Прогнозирование может производиться по данным текущего базового клиента за следующий месяц /квартал с использованием модели, построенной на исторических данных

Правила создаются ежемесячно / ежеквартально. Поэтому модели создаются каждый месяц для всех клиентов, используя следующие переменные в качестве целевых.

Модуль Общих деревьев классификации и регрессии Statistica позволяет строить деревья классификации и регрессии для прогнозирования непрерывных зависимых переменных (регрессия) и категориальных предикторов (классификация).

Statistica поддерживает классический алгоритм C & RT, популяризированный Breiman et al. (Breiman, Friedman, Olshen, & Stone, 1984; см. Также Ripley, 1996), и включает в себя различные методы обрезания и кросс-проверки, а также мощные методы перекрестной проверки по V-кратному критерию.

Задачи регрессионного типа, как правило, представляют собой те, в которых пытаются предсказать значения непрерывной переменной от одной или нескольких непрерывных и / или категориальных переменных-предикторов.

Например, вы можете прогнозировать вероятность того, что клиент полетит рейсом Москва-Адлер в зависимости от различных других непрерывных предикторов (например, квадратные метры), а также от категориальных предикторов (например, сезон, день недели).

Если вы использовали простую множественную регрессию или какую-либо общую линейную модель (GLM) для прогнозирования, вы бы определили линейное уравнение для этих переменных, которое можно использовать для расчета прогнозируемых продажных цен.

Алгоритмы машинного обучения предназначены для решения нельнейных задач.

Модель 4: Стоимость жизненного цикла клиентов: обобщенные модели линейной регрессии, деревья принятия решений

Бизнес задача заключается в том, чтобы идентифицировать / прогнозировать клиентов, которые могут представлять наибольшую ценность для перевозчика в течение своего жизненного цикла, на основе таких критериев, как демографическая информация клиента, история рейсов, сезон, качество обслуживания и другие.

В этом анализе определяются, какие ключевые атрибуты клиента, влияющие на ценность жизненного цикла.

Значение времени жизни – это непрерывное значение (общий доход, полученный от клиента).

Значение жизненного цикла преобразуется в категориальные значения, используя стандартные операции биннинга.

Категориальные переменные моделируются как модель классификации для определения или прогнозирования влияния различных независимых переменных (атрибутов) на зависимую целевую переменную (KPI - категориальную).

Используя методы добычи данных, целевые переменные, категориальное значение жизненного цикла и время выживания моделируются с использованием алгоритма классификации, дерева решений.

Продолжительность непрерывного жизненного цикла и время выживания моделируются как модели регрессии с использованием алгоритма обобщенной линейной модели регрессии.

Модели добычи данных разрабатываются каждый месяц с использованием последних данных клиентов, и применяются к данным текущих базовых клиентов, чтобы предсказать, какой клиент, вероятно, будет представлять наибольшую ценность в течение срока жизненного цикла.

Информация о клиентах и поведение клиентов могут измениться, поэтому вы можете обновить подготовленные модели интеллектуального анализа данных, используя последние данные о клиентах и данные об использовании.

Под обновлением модели интеллектуального обучения мы подразумеваем повторную подготовку модели по последним данным. Переобученная модель и более старая модель тестируются на последних исходных данным, и лучшая из моделей выбирается.

На выходе получаем:

•    Обнаруженные правила для определения профиля клиентов, которые, скорее всего, будут представлять наибольшую ценность за время жизненного цикла

•    Прогноз может быть получен по данным клиента после обучения модели

Целевые переменные

Правила создаются ежемесячно. Поэтому каждый месяц для всех клиентов создаются две модели регрессии и две модели методом деревьев решений, использующие в качестве целей следующие переменные:

Модель 5: Прогнозирование появления новых часто летающих пассажиров: деревья принятия решений, метод опорных векторов

Необходимо подготовить два набора данных, каждый из которых соответствует одной из следующих двух задач:

•    Обучающие данные

•    Тестовые данные

Модель 6: Анализ стоимости жизненного цикла клиента

Бизнес проблема заключается в том, чтобы идентифицировать / прогнозировать клиентов, которые могут представлять наибольшую ценность для перевозчика в течение своего жизненного цикла, на основе таких критериев, как демографическая информация клиента, история рейсов и качество обслуживания и другие.

В этом анализе определяются, какие ключевые атрибуты клиента, влияющие на ценность жизненного цикла.

Значение времени жизни – это непрерывное значение (общий доход, внесенный клиентом). Значение жизненного цикла преобразуется в категориальные значения, используя стандартные операции биннинга.

Категориальные переменные моделируются как модель классификации для определения или прогнозирования влияния различных независимых переменных (атрибутов) на зависимую целевую переменную (KPI - категориальную).

Используя методы добычи данных, целевые переменные, категориальное значение жизненного цикла и время выживания моделируются с использованием алгоритма классификации, дерева решений.

Продолжительность непрерывного жизненного цикла и время выживания моделируются как модели регрессии с использованием алгоритма обобщенной линейной модели регрессии.

Модели добычи данных разрабатываются каждый месяц с использованием последних данных клиентов, и применяются к данным текущих базовых клиентов, чтобы предсказать, какой клиент, вероятно, будет представлять наибольшую ценность в течение срока жизненного цикла.

На выходе получаем:

•    Обнаруженные правила для определения профиля клиентов, которые, скорее всего, будут представлять наибольшую ценность за время жизненного цикла

•    Прогноз может быть получен по данным клиента после обучения модели

Целевые переменные

Правила создаются ежемесячно. Поэтому каждый месяц для всех клиентов создаются две модели регрессии и две модели методом деревьев решений, использующие в качестве целей следующие переменные:

Целевые переменные для дерева решений:

•    Код значения времени жизни, cust_ltv_bnd

•    Код ценности жизненного цикла

Целевые переменные для обобщенной линейной модели регрессии (GLMR):

•    Значение времени жизни, tot_cpn_amt

•    Жизнеспособность выживания

Источник данных о жизненном цикле клиента

Модель лояльности клиентов использует материализованное представление dmv_cust_ltv_src как источник. Это материализованное представление имеет все столбцы из материализованного представления dmv_cust_profile_src вместе со следующими столбцами (столбцами):

• cust_ltv_bnd

На выходе:

Полученные правила сохраняются в следующие целевые таблицы:

•    dwd_cust_ltv_dt_rules

•    dwd_cust_ltv_svm_factor

Результаты скоринга сохраняются в следующих столбцах (таблицах) целевой таблицы: dwd_cust_mnng

•    ltv_band_cd

•    ltv_value

•    lt_srvvl_cd

•    lt_srvvl_value

Алгоритм ценности времени жизни клиента

•    Дерево решений для классификации

•    Обобщенная линейная модель регрессии для регрессии

Модель 7: Прогнозирование появления новых часто летающих пассажиров

Бизнес проблема заключается в определении / прогнозировании пассажиров, не являющихся часто летающими пассажирами, которые, вероятно, станут часто летающими пассажирами, в зависимости от их демографических характеристик, историй рейсов, доходов и других показателей, тарифов других компаний.

Этот анализ также определяет, какие ключевые атрибуты пассажира важны для прогнозирования того, может ли пассажир, не являющийся часто летающим, стать им. Данные обучения будут представлять собой сочетание пассажиров, не являющихся часто летающими, и часто летающими пассажирами.

Пассажиры часто летающие - это те, кто стал часто летающим из редко летающего за последний год.

Целевая переменная принимает значение 1 для пассажиров часто летающих и 0 для пассажиров, летающих редко.

Целевая переменная моделируется с использованием алгоритмов классификации, метода опорных векторов и деревьев принятия решений.

Две модели строятся каждый месяц с использованием последних данных, и применяются к текущим пассажирам, не относящимся к группе часто летающих, для прогнозирования того, кто, вероятно, станет часто летающим пассажиром.

Правила создаются ежемесячно.

На выходе получаем:

•    В обнаруженных правилах описывается профиль пассажиров, не относящихся к группе часто летающих, которые, вероятно, ими станут.

•    Прогнозирование может производиться на текущих редко летающих пассажирах после обучения модели.

Предикторами модели являются: тип пассажира, пол пассажира, возраст пассажира, Индикатор часто летающих пассажиров, 1 для пассажиров, которые сейчас являются часто летающими пассажирами, но были редко летающими в прошлом, 0 для текущих часто летающих пассажиров, календарный месяц,  индикатор канала продаж, через который пассажир делает бронирование, общее количество подтвержденных заказов, количество ночных бронирований среди заказов, сделанных часто летающими пассажирами, общее количество заказов бизнес-класса среди заказов, сделанных часто летающими пассажирами, количество заказов бизнес-класса среди заказов, сделанных часто летающими пассажирами, общее число дней между бронированием и отправлением рейса средний промежуток в днях между бронированием и отправлением рейса, общая сумма купона, сумма купона и др.

Алгоритмы, используемые при построении модели:

•    Дерево решений для классификации

•    Метод опорных векторов для классификации

Метод опорных векторов (SVM). Этот метод выполняет задачи регрессии и классификации путем построения нелинейных границ решения.

Из-за природы пространства признаков, в котором находятся эти границы, метод опорных векторов могут проявлять большую степень гибкости при обработке задач классификации и регрессии различной сложности.

STATISTICA SVM поддерживает четыре типа моделей опорных векторов с различными ядрами в качестве расширений базисных функций, включая линейные, полиномиальные, RBF и сигмоидальные.

Это также обеспечивает средство для обработки несбалансированных данных.

Методы предпроцессинга - наивный байесовский классификатор.

Это хорошо зарекомендовавший себя байесовский метод, в первую очередь сформулированный для выполнения задач классификации.

Учитывая его простоту, то есть предположение, что независимые переменные являются статистически независимыми, наивные байесовские модели являются эффективными инструментами классификации, которые просты в использовании и интерпретации.

Байесовский подход особенно уместен, когда размерность независимого пространства (то есть число входных переменных) велика.

По причинам, изложенным выше, байесовский классификатор часто может превзойти другие более сложные методы классификации.

STATISTICA байесовский классификатор предоставляет множество методов для моделирования условных распределений входных данных, включая нормальное, логнормальное, гамма и пуассоновское.

Например, если вы хотите оценить условную вероятность того, что данный пассажир полетит в Барнаул при условии, что летит в Астрахань.

 

Процедура обновления выполняет следующие задачи для каждой модели:

•    Обновляет исходные данные

•    Проводит повторное обучение каждой модели с использованием новых данных обучения.

•    Сравнивает новую модель и старую модель. В качестве основной модели добычи выбирается лучшая из двух моделей

•    Применяет каждую основную модель к последним применяемым данным

Полностью кейс разбирается на курсах StatSoft.

Вопросы по построению предиктивных моделей с помощью нейронных сетей и технологий машинного обучения можно задавать письменно по адресу vladimir@statsoft.ru или по телефонам StatSoft +7 (495) 787-77-33, +7 (906)734-40-57.

Список литературы:

  1. Боровиков В.П. Нейронные сети Statistica, SNN, Москва, горячая линия телеком, 2008

  2. Боровиков В.П. Популярное введение в современный анализ данных и машинное обучение на Statistica, Москва, горячая линия телеком, 2019


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание групповых занятий

 

 





info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2020

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта