База примеров

Потребительский кредитный скоринг с помощью Data Mining


Пример выполнен в 6ой версии системы STATISTICA. Информация о текущей версии

Содержание

Исходные данные

Анализ данных в системе STATISTICA

Дерево Решений – CHAID

Матрица классификации – CHAID Модель

Сравнительная оценка моделей

Выбор модели для прогноза

Вывод


В процессе предоставления кредита банки заинтересованы в изучении платежеспособности будущего потребителя кредита. Цель этого изучения - моделирование или предсказание вероятности, с которой претендент на кредит может быть отнесен к привлекательным или непривлекательным клиентам.

Методы, описанные в этом примере, демонстрируют построение кредитно-скоринговой модели с помощью системы STATISTICA Data Miner, позволяющей идентифицировать входы или предикторы, которые отделяют рискованных клиентов от всех остальных. Предиктивные методы, успешно применяемые на тестовых данных, и в дальнейшем могут быть использованы для предсказания новых рискованных клиентов.

Исходные данные

Таблица данных, содержащихся в файле CreditScoring.sta, имеет 1000 наблюдений и 20 переменных (или предикторов), содержащих информацию (финансовое положение, причина кредита, занятость, демографическая информация, и т.д.) по прошлым и текущим клиентам, которые были заемщиками в одном из немецких банков
(источник: http://www.stat.uni-muenchen.de/service/datenarchiv/kredit/kredit_e.html).

Для каждого потребителя определена бинарная характеристика «кредитоспособности». Эта переменная включает информацию о том, привлекателен или нет рассматриваемый клиент. Набор данных имеет разделение на 70% соответствующих кредиту («хороших») клиентов и 30% не соответствующих («плохих»). Клиенты, которые просрочили оплату на 90 дней, могут быть отнесены к категории с высоким риском; соответственно, клиенты без просрочки платежа могут быть отнесены к категории с низким риском. Другие типичные меры определения «хороших» и «плохих» клиентов основаны на сумме, превышающей кредитный лимит, количестве просроченных месяцев оплаты или функции от этих или других переменных.

Полный список переменных, содержащихся в таблице данных, приведен ниже.

Таблица 1

Данный пример демонстрирует насколько хорошо перечисленные выше переменные (состояние текущего счета, величина сбережений и т.д.) позволяют отличить «хорошего» клиента от «плохого». Если удастся провести разделение между этими двумя группами, то в дальнейшем для классификации или прогнозирования статуса новых клиентов можно использовать предиктивную модель.

 


Анализ данных в системе STATISTICA

Подготовка данных

Пакет STATISTICA Data Miner позволяет наиболее простым образом применить мощные моделирующие методы к данным и выявить достоинства результирующих моделей, связанные с их прогностическими и описательными возможностями. Однако, это ни в кое случае не уменьшает роли, отведенной тщательной и внимательной подготовке данных. Данные - это главный ресурс для выявления скрытых закономерностей между переменными, поэтому они должны быть должным образом подготовлены перед применением какого-либо инструмента data mining. В противном случае может иметь место случай Garbage-In Garbage-Out (GIGO). И как результат - неверные стратегические решения, а любая ошибка может привести к катастрофическим потерям. Следовательно, для принятия наилучшего возможного решения важно предварительно подготовить данные и, тем самым, увеличить точность модели.

На стадии подготовки данных можно отметить следующие особенности:

  • Различие значений основных описательных статистик (средних, максимальных и минимальных значений, квантилей и т.д.).

  • Наличие или отсутствие резко отклоняющихся значений в данных (выбросов).

  • Наличие или отсутствие, в группах «хороших» и «плохих» клиентов, пропущенных значений в данных.

  • Потребность в предварительных преобразованиях данных.

  • Необходимость отсеивания признаков (в рассматриваемом примере количество переменных было уменьшено с 20 до 10).

Отсеивание признаков

Для снижения трудоемкости задачи можно понизить размерность массива данных. Доступная в STATISTICA Data Miner процедура Чистка и Фильтрация данных (Feature Selection and Variable Screening) автоматически находит важные предикторы, которые позволяют правильно провести классификацию клиентов.

График и электронная таблица значимости предикторов демонстрируют наиболее значимые при построении прогноза переменные. Например, ниже показан график значимости предикторов для зависимой переменной Кредитоспособность.

График значимости предикторов для зависимой переменной Кредитоспособность

Рис. 1. График значимости предикторов для зависимой переменной Кредитоспособность

В нашем случае переменные Balance of current account (Баланс текущего счета), Payment of previous credits (Оплата предыдущих кредитов) и Duration in months (Продолжительность в месяцах) выделяются как наиболее важные предикторы.

Указанные предикторы будут в дальнейшем проверены с использованием следующих средств Добычи данных и Обучающихся алгоритмов (Data Mining и Machine Learning Algorithms) системы STATISTICA Data Miner:

  • Общие деревья классификации и регрессии (Standard Classification Trees with Deployment (C And RT))

  • Общие CHAID модели (Standard Classification CHAID with Deployment (C And RT))

  • Растущие деревья классификации и регрессии (Boosting Classification Trees with Deployment)

  • Интеллектуальный решатель (Intelligent Problem Solver with Deployment)

  • Метод опорных векторов (Support Vector Machine with Deployment(Classification))

  • Многомерные адаптивные сплайны – MAP-сплайны (MARSplines for Classification with Deployment)

Новизна и разнообразие представленных технических инструментов, делают этот этап наиболее интересной частью процесса data mining. В сфере кредитного скоринга наиболее популярным инструментом для предсказания уровня риска заемщиков является метод классификаций, но использование различных инструментов может пролить свет на суть задачи или подтвердить предшествующие выводы.

STATISTICA Data Miner - это дружественное пользователю множество инструментов data mining, предназначенных для обнаружения тенденций, объяснения известных примеров и предсказания. От запросов к базам данных и до подготовки финальных отчетов и графиков, пакет предоставляет легкость и быстроту использования, без потери мощности или полноты. Более того, STATISTICA Data Miner представляет широчайший выбор алгоритмов прогнозирования, классификации, кластеризации и моделирования. Пакет включает как простые инструменты: C&RT и CHAID, так и более продвинутые – Neural Networks (Нейронные сети), Boosted trees (Растущие деревья), Support Vector Machines (Метод опорных векторов), MARSplines (МАР – сплайны), и т.д.

Рабочее пространство STATISTICA Data Miner

Все инструменты STATISTICA Data Miner поддерживают технологию drag-and-drop («перетащить и отпустить»), поэтому рабочее пространство Data Miner полностью описывает процесс анализа.

Следующий рисунок показывает, как выглядит рабочее пространство Data Miner после завершения анализа.

Рабочее пространство Data Miner после завершения анализа

Рис. 2. Рабочее пространство Data Miner после завершения анализа

Подготовка/анализ данных включает следующие шаги:

1. Разделение исходного множества данных на два подмножества: 34% наблюдений - для тестирования и 66% - для построения модели.

2. Метод Stratified Random Sample используется для извлечения одинакового числа наблюдений для обоих типов: «хороших» и «плохих» клиентов.

3. Инструмент Feature Selection (Отсеивание признаков) используется для выявления наилучших предикторов, классифицирующих клиентов на «хороших» и «плохих».

4. Число возможных предикторов уменьшается с 20 до 10 в результате работы процедуры Feature Selection (Отсеивание признаков).

5. Различные продвинутые прогнозирующие модели (Machine Learning algorithms) применяются для определения и понимания взаимосвязей между переменными.

6. Для выбора оптимальной модели прогнозирования используются сравнительные инструменты: Lift Charts, Gain Charts, Cross tabulation (Лифтовые карты, Усиливающие карты) и др.

7. Для оценки точности прогноза применяется модель для наложений тестовой выборки («hold-out» sample).

Анализ Результатов

Теперь сделаем обзор анализа результатов для того, чтобы лучше понять характеристики «плохих» и «хороших» клиентов. Начнем с CHAID - дерева решений (классификаций).

 


Дерево Решений – CHAID

Деревья решений – мощное средство для классификации и прогнозирования. Преимуществом деревьев решений является то, что они могут быть выведены графически, что делает их особенно легкими для восприятия.

Дерево решений CHAID для кредитоспособности

Рис. 3. Дерево решений CHAID для кредитоспособности

Дерево решений CHAID для кредитоспособности

Заметим, что результаты, полученные вами, могут отличаться от приведенных из-за различий в обучающих и тестовых выборках. Но по отношению к главным разделяющим (дискриминирующим) переменным и типам ветвлений, изображенным в показанном выше дереве, это различие должно быть несущественно.

На рис. 3 CHAID-алгоритм создал дерево с шестью терминальными вершинами, как результат шести if-then условий для предсказания «хороших»/«плохих» клиентов. Терминальные вершины или терминальные листья - это те элементы, в которых дальнейшее разделение не приведет к увеличению точности решения (представлены текущие параметры, которые были выбраны для построения дерева). С помощью инструмента Stratified Random Sampling получим обучающее множество данных (411 наблюдений) с одинаковой пропорцией «хороших» и «плохих» клиентов и далее начнем процесс построения дерева от верхней (корневой) вершины. Легенду с используемыми обозначениями можно найти в верхнем левом углу рисунка. Таким образом, интерпретация дерева достаточно легка. Самая правая вершина результата от первого разделения содержит 167 случаев с большинством наблюдений, соответствующих «хорошим» клиентам. Так как дальнейшие разделения от этой вершины не могут увеличить точность прогноза, то она становиться терминальной. Крайняя левая вершина, содержащая 244 случая, разделяется на основе предиктора Value of savings or stock еще на две вершины и т.д.

Следующие «правила решений» могут быть получены, следуя по пути к каждой терминальной вершине. Например, можно записать следующее простое «правило»:

IF  (Balance of current account="no running account","no balance" AND Value of savings or stocks="no savings","less than 100 DM") THEN Creditability="bad"

 


Матрица классификации – CHAID Модель

Матрица классификаций сравнивает классификации, которые действительно имеют место, с предсказанными классификациями (т.е. с теми, которых большинство в соответствующем терминальном узле) для суммирования точности классификации для различных выходных значений. Программа вычисляет матрицу предсказанных и действительных частот выходных значений для тестового множества, которые отображены в таблице и на гистограмме:

Матрица предсказанных и действительных частот выходных значений для тестового множества_таблица

      Матрица предсказанных и действительных частот выходных значений для тестового множества_график

Рис. 4. Матрица предсказанных и действительных частот выходных значений для тестового множества

Матрица классификаций: CHAID модель

Матрица классификации показывает число наблюдений, которые были классифицированы корректно (главная диагональ матрицы) и те, которые были классифицировали неправильно. Итоговая модель может правильно предсказать кредитную принадлежность с 63,82% точности (61+149)/(61+31+88+149). Заметим, что основная цель – уменьшение доли «плохих» заемщиков, предсказанных как «хорошие». Процент правильного предсказания для категории «плохих» клиентов составляет 66,30%.

 


Сравнительная оценка моделей

Эффективнее провести эксперименты с различными методами в процессе добычи или моделирования данных, чем полагаться на один какой-либо метод. Различные инструменты помогут взглянуть по-новому на проблему или верифицируют предыдущие выводы.

Карта усиления

Карта усиления (gain chart, карта выигрышей) обеспечивает визуализацию итоговой полезной информации, представленной одной или более статистическими моделями. Карта усиления наглядно представляет выигрыш при прогнозировании с использованием статистических моделей по сравнению с использованием только основной статистической информации (т.е. просто число откликов в обычной выборке). Следующие карты усиления были получены (для множественных прогнозирующих моделей) на основе моделей, обученных в STATISTICA Data Miner используя Compute Overlaid Lift Charts. На горизонтальной оси рис. 5 показан процентиль общей выборки из списка наиболее вероятных клиентов для данной модели, соответствующих заданному значению зависимой переменной, а на вертикальной – процент правильно предсказанных клиентов по отношению к числу заданных откликов в общей выборке.

Карта усиления для “Creditability”=”Bad”

Рис. 5. Карта усиления для “Creditability”=”Bad”

Данная карта показывает, что модель растущих деревьев (Boosting Trees with Deployment) является лучшей среди доступных моделей для прогнозирования результатов. Принимая во внимание два верхних дециля, можно предсказать правильно примерно 40% наблюдений в группе «плохих». Можно также сказать, что основная модель служит мерой для измерения полезности соответствующих моделей классификаций.

Для определения процентилей могут быть вычислены соответствующие значения Gains/Lift для каждой выборки кандидатов. Из графика видно, что значения прибыли для различных процентилей соединены линией, и она обычно восходит медленно, сливаясь с основной линией, если были выбраны все потребители (100%).

Лифтовая карта

Лифтовая карта тоже показывает преимущество прогнозирующих моделей по сравнению с основной статистической моделью, т.е. процентом заданного отклика в основной выборке. Только по вертикальной оси показывается отношение правильно предсказанных откликов к числу откликов в основной модели для заданного процентиля. Данная лифтовая карта показывает, что модель растущих деревьев (Boosting Trees with Deployment) является лучшей среди доступных моделей прогнозирования.

Лифтовая карта для “Creditability”=”Bad”

Рис. 6. Лифтовая карта для “Creditability”=”Bad”

Другими словами, отношение усиливающего или лифтового значения, связанного с использованием Модели Растущих Деревьев (Boosting Trees with Deployment), примерно 1,7.

Матрица Классификаций - Растущие Деревья

По аналогии с CHAID анализом можно рассмотреть матрицу классификаций, которая отображает реальное число случаев, принадлежащих к каждому классу и приписанных моделью тому или иному классу.

Матрица классификаций: Boosted Trees Model (модель растущих деревьев)

Рис. 7. Матрица классификаций: Boosted Trees Model (модель растущих деревьев)

Матрица классификаций для тестовой выборки показывает число случаев, которые были классифицированы верно, и тех, которые были классифицированы неправильно, т.е. отнесены к другой категории.

В этом случае итоговая модель может правильно предсказать привлекательность потребительского кредита с точностью 65,65%. Основная цель – снижение доли плохих кредитов. Процент правильного прогноза для «плохой» категории при использовании метода Растущих Деревьев равен 73,91%.

 


Выбор модели для прогноза

На последнем этапе следует выбрать наилучшую модель и применить ее к новым данным для прогнозирования «хороших»/«плохих» клиентов. Будем использовать модель Boosting Classification Trees (Растущих Деревьев Классификаций), потому что она предоставила наилучшую точность на тестовых данных по сравнению с другими моделями. Для дальнейшего использования прогнозирующих моделей в STATISTICA Вам только нужно сохранить PMML код полученного оптимального моделирования, и затем использовать этот код в STATISTICA Data Miner для прогнозирования/классификации кредитного риска новой группы претендентов. Далее предсказанные/классифицированные претенденты могут быть сортированы по вероятности, полученной при прогнозе, что позволит заблаговременно принять решение об отказе в выдаче потребительского кредита.

 


Вывод

Данный пример демонстрирует легкость обучения и использования прогнозирующих моделей при наличии всех необходимых инструментов анализа. Программный пакет STATISTICA также предоставляет множество методов для подготовки и чистки данных (Data Preparation/Cleaning). Методы, представленные в STATISTICA Data Miner - одни из наиболее продвинутых инструментов прогноза, присутствующих на рынке в настоящее время.

STATISTICA Data Miner предлагает широкий выбор графиков и карт, которые могут быть легко скомбинированы с другими процедурами и методами data mining. Возможно использование исключительно визуальных (графических) инструментов на протяжении всего проекта. Решения, полученные с помощью системы STATISTICA Data Miner, могут быть внедрены как готовые проекты, доступ к которым осуществляется посредством одного клика мыши.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание груповых занятий






info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта