База примеров

Построение модели поведенческого скоринга

В данном примере рассмотрим схему построения нейросетевой модели для задачи поведенческого скоринга. Поведенческий скоринг (behavior scoring) используется для принятия решений по уже выданным кредитам.

Основные решения, принимаемые с использованием поведенческого скоринга, можно сформулировать следующим образом:

  • Предложение новых услуг и улучшение уже предоставляемых услуг.

  • Решение, выдавать ли кредитную карту заново после истечения срока действия, или нет.

  • Меньший стартовый кредитный лимит или максимальное значение кредита на кредитной карточке.

  • Более строгий сбор платежей с нарушителей или отправка данных о них в агентства сбора платежей.

  • Повышение кредитного лимита.

  • Помещение под наблюдение ввиду потенциальных мошеннических действий и т. д.

В данном примере необходимо оценить кредитоспособность существующих заёмщиков на основании данных о графике погашения кредитов и динамики движения средств на счетах клиента.

 


Структура данных

Каждого клиента будем характеризовать 22 признаками. 20 переменных относятся к анкетным данным, которые заполняются в анкете для получения кредита. К этим переменным относятся:

  • Текущий баланс счета;

  • Продолжительность в мес;

  • Назначение кредита;

  • Сумма кредита;

  • Объем сбережений;

  • Время работы на данном рабочем месте;

  • Семейное положение/пол;

  • Длительность проживания по текущему адресу;

  • Возраст в годах;

  • Число предыдущих кредитов в банке;

  • Должность;

  • и другие.

На основании перечисленных факторов все клиенты подразделяются на "хороших" и "плохих". Разбиение на эти группы записано в переменной Кредитоспособность (Creditability).

Всего имеются данные по 1000 клиентов. При этом, 30% относятся к "плохим", а остальные 70% – к "хорошим". Процент невыплат по всей совокупности данных около 3% (данная величина относится к одному месяцу). Элемент таблицы данных показан на рис. 1.

Фрагмент исходной таблице данных

Рис. 1. Фрагмент исходной таблицы данных

Поскольку количество наблюдений, относящихся к разным группам ("хороший" и "плохой"), существенно различается, то необходимо задать дополнительную переменную, содержащую веса наблюдений. В противном случае группа "хороших" будет оказывать большее влияние на построение модели, чем группа "плохих".

Для группы "хороший" зададим вес, равный 3, а для группы "плохой" – равный 7 (т. е. каждая группа будет оказывать одинаковое влияние на построение модели).

Переменную, содержащую веса, назовем w.

 


Построение модели

Шаг 1. На первом шаге необходимо исключить из анализа переменные, которые не оказывают значимого влияния на принадлежность к тому или иному классу (на зависимую переменную). Использование алгоритмов снижения размерности уменьшает количество независимых переменных до 10. Далее используются только выделенные переменные.

Шаг 2. В стартовом окне выбираем анализ Классификации и нажимаем ОК. Далее задаем новый набор независимых переменных (рис. 2).

Диалог Нейронные сети – отбор данных

Рис. 2. Диалоговое окно Нейронные сети – Отбор данных

В качестве инструмента построения сети будем использовать Автоматизированную нейронную сеть (АНС). После того, как установки проделаны, нажимаем OK.

Шаг 2. Настройка параметров.

В начале проведем анализ для невзвешенных переменных. На вкладке Быстрый диалога Автоматизированная нейронная сеть (АНС) (рис. 3) зададим необходимые параметры.

Окно Автоматизированная нейронная сеть (АНС), вкладка Быстрый Рис. 3. Окно Автоматизированная нейронная сеть (АНС), вкладка Быстрый

Для начала нам необходимо выяснить, какие модели будут работать эффективнее, поэтому, не изменяя остальных опций, нажимаем OK.

Окно результатов

Рис. 4. Окно результатов

Анализируя величину производительности на тестовом множестве, делаем вывод, что точность прогноза с помощью построенных моделей находится на уровне 75-80%.

Не углубляясь в дальнейшее изучение построенной модели, приведём только матрицу классификации.

Таблица описательных статистик классификации

Рис. 5. Таблица описательных статистик классификации

Процент правильно классифицированных в категорию "плохой" равен 98%, а в категорию "хороший" – 96.7%.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание групповых занятий

 

 





info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта