База примеров

Опыт статистического прогнозирования денежных поступлений от продаж полисов


Пример выполнен в 5ой версии системы STATISTICA. Информация о текущей версии


Опубликовано в Финансовой газете #1 (369), январь 1999 года
А.Ю. Голубин, к.ф.-м.н., доц. Московского института электроники и математики
В.В. Иванов, компания РОСНО


Сегодня вопросы моделирования и оценки важнейших показателей деятельности компании на будущий отрезок времени становятся особенно актуальными. При этом задачи прогнозирования и планирования не могут быть решены без применения современных компьютерных технологий, которые интенсивно развиваются и постоянно обновляются.

Рассмотрим применение статистических методов на примере прогнозирования финансовых потоков страховой компании, однако данные методы можно применять и в других областях. Для страхового бизнеса, связанного со случайными рисками клиентов, а также случайными колебаниями спроса на услуги, решение задач прогнозирования приводит к необходимости использования статистических методов. Обычной формой представления финансовых показателей, изменяющихся во времени, является временной ряд, т.е. упорядоченные во времени финансовые характеристики, например, поступления страховых взносов за определенный период. Задача такого типа решалась для департамента страхования путешественников компании РОСНО – одной из ведущих компаний на российском страховом рынке.

Проблема состояла в построении среднесрочного и долгосрочного прогнозов для временного ряда месячных денежных поступлений от продаж полисов страхования жизни и здоровья путешественников и для ряда суммарных месячных количеств таких полисов. Дополнительная задача состояла в нахождении зависимости между этими рядами.

Исходные данные

В базе данных компьютера хранятся два временных ряда: суммарные месячные количества клиентов, купивших полисы, - КЛ(t), и месячные поступления в рублях - П(t). Период наблюдений в обоих случаях составил 5.5 лет, с января 1993 по май 1998 гг. Следует отметить, что если значения КЛ(t) отражают колебания спроса в различные месяцы, то на значения ряда П(t) влияют задержки в платежах различной (случайной) длительности. В целом первый ряд можно охарактеризовать как статистически более регулярный, поэтому в дальнейшем мы будем ссылаться на него как на базовый ряд, определяющий поведение второго ряда. Оба ряда имеют ярко выраженный сезонный эффект. Например, в августе, на пике отпускного сезона, значения рядов неизменно достигают годового максимума, а в декабре (период между окончанием осеннего сезона и рождественскими (зимними) каникулами) эти значения минимальны. Очевидно, в моделях, описывающих временные ряды, должна присутствовать такая сезонная компонента.

Постановка задачи

Найти вид статистической зависимости ряда поступлений {П(t)} от базового ряда {КЛ(t)}.

Построить прогнозы: среднесрочный (на период с июня 1998 г. по декабрь 1998 г.) и долгосрочный (по декабрь 1999 г.) для обоих рядов - КЛ(t) и П(t).

Имея в виду неоднократное проведение таких расчетов в будущем, следует сделать модели открытыми для включения вновь поступающих наблюдений; результаты представить в численном и графическом виде, удобном для последующего анализа.

Выбор программного обеспечения

Для решения поставленных задач была выбрана система STATISTICA (версия 5.0), на наш взгляд - одна из лучших прикладных статистических программ. Причины такого выбора - большой набор процедур, удобные графический интерфейс и средства анализа остатков, используемые при подгонке моделей. Документация по эксплуатации пакета подготовлена на русском языке. Кроме того, фирма-разработчик "StatSoft" организовала в Москве центр консультационной поддержки пользователей системы.

Диалоговое окно Анализ временных рядов

Определение зависимости между рядом поступлений и количествами клиентов

Проверим сначала гипотезу о простой линейной связи между рядами:

П(t)=B*КЛ(t) + eps(t), (1)

т.е. поступления за каждый месяц t есть произведение числа клиентов на некоторую "среднюю" цену полиса В с точностью до некоррелированных нормально распределенных ошибок eps(t) с нулевым средним. С помощью модуля "Линейная регрессия" такая средняя цена В была найдена, однако анализ качества построенной зависимости сразу же показал несоответствие модели (1) реальным данным. Автоматически вычисляемый индикатор (так называемая статистика Дарбина-Уотсона) указал наличие положительной корреляции между ошибками; в доверительный интервал не попала значительная часть наблюдений для всех не слишком малых значений зависимой переменной П, и, наконец, гистограмма остатков оказалась значимо отличной от подогнанной нормальной плотности. Причина такого несоответствия заключается в том, в модели (1) не учитывается влияние на динамику процесса П(t) задержек в платежах. Поэтому обоснованным было бы использовать более общую модель динамической регрессии с лагом (запаздыванием):

П(t) = b(0) КЛ(t) + b(1) КЛ(t-1) + ... + b(m) КЛ(t-m) + eps(t) (2)

Здесь m — выбранная глубина памяти, т.е. на текущее значение П(t) влияет не только количество клиентов этого месяца, но и m предыдущих значений ряда {КЛ(t)}; при m=0 получаем уже использовавшуюся модель линейной регрессии. Значения коэффициентов b(i), где i=0,...m, выбираются так, чтобы минимизировать остаточную сумму квадратов - меру отклонения между теоретической оценкой и данными наблюдений.

Выбор значения m определяется двумя факторами. С одной стороны, чем больше число параметров m, тем точнее соответствие модели имеющимся значениям рядов. С другой стороны, такая чувствительность может привести к тому, что случайные колебания будут приняты за закономерности в общей тенденции развития процесса, произойдет "раскачка" модели, и адекватность описания зависимости будет потеряна.

По результатам численных расчетов с различными значениями m был выбран компромиссный вариант: глубина памяти m=3, при этом коэффициенты b(0),...b(3) вычисляются стандартной процедурой "Анализ распределенных лагов" в STATISTICA. Проверка качества зависимости, проведенная в той же процедуре, показала высокую значимость найденной динамической регрессии. Формула (2) с численными значениями коэффициентов, сравнительный график ряда опытных данных П(t) и его теоретической оценки, построенной по найденной зависимости, показаны ниже.

Графики ряда ПОСТУПЛЕНИЯ

Как следует из приведенной формулы для П(t), вклад в поступления П(t) от количества клиентов в предшествующие месяцы падает с увеличением периода, прошедшего до момента наблюдения t:

0.152 > 0.125 > 0.099 > 0.073. Из графика видно, что оценка П(t) ведет себя более плавно, без резких колебаний, сохраняя при этом общую тенденцию к росту и сезонную цикличность процесса.

Построение прогнозов

Оценки, получаемые методом динамической регрессии, которая используется иногда для построения прогнозов (обычно среднесрочных) на практике оказываются неустойчивыми, поэтому рекомендуется использовать иные методы. Для построения прогнозов рядов КЛ(t) и П(t) был применен метод экспоненциального сглаживания. Отличительной его особенностью является то, что членам ряда приписываются веса, экспоненциально убывающие с увеличением давности (возраста) наблюдения. При этом, чем больше выбранный параметр сглаживания a, тем в большей степени учитываются более свежие наблюдения, и наоборот, чем меньше a, тем сильнее подавляются, фильтруются колебания ряда. Если решается задача краткосрочного прогнозирования, то необходимо быстрее отразить изменения процесса, увеличив вес свежих наблюдений, т.е. увеличив a. При долгосрочном прогнозировании, наоборот, более поздняя конъюнктурная информация должна иметь меньший вес, чем в первом случае, т.к. следует в большей мере учитывать характер поведения ряда за все прошлые периоды времени.

Тип модели. Принято различать два типа сезонных колебаний: мультипликативный, где колебания определяются приращениями в процентах к предыдущему значению, что приводит к увеличению их амплитуды с течением времени, и аддитивный, при котором амплитуда колебаний остается примерно постоянной. Тренд, т.е. общая тенденция процесса к росту, может быть линейным либо экспоненциальным, либо с насыщением. Для обоих исследуемых рядов характерна увеличивающаяся амплитуда сезонных колебаний, что соответствует наличию мультипликативной сезонности. Необходимая форма тренда (из трех возможных типов) была определена расчетами сглаженного ряда для каждого типа модели и последующим анализом остатков с целью более точного соответствия между модельными и фактическими данными.

Окончательный вариант — это модель сглаживания с мультипликативной сезонностью и линейным трендом, в которой имеются три параметра сглаживания: для очищенного от сезонных колебаний процесса, для сезонных коэффициентов и для коэффициентов тренда.

Численные расчеты и графическое отображение результатов реализованы на системе STATISTICA в процедуре "Экспоненциальное сглаживание" модуля "Анализ и прогнозирование временных рядов", при этом пользователю предоставлена свобода в выборе способа определения параметров сглаживания: либо минимизацией меры отклонений сглаженного (прогнозирующего) ряда от ряда фактических наблюдений, либо вручную.

Последний способ позволяет аналитику самостоятельно корректировать полученные значения параметров в зависимости от длины периода, на который рассчитывается прогноз, подавляя, например, коньюнктурные колебания в случае долгосрочного прогноза (12-24 месяцев).

Для долгосрочного прогноза на период длины r=19 , т.е. с июня 1998 по декабрь 1999 года, графики исходного ряда КЛ(t) и его прогноза приведены ниже.

Прогноз экспоненциального сглаживания

Как и следовало ожидать, в прогнозе сохранилась и общая тенденция к росту, и сезонный характер процесса; как и ранее, подъем на пик в августе чуть более пологий, чем спуск, что объясняется большей протяженностью периода летних отпусков, чем "бархатного" сезона. Почти нулевые значения параметров b и c говорят о том, что коэффициенты сезонной компоненты и тренда почти не меняются за весь период (65 шагов), достаточно высокое значение a = 0.895 означает, что последние наблюдения особенно важны для прогноза.

Аналогичный прогноз для ряда денежных поступлений П(t) имеет вид:

Прогноз для ряда денежных поступлений П(t)

Полученные месячные прогнозы могут быть использованы также для прогнозирования суммарных годовых поступлений, что особенно важно при определении плановых показателей подразделения на следующий финансовый год и при разработке общей стратегии компании. Отметим в заключение, что вновь поступившие фактические данные с приемлемой точностью подтвердили наши прогнозы месячных денежных поступлений, построенные ранее на июнь – ноябрь 1998 года.

Литература

В.П. Боровиков, И.П. Боровиков "STATISTICA - статистический анализ и обработка данных в среде Windows", М.: "Филин", 1998.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание груповых занятий






info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта