База примеров

Оценка распределения размера убытков

Данный пример иллюстрирует применение Актуарного калькулятора

Содержание

Исходные данные

Оценка параметров распределения

Подгонка функции распределения

Вычисление моментов распределения совокупного убытка

Аппроксимация закона распределения дискретным распределением

Литература

 

Исходные данные

Для примера рассмотрим таблицу данных, содержащую информацию о распределении размера убытка в огневом страховании сталелитейных заводов (размеры убытков измеряются в тысячах).

Рис. 1

Рис. 1

Данные представлены в агрегированной форме: известно только количество убытков в зависимости от размера убытков; при этом возможные размеры убытков разбиты на 20 интервалов. По этим данным вычислим для каждого интервала размеров убытков следующие величины:

  • Концентрация убытков (число убытков размера 1000 для соответствующего интервала размеров убытков): Ai/(ci+1 - ci);

  • Логарифм от размера убытков;

  • Логарифм от концентрации убытков.

Рис. 2

Рис. 2

По гистограмме концентрации убытков видно, что в большинстве интервалов наблюдается сравнительно маленькая концентрация.

Рис. 3

Рис. 3

Более того, имеет место «несимметричная» структура убытков - много мелких убытков и мало крупных, что отчётливо видно на приведённой ниже диаграмме рассеяния (гистограмма построена по четвёртому и пятому столбцам таблицы данных).

Рис. 4

Рис. 4

Такое же наблюдение можно сделать и по линейному графику переменных, равных логарифмам от концентрации убытков (красная линия) и размера убытка (синяя линия).

Рис. 5

Рис. 5

Для визуального анализа данных можно использовать и более экзотические средства. Например, пиктографик Лица Чернова. Каждое лицо символизирует одно наблюдение, при этом ширина лица соответствует логарифму от размера убытка, а уровень уха – логарифму от концентрации убытков.

Несложно заметить, что лица постепенно расширяются, а уши опускаются.

Рис. 6

Рис. 6

Следует отметить, что подобная ситуация часто встречается на практике при анализе размеров убытков.

 


Оценка параметров распределения

Сначала следует выбрать наиболее подходящий метод для оценки параметров.

Напомним, что в случае агрегированных данных использование метода моментов затруднительно.

Метод максимума правдоподобия не эффективен, так как нас интересует, прежде всего, распределение концентрации убытков в области больших убытков.

Из описанных нами методов остаётся два – метод хи-квадрат и (изменённый) метод наименьших квадратов. Будем использовать второй метод для оценки параметров, а первый – для проверки качества подгонки модели (см. пункт 2).

Итак, нашей ближайшей целью будет осуществление подгонки параметров распределения методом наименьших квадратов для пяти моделей, реализованных в Актуарном Калькуляторе.

Распределение Парето мы не будем рассматривать, так как оно годится только для области больших убытков, а мы собираемся получить результаты, пригодные для всего диапазона изменения.

Как было описано в теоретической части, требуется сравнить значения статистики

Формула

для различных значений параметров.

Для этого нам понадобятся значения F(ci).

Возможны различные ситуации:

1) Приближённые значения параметров либо известны, либо могут быть вычислены (например, с помощью индивидуальной модели). В этом случае с помощью Актуарного Калькулятора можно составить таблицу значений F(ci) для всех значений параметров, близких к предполагаемым.

2) Получить информацию о приближённых значениях невозможно. В этом случае рекомендуется либо решить задачу аналитически (приравнять к нулю производные по параметрам), либо составить полную таблицу значений F(ci). Последнее вполне разумно в случаях, когда требуется знать значения параметров с точностью до 0,5, или же если Вы часто сталкиваетесь с подобными задачами.

Как правило, особенно важно знать поведение размеров убытка в области больших убытков. Поэтому сначала оценим параметры только для восьми интервалов (размеры от 15 до 5000), а затем и для всех двадцати интервалов. Результаты представлены в таблице:

Рис. 7

Рис. 7

 


Подгонка функции распределения

Предположим, что мы каким-либо образом (один из способов представлен в пункте 1) оценили значения параметров. По сути, мы уже имеем 5 моделей, из которых надо выбрать наиболее подходящую.

Будем использовать критерий хи-квадрат: если значение статистики

Формула

(где Ai - наблюдаемые количества убытков, а Bi = N( F(ci+1) - F(ci)) - ожидаемые) слишком велико, а именно больше правого  p-квантиля распределения хи-квадрат с I-3 степенями свободы, то выбранная модель не соответствует истинному распределению c вероятностью 1-p (мы будем использовать значение p=5%).

Сначала проверим качество подгонки модели по области больших убытков (размеры убытков более 15). Так как количество интервалов равно 8, то для применения критерия нам необходимо вычислить 95%-квантиль распределения хи-квадрат с 5 степенями свободы. Это можно сделать с помощью «обычного» Калькулятора вероятностных распределений, входящего в блок STATISTICA Base.

Рис. 8

Рис. 8

Итак, квантиль приближённо равен 11.

Теперь вычислим значение статистики хи-квадрат для всех построенных моделей.

Для вычисления значений Fi = F(ci+1) - F(ci) удобно воспользоваться группой кнопок Локальные моменты. А именно, нужно выполнить следующие действия:

1) выбрать соответствующее распределение;

2) ввести вычисленные для выбранного распределения параметры;

3) ввести в поля a и b значения границ интервалов (cи ci+1);

4) нажать кнопку Вычислить.

Тогда в поле 0 группы моменты появится значение величин Fi.

Указанную последовательность действий нужно повторить для каждого интервала [ci+1, ci]. По найденным значениям можно вычислить значение статистики хи-квадрат.

Затем можно перейти к следующей модели распределения.

Полученные результаты представлены в таблице.

Рис. 9

Рис. 9

Согласно критерию, логарифмированное распределение Лапласа следует исключить из дальнейшего рассмотрения. Однако мы пока не будем этого делать.

Следующий шаг – сравнение ожидаемого и реального количеств убытков. В этом нам поможет метод минимума хи-квадрат.

Если считать совокупное число убытков N - свободным параметром, то условие минимальности статистики приведёт к уравнению dT/dN=0, что равносильно оценке:

Формула для N

Суммирование, также как и раньше, ведётся только по интервалам рассматриваемого диапазона значений убытка.

Вычислим по этой формуле значения как для области больших убытков, так и для совокупной области. При этом мы разобьём область больших убытков на область «просто больших» (интервал [15; 5000)) и «очень больших» убытков (интервал [5000; )).

Полученные результаты представлены в таблице:

Рис. 10

Рис. 10

По исходной таблице данных можно легко получить истинные (наблюдаемые) значения трёх величин, подсчитанных в трёх последних столбцах – 2961, 741 и 4 соответственно.

Модель, построенная с помощью логарифмированного распределения Лапласа, с одной стороны, точнее других моделей соответствует совокупному ожидаемому числу убытков (2961). С другой стороны, в наиболее важной для нас области (особенно в области «очень больших» убытков), модель заметно уступает. Ранее мы уже отмечали «нестыковку» модели Лапласа и реальных данных. Взвесив все аргументы, всё же отклоним это распределение.

При подгонке модели следует учитывать, что данным из последнего столбца можно доверять не для всех распределений. Дело в том, что распределение Парето с нулевой точкой и логарифмированное логистическое распределение не применимы в неограниченной форме, так как их математическое ожидание существует только для a>1, а дисперсия – для a>2. Условие a>2 по сути означает, что в области больших убытков введённая функция Формула для g(x)приближается к значению 3 или превышает его. Для практики такая ситуация не характерна, поэтому распределения обычно отсекают справа. В качестве точки отсечения целесообразно выбирать оценку вероятного максимального убытка.

Итак, наиболее «безопасными» распределениями являются логнормальное и распределение Вейбулла. Но вычисленное по модели, построенной на распределении Вейбулла, значение ожидаемого числа убытков (6754,7) явно не соответствует истинному значению (2961).

Поэтому в данном примере рекомендуется выбрать логнормальное распределение.

В заключении проведём аналогичный анализ, но на основе всех 20 интервалов размера убытка.

Рис. 11

Рис. 11

Значение 95%-квантилия распределение хи-квадрат с 17 степенями свободы равно 27,6. Величины в четвёртом столбце попадают в область правого хвоста (исключение составляет распределение Парето с нулевой точкой). Большие значения в последней колонке свидетельствуют, что соответствие мелким убыткам достигается за счёт значительного ухудшения соответствия в области мелких убытков.

Поэтому при подгонке распределения не обязательно строго следовать правилам математической статистики. Вполне разумно строить модель так, чтобы оно достаточно хорошо описывало область больших убытков, а на совокупном интервале не превосходило порогового значения хи-квадрат.

 


Вычисление моментов распределения совокупного убытка

Напомним, что формулы распределения совокупного убытка, приведённые в теоретической части, были выведены в предположении, что размер убытка (а, значит, и любая функция от размера убытка – например, средний размер) не зависит от количества произошедших убытков. Будем считать, что это условие выполнено.

Тогда мат. ожидание и дисперсию следует вычислять по формулам:

Формула

где N – число убытков заданного портфеля в интересующем временном промежутке (как правило, это один год), а X – случайная величина, имеющая такое же распределение, как и размеры убытков номер 1, 2, ..., N.

Первый момент распределения величины N находится аналитически. Заметим, что в случае распределения Пуассона мат. ожидание и дисперсия в точности равны параметру распределения. Поэтому, как несложно показать, мат. ожидания числа убытков в j-ом году равно:

Формула

где νj – объём портфеля в j-ом году (формула написана в предположении, что мат. ожидание качества j-ого года Qj равно 1).

Сделаем попутное замечание о вычислении второго момента распределения величины N (для решения поставленной задачи нам не потребуется). Здесь возникают некоторые трудности. Дело в том, что разумного «избавления от знания распределения Qj» не существует. В большинстве ситуаций для вычисления дисперсии верна формула

Формула

Осталось найти первый и второй моменты распределения величины X. В этом нам поможет Актуарный калькулятор. Выберем соответствующее распределение, введём в поля Границы группы Локальные моменты такие значения, чтобы в поле 0 отобразилось число, близкое к 1 (например, в случае логнормального распределения с параметрами, равными 1, можно ввести значения a=0 и a=50). Тогда значения в полях 1, 2 будут приблизительно равны первому и второму моментам. Следует отметить, что точные значения иногда вообще не существуют. Поэтому воспользоваться таким приближением – вполне разумно.

 


Аппроксимация закона распределения дискретным распределением

Потребность в такой задаче может возникнуть, например, при вычислении функции распределения совокупного убытка (см. теоретическую часть).

Итак, пусть нам требуется аппроксимировать функцию логарифмированного распределения Лапласа с параметром формы, равным 2 и скалярным параметром, равным 3. Построим с помощью Актуарного Калькулятора график функции плотности.

Рис.12

Рис. 12

Шаг 1. Вычисление «правого конца дискретизации» (в качестве «левого конца дискретизации» разумно выбрать 0). Необходимо выбрать максимальное значение, в котором будет сосредоточена вероятностная масса дискретного распределения. Введём в поле p значение 0.95 и нажмём кнопку Вычислить. Тогда в поле Z будет выведено значение 9.48683. Для большей наглядности будем использовать значение 10.

Шаг 2. Выбор параметров дискретизации.

Выберем количество интервалов K. Напомним, что K должно быть чётным числом. Положим, например, K=20.

Значение шага дискретизации h следует вычислить из уравнения K*h = 10, то есть h=0.5.

Шаг 3. Вычисление Ai, Bi, Ci, i=0,2,4,...(K-2).

Напомним определение этих величин.

Формула

Другими словами, Ai, Bi, Ci есть соответственно локальные моменты порядка 0, 1 и 2 для отрезка [ih; (i+2)h].

Вычисление производится с помощью окна Локальные моменты. Полученные результаты представлены в таблице.

Рис. 13

Рис. 13

Шаг 4. Вычисление ai, bi, ci,  i=0,2,4,...,(K-2). Напомним, что:

ai, bi, ci

ai, bi, ci

Напишем простенькую программу на STATISTICA Visual Basic, производящую вычисления по этим формулам.

Рис. 14

Рис. 14

После запуска этого макроса, в таблице появятся 3 новых столбца:

Рис.15

Рис. 15

Шаг 5. Вычисление вероятностей дискретизации.

Вычисления производятся по формулам:

fk

Некоторые значения fk получились отрицательными. На результаты дальнейших вычислений (например, использование формулы Пейнджера) этот факт не окажет значимого влияния.

 


Литература

1) Мак Т. Математика рискового страхования. М.: Олимп-бизнес, 2005.

2) Боровиков В.П. STATISTICA: искусство анализа данных на компьютере. СПб.: Питер, 2003.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание груповых занятий






                info@statsoft.ru         +7 (495) 787-77-33      +7 (499) 674-06-15          STATISTICA 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2023

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта