База примеров

Анализ причин и следствий дорожно-транспортных происшествий

Введение

Постановка задачи

Описательный анализ

Переменная День недели

Переменная Месяц

Переменная Время

Переменная Категория улицы

Переменная Вид происшествия

Переменная Всего пострадало

Переменная Профиль дороги

Переменная Сооружения

Переменная Освещение

Переменная Состояние погоды

Группа переменных, ответственных за метрические параметры дороги

Переменная Количество участников

Переменная количество ТС

Анализ факторов, влияющих на число пострадавших при ДТП

Резюме

 


Введение

Автомобильный транспорт является самым небезопасным из всех доступных человеку. По всем данным именно ДТП ставят на первое место по числу погибших и пострадавших. По этим параметрам автомобили значительно обгоняют железнодорожный, авиационный и водный транспорт.

Дорожно-транспортные происшествия являются основной причиной гибели людей. Они происходят по многим причинам, среди которых есть как технологические, так и человеческие факторы. Авария может случиться по вине уставшего водителя, из-за обледенения дорожного покрытия или неисправности тормозной системы. Однако на риск попасть в ДТП часто влияют сторонние факторы - такие как день недели, погодные условия и качество асфальтового покрытия.

Выявление факторов, значимо влияющих на риск дорожно-транспортного происшествия при решении задачи повышения безопасности на дорогах должно рассматриваться как приоритетная задача. Это позволит принимать решения, которые действительно смогут устранить сторонние причины аварий. Анализу и выявлению подобных причин и посвящен данный пример.

Результаты и выводы, сделанные здесь, могут быть полезны для повышения безопасности на дорогах или для страховых компаний, планирующих введение программ страхования жизни и здоровья водителей и пассажиров.

Для проведения анализа с целью выявления значимо влияющих на размер ДТП факторов необходим большой объем информации. В самом деле, стоящая задача очень размерна и требует большого числа наблюдений для построения серьезных выводов. В качестве источника информации использовалась база данных по пострадавшим в результате происшествий за несколько лет. Всего доступно около 100000 записей; с помощью случайной фильтрации число исходных записей было сокращено до 10000. Практика сокращения объема выборки часто используется при работе с масштабными источниками - при наличии качественного генератора случайных чисел это не скажется на значимости результата, но приведет к экономии времени.

 


Постановка задачи

После импорта в систему STATISTICA и предварительной чистки файла данных в качестве доступных для интерпретации факторов были взяты около 15 параметров. Их можно условно разделить на «случайные» факторы и «сторонние» факторы. Подробное их описание будет дано в части Описательный анализ.

Целью исследований является выявление факторов, значимо влияющих на число пострадавших в результате ДТП и построение модели, позволяющей давать прогноз числа жертв в аварии. Это необходимо для принятия решений, которые позволят снизить человеческие потери.

Отметим, что для анализа данных подобного объема часто применяют средства Data Mining, которые позволяют анализировать и находить закономерности, недоступные для обычных статистических критериев. Эти методы будут частично использованы для разведочного анализа и прогностического анализа наряду с классическими.

 


Описательный анализ

В качестве меры размера ДТП было выбрано число пострадавших. Данные по ущербу оказались недоступными. В связи с этим в качестве переменной, иллюстрирующий результат ДТП будем использовать количество пострадавших.

Интерес представляет не только поиск зависимости между обстоятельствами дорожного происшествия, но и их статистика. В качестве зависимого фактора для проведения такого анализа будет использоваться само количество ДТП.

Входные данные представляют собой итоговую таблицу, в которой содержится информация о 10600 авариях, произошедших в разных регионах страны на различных дорогах при разных обстоятельствах. Примерный вид таблицы данных приведен ниже.

Источник данных для анализа

Рис. 1. Источник данных для анализа

Первым шагом будет проведение описательных исследований с целью выяснения влияния различных факторов на количество ДТП. Описание основных переменных дано тут же.

Переменная День недели

Это категориальный фактор, отвечающий за день недели, когда произошла авария. Распределение количества ДТП по дням недели очевидно будет неоднородным - в выходные дни, когда на улицах меньше машин, аварии менее вероятны. Это распределение может быть эмпирически получено исследованием частотной таблицы и круговой диаграммы. Результаты приведены ниже.

Круговая диаграмма

Частотная таблица по переменной День недели

Рис. 2. Круговая диаграмма и частотная таблица по переменной День недели

Как видно из частотной таблицы, наиболее аварийными днями являются Пятница (16%), Среда (15,7%) и Четверг (14,8%). Наименьшее количество дорожных происшествий произошло в Воскресение (11%), день, который сильно уступает по числу аварий (14% следующий по аварийности день). Следовательно, конец рабочей недели отмечается большим числом аварий, начало - небольшим, выходные наименее опасны.

Переменная Месяц

Для каждой аварии фиксировался день, когда она произошла. Распределение аварий по месяцам интересно с точки зрения нахождения наиболее аварийных времен года. Приведем круговую диаграмму.

Круговая диаграмма аварийности по месяцам

Рис. 3. Круговая диаграмма аварийности по месяцам

Наибольшее число аварий приходится на апрель и май, наименее аварийным можно считать август. Рост числа ДТП в весенние месяцы можно объяснить плохими погодными условиями, изношенностью дорожного полотна и эмоциональным состоянием водителя.

Переменная Время

При регистрации каждой аварии указывается время, когда она произошла. Значение этой переменной недостаточно точно, из-за особенностей регистрации ДТП, но целью анализа является нахождение наиболее аварийного времени суток. Распределение количества аварий также ожидается неоднородным; логично предположить, что в ночные часы происходит меньше аварий. Приведем гистограмму по количеству аварий в различное время суток.

Гистограмма аварийности в различное время суток

Рис. 4. Гистограмма аварийности в различное время суток

Гистограмма имеет явный пик в период от 18 до 21 часа и явный спад в период с 1 часа ночи до 7 часов утра. Характерно также, что число аварий возрастает в течение всего дня, практически не испытывая спадов. Только пройдя вечерний час пик (19 часов) число ДТП спадает до полуночи. Период с 0 до 1 часа ночи характеризуется локальным пиком аварий, вероятно связанным с закрытием большинства городских объектов.

Интересным является вопрос о виде распределения количества происшествий в зависимости от дня недели и времени. То есть, одинаковый ли вид имеют распределения количества аварий в зависимости от времени суток для каждого дня недели. Для того, чтобы получить эмпирические распределения числа аварий, воспользуемся категоризованными гистограммами.

Категоризованные гистограммы аварийности

Рис. 5. Категоризованные гистограммы аварийности

Из гистограммы видно, что для всех дней недели распределение имеет примерно одинаковый вид с явной модой, приходящейся на вечерний час пик. Характерно, что тенденция к повышению аварийности между полуночью и 1 часом ночи в той или иной мере выделяется для всех дней недели.

Приведем также гистограмму для визуализации распределения числа аварий в зависимости от времени суток и месяца.

Гистограмма аварийности по времени в зависимости от месяца

Рис. 6. Гистограмма аварийности по времени в зависимости от месяца

Август кроме низкого уровня аварийности вообще характерен еще и резким падением числа аварий в вечерние часы. Это может быть связано как с массовым исходом горожан в отпуска, так и набором наиболее благоприятных условий для дорожного полотна.

Переменная Категория улицы

Отражает значение автомагистрали, на которой произошла авария. Так как крупные автострады обладают высоким качеством покрытия и большой шириной проезжей части, можно считать эту переменную агрегатной характеристикой места, где произошла авария. В источнике данных есть информация о ДТП, произошедших на различных дорогах; распределение количества аварий ожидается неоднородным. Приведем круговую диаграмму и частотную таблицу.

Круговая диаграмма аварийности на различных дорогах

Рис. 7. Круговая диаграмма аварийности на различных дорогах

Частотная таблица аварийности для различных дорог

Рис. 8. Частотная таблица аварийности для различных дорог

Заметим, что по 70% аварий нет информации по категории дороги. Для остальных ДТП просматривается явная тенденция к уменьшению количества аварий на крупных магистралях (Магистральная дорога, Магистральная улица районного значения); происшествия на них случаются почти в два раза реже, чем на городских улицах.

Переменная Вид происшествия

Отражает характер произошедшей аварии. Основными типами являются Наезд на препятствие, Наезд на пешехода, Столкновение. Относительные доли каждого вида аварии можно получить при анализе частотной таблицы.

Частотная таблица для различного вида происшествий

Рис. 9. Частотная таблица для различного вида происшествий

Как следует из частотной таблицы, наиболее часто встречающимся видом аварии является наезд на пешехода. Столкновения машин значительно менее вероятны. На долю остальных видов аварий приходится около 13% от общего числа.

Переменная Всего пострадало

Для каждого ДТП фиксировалось количество пострадавших как со стороны нарушителя, так и со стороны пострадавшего. Задача снижения количества жертв и раненых при ДТП является приоритетной для дорожных и правоохранительных ведомств; для данной задачи можно считать эту переменную зависимой. В следующих частях будет рассматриваться способы снижения значения данной переменной для конкретных аварий.

Распределение количества пострадавших имеет сложный вид и зависит от многих факторов, начиная от состояния покрытия, заканчивая освещенностью. Приведем безусловную гистограмму - она способна дать представление о числе пострадавших по всем имеющимся ДТП. Построим частотную таблицу для данной переменной.

Частотная таблица по числу пострадавших

Рис. 10. Частотная таблица по числу пострадавших

Как видно из данной таблицы, при большинстве ДТП пострадал только один человек. Это можно считать следствием большого количества таких происшествий, как наезд на пешехода, когда неизменно один человек является пострадавшим. Число аварий, в которых пострадало 2 человека, меньше почти на порядок, доля аварий с большем числом жертв ничтожна.

Исследование распределения данной переменной позволяют сделать вывод о том, что число аварий с большим числом пострадавших невелико. Наиболее частыми являются ДТП с одним или двумя пострадавшими, что может произойти при столкновении или наезде на пешехода.

Переменная Профиль дороги

Часто причиной аварии является потеря управляемости машины на различных сложных участках дороги. Данные о рельефе местности и характерных особенностях участка, на котором произошла авария, собраны в этой переменной. Подобная информация есть не по всем ДТП; исследование распределения аварий, произошедших на сложных участках может помочь локализовать наиболее опасные факторы. Приведем частотную характеристику аварий.

Частотная таблица для числа аварий на сложных участках

Рис. 11. Частотная таблица для числа аварий на сложных участках

Информация по профилю дороги есть по 20% аварий. По абсолютной величине наиболее аварийными являются горизонтальные участки, за тем следуют дороги с уклоном. Лидерство в этом списке, казалось бы, самых безопасных участков является следствием их явного доминирования на дорогах. В относительном отношении, скорее всего, окажется, что доля аварий, произошедших на уклонах, намного больше, чем на горизонтальных участках.

Переменная Сооружения

Для каждой аварии фиксировалось место и расположенные рядом дорожные сооружения. Примером последних может служить эстакада, остановка общественного транспорта или же пешеходный переход. Интерес представляет распределение различного вида происшествий, произошедших на участках с различными сооружениями. Это распределение может быть получено при исследовании таблиц сопряженности.

Таблица сопряженности вида происшествия и дорожных сооружений

Рис. 12. Таблица сопряженности вида происшествия и дорожных сооружений

В шапках строк таблицы указаны различные виды ДТП, в шапках столбцов- виды дорожных сооружений. В ячейках таблицы представлено количество наблюдений, имеющих пару признаков, на пересечении которых находится ячейка.

Из таблицы можно выяснить некоторые общие закономерности, в соответствие с которыми случаются аварии. Например, наезды на пешеходов происходят на пешеходных переходах или остановках общественного транспорта; столкновения чаще всего происходят на перекрестках. Доли аварий, произошедших на мостах/эстакадах примерно равны. Подавляющее большинство столкновений со стоящим транспортом произошло на прямых участках (перегонах), вероятно при парковке.

Переменная Освещение

Большинство аварий происходит в вечернее время. Зимой это означает, что ДТП произошло в темное время суток. Данные о работе внешних осветительных приборов собраны в значениях этой переменной. Исследуем распределение числа аварий в зависимости от этой переменной и, например, времени суток.

Гистограмма числа аварий в зависимости от времени суток и типа освещения

Рис. 13. Гистограмма числа аварий в зависимости от времени суток и типа освещения

Ближайшие два ряда этой гистограммы представляют наибольший интерес. В самом деле, с первого взгляда они очевидны - в светлое время суток - от 9 до 18 - нет необходимости включать фары, поэтому в первом ряду гистограммы есть провал. Но таблица исходных данных была получена для всех времен года, в том числе и зимы, когда, как известно, пик аварийности (6-8 вечера) приходится на темное время. Следовательно, езда с включенными фарами снижает аварийность даже в светлое время.

Переменная Состояние погоды

Отражает погодные условия, сложившиеся на момент ДТП. Погодный фактор может быть довольно значимым и влияющим на результат; действительно, на мокром или обледеневшем покрытии или же в дождь столкновения более реальны. Приведем круговую диаграмму для этой переменной.

Круговая диаграмма для переменной Состояние погоды

Рис. 14. Круговая диаграмма для переменной Состояние погоды

Большинство аварий происходило в ясную или пасмурную погоду. В данном случае между этими классами переменной разницы нет. Небольшое число аварий в снежную или дождливую погоду говорит о небольшом влиянии этого фактора на аварийность. Ближе к рассматриваемой тематике лежит другой фактор, отвечающий за состояние проезжей части.

Круговая диаграмма для переменной Состояние проезжей части (часть классов пропущена)

Рис. 15. Круговая диаграмма для переменной Состояние проезжей части (часть классов пропущена)

Хотя большинство аварий и произошло на сухом покрытии, доля ДТП с мокрым покрытием достаточно велика. Если найти вероятность аварии в единицу времени, то она явно будет больше для дорог после дождя.

Группа переменных, ответственных за метрические параметры дороги

Сюда относятся ширина проезжей части, ширина разделительной полосы, ширина тротуара. Эта информация доступна не по всем авариям, анализ ее позволит установить влияние данных факторов на аварийность. Приведем трехмерную гистограмму.

Гистограмма аварийности для проезжих частей различной ширины

Рис. 16. Гистограмма аварийности для проезжих частей различной ширины

Глядя на полученную гистограмму, можно выделить несколько характерных особенностей. Во-первых, это небольшое количество аварий, произошедших на нешироких (до 10 м.) дорогах. Максимальное число ДТП произошло на дорогах с шириной проезжей части от 10 до 20 метров. Далее доля аварий снижается, что объяснимо небольшим количеством широких автострад в России. Ширина обочины аналогичным образом влияет на аварийность. На дорогах с широкими обочинами аварий происходит меньше, чем на дорогах с узкими. Заметим также, что широкая обочина обладает свойством сокращать долю аварий даже на узких дорогах.

Таблица данных содержит несколько явных выбросов, данные по которым явно не могут соответствовать реальности. Например, точка в дальнем углу гистограммы должна соответствовать ДТП, произошедшему на дороге с шириной проезжей части около 100 метров и шириной обочины примерно такой же величины. Это возможно только при аварии на крупной развязке с большим числом участников.

Переменная Количество участников

Отражает общее число людей, участвующих в столкновении. Крупные аварии проходят с участием большого количества автомобилей приводят к большому числу пострадавших; но они маловероятны. В базе данных ДТП большая доля происшествий составляет наезды на пешеходов; в этом случае число участников будет равно одному. Если же наезд привел к более тяжелым последствиям или последующим столкновениям, количество участников возрастает. Зависимость числа пострадавших от числа участников очевидна и отражена в следующей диаграмме рассеяния.

Диаграмма рассеяния для количества участников ДТП и числа пострадавших

Рис. 17. Диаграмма рассеяния для количества участников ДТП и числа пострадавших

Приведем также корреляционную матрицу для этих переменных. Так как распределение их далеко от нормального, воспользуемся ранговыми корреляциями.

Корреляционная матрица для указанных выше факторов

Рис. 18. Корреляционная матрица для указанных выше факторов

Отметим, коэффициент оказался равным 60% и высоко значимым. Следовательно, между переменными существует линейная зависимость, и каждый участник ДТП является потенциальным пострадавшим.

Переменная количество ТС

Отражает общее число транспортных средств, участвующих в столкновении. Интересным является зависимость от этого параметра числа пострадавших при аварии. Приведем диаграмму рассеяния.

Диаграмма рассеяния числа пострадавших и количества ТС

Рис. 19. Диаграмма рассеяния числа пострадавших и количества ТС

В отличие от предыдущего случая, зависимости нет практически никакой. Нет необходимости вычислять коэффициент корреляции. В базе содержится информация о ДТП с числом ТС от 1 до 5; число пострадавших для каждого случая не зависит от количества столкнувшихся машин.

Интересной является также зависимость числа пострадавших от двух последних факторов. Для визуализации возможной зависимости построим 3-мерную диаграмму рассеяния и сгладим ее взвешенными наименьшими квадратами. Диаграмма рассеяния приведена ниже.

Диаграмма рассеяния для количества пострадавших

Рис. 20. Диаграмма рассеяния для количества пострадавших

Сглаживание позволило выявить класс аварий с наибольшим числом пострадавших. Это ДТП с большим количеством участников и небольшим (1-2) количеством транспортных средств. Это столкновения сильно загруженных автомобилей, автобусов и микроавтобусов.

 


Анализ факторов, влияющих на число пострадавших при ДТП

Главной задачей данного исследования является выявление факторов, влияющих на число пострадавших при аварии. Эти факторы могут носить как случайный, так и систематический характер. Систематические факторы, такие как состояние дорожного полотна или наличие сооружений, могут быть исправлены с целью понижения числа жертв. Случайные же факторы могут быть исключены превентивными или регулятивными мерами. К примеру, повышением штрафов за нарушения ПДД на сложных участках.

Обобщенной задачей проекта является поиск модели, которая объясняла бы количество пострадавших при ДТП в зависимости от дорожных условий и состояния водителя. Так как не все данные доступны в исходной таблице, построение модели становится трудной задачей. Однако нахождение общих закономерностей, определяющих высокое или низкое число пострадавших, вполне возможно.

В качестве первого шага проведем анализ, позволяющий сократить число предикторов в задаче. Всего доступно около 20 независимых переменных, потенциально влияющих на результат. Работа с таким большим числом предикторов избыточна; лишние переменные зашумляют истинную зависимость и затрудняют ее обнаружение.

Для решения задачи отсеивания признаков аварии воспользуемся соответствующим модулем. В качестве результата приведем график важности предиктора, позволяющий судить о влиянии их на результат.

График важности предикторов

Рис. 21. График важности предикторов

График относит предиктор Вид происшествия к наиболее важным для описания числа пострадавших. Далее следуют переменные Освещение, Сооружения, День недели и время. В качестве последних и наиболее слабо влияющих на результат переменных алгоритм приводит метрические параметры дороги - длину и ширину.

Следующим шагом будет поиск оптимальной модели, позволяющей классифицировать аварии по количеству пострадавших. Это можно сделать несколькими методами, например, с помощью деревьев решений. Полученный результат будет состоять из набора делений, выполняемых по определенному условию на предиктор. Чем раньше будет произведено деление, тем больше его важность.

Для решения задачи мы будем использовать так называемые растущие деревья, в рамках работы алгоритма строится целая система деревьев, все больше и больше уменьшающих ошибку классификации. Приведем некоторые из таких деревьев.

Узел растущего дерева

Узел растущего дерева

Рис. 22. Узлы растущего дерева

Как видно, вид происшествия занимает неизменно высокое место в списке важных предикторов, причем для наезда на пешехода число пострадавших равно 1, а для столкновения - двум и больше. Другой распространенный тип дерева указывает на деление по времени суток - в ночные часы число пострадавших при авариях меньше.

Приведем матрицу ошибочных классификаций для системы деревьев. Матрица приведена для тестовой выборки; в ее узлах на диагонали находится число наблюдений, корректно классифицированных для данного класса переменной.

Матрица классификации для тестовой выборки алгоритма

Рис. 23. Матрица классификации для тестовой выборки алгоритма

Для исследования факторов, влияющих на аварийность, воспользуемся методами Дисперсионного анализа. В качестве предикторов взяты переменные из числа отобранных при отсеве признаков. Результаты таковы.

Результаты ДА

Рис. 24. Результаты ДА

В модель вошли переменные День недели, месяц, тип происшествия и Освещенность. F-критерий доказал высокую значимость деления аварий на классы по указанным выше параметрам. Тем не менее, низкий коэффициент детерминации указывает на недостаточность знания только этих признаков для полной определенности числа пострадавших, что неудивительно. Приведем ряд графиков, иллюстрирующих разброс в числе пострадавших.

График среднего числа пострадавших по месяцам

Рис. 25. График среднего числа пострадавших по месяцам

Как видно, этот график почти полная противоположность графика аварийности по месяцам. Июль в данном случае выступает как месяц максимально жестоких аварий, в то время как ноябрь является месяцем с наименьшим средним числом пострадавших при аварии. Аналогично, в апреле-мае наступает сильный рост числа аварий, но они заканчиваются небольшим числом пострадавших.

Среднее число пострадавших по дням недели

Рис. 26. Среднее число пострадавших по дням недели

Этот график также явно противоположен диаграмме числа аварий. Как видно, в выходные происходят аварии с достаточно большим числом жертв, в то время как количество самих ДТП невелико.

Выводы, которые позволяют сделать эти два графика, неочевидны с начала. Во-первых, самое аварийное время года и день недели являются одновременно аутсайдерами по среднему числу пострадавших, в то время как периоды с большим числом аварий имеют низкий средний уровень пострадавших.

Дополнительным фактором в модели является фактор освещенности при аварии. Приведем график среднего числа пострадавших для аварий с различными режимами работы световых приборов.

Среднее число пострадавших в авариях с различной освещенностью

Рис. 27. Среднее число пострадавших в авариях с различной освещенностью

Здесь есть тенденция к увеличению числа жертв при столкновениях с неработающими фарами. Наименее жестокие аварии происходят в светлое время суток.

В качестве следующего шага построим модель для предсказания количества пострадавших в аварии. В качестве зависимых переменных возьмем День недели, категорию улицы и время ДТП. Результаты применения методов ДА таковы.

Результаты применения ДА

Рис. 28. Результаты применения ДА

Как видно, критерий оказался высоко значимым с высоким коэффициентом детерминации, что говорит о важности факторов, вошедших в модель. Приведем ряд графиков, характеризующих зависимость среднего числа аварий от категории улицы и дня недели.

Среднее количество жертв аварии на различных улицах

Рис. 29. Среднее количество жертв аварии на различных улицах

Здесь мы видим незначительные различия в средних уровнях, главным образом в конце недели. На магистральных дорогах среднее число пострадавших больше.

Среднее количество жертв аварии на различных улицах

Рис. 30. Среднее количество жертв аварии на различных улицах

Для дорог с более низким статусом имеют пик среднего числа пострадавших в выходные. Местные дороги характеризуются некрупными авариями.

Интересной также является зависимость количества пострадавших от метрических параметров или прочих числовых значений, используемых при анализе. Число их невелико, но для имеющихся можно построить непараметрическую корреляционную матрицу.

Непараметрическая корреляционная матрица

Рис. 31. Непараметрическая корреляционная матрица

В первую очередь интерес представляют корреляции переменной Всего пострадало. Значимыми оказались всего 2 параметра для этого столбца - отражающие количество транспортных средств и ширину проезжей части. Обе корреляции достаточно низкие, что говорит о неопределенности влияния этих факторов на количество пострадавших.

Приведем результаты исследования количества пострадавших в зависимости от некоторых других факторов, не вошедших в ранее рассматриваемые модели. Это, в первую очередь, факторы состояния дороги. Для исследований можно воспользоваться однофакторным ДА. Приведем результаты группировки и однофакторного ДА.

Для группирующего фактора Сооружения результаты таковы:

Результаты применения ДА

Рис. 32. Результаты применения ДА

График среднего числа пострадавших для ДТП около различных сооружений

Рис. 33. График среднего числа пострадавших для ДТП около различных сооружений

Группы ДТП с различием по сооружениям, на которых они происходили являются действительно различными по среднему количеству пострадавших. При этом надежны результаты для всех классов, кроме Нерегулируемый ЖДП, ЖДП без дежурного, Тоннель. Видно, что аварии на мостах и эстакадах, а также на перекрестках выделяются по количеству пострадавших. Аварии же на пешеходных переходах происходят с меньшим количеством жертв.

Для аварий, сгруппированных по состоянию покрытия, результаты применения ДА таковы.

Результаты применения ДА

Рис. 34. Результаты применения ДА

Результаты применения ДА для группировки по типам покрытия

Рис. 35. Результаты применения ДА для группировки по типам покрытия

Как и в предыдущем случае, критерий не отвергает гипотезу о равенстве средних в группах. Тип покрытия также оказывается нейтральным по отношению к количеству пострадавших.

Осталась переменная, отвечающая за профиль дороги, на которой произошло столкновение. Результаты применения однофакторного ДА приведены ниже.

Результаты применения ДА

Рис. 36. Результаты применения ДА

График среднего числа пострадавших на дорогах с уклонами

Рис. 37. График среднего числа пострадавших на дорогах с уклонами

Критерий Фишера указывает на то, что среднее число пострадавших в авариях на различных участках сильно отличаются. Из графика видно, что группы являются сильно неоднородными и в случае аварий на вершине подъема число жертв наибольшее. Причиной этого может быть то, что на вершине подъема скорость машин максимальна и при лобовом ударе у пассажиров практически нет шансов.

Рассмотрим более подробно статистику различных типов происшествий. Очевидно, что распределение числа пострадавших при различных авариях будет неоднородно в зависимости от времени. При столкновении в дневные часы вероятность получить травму должна быть меньше, в то время как столкновения в вечернее время (час пик) должны характеризоваться большим числом пострадавших.

Чтобы не слишком дробить группы и снижать количество наблюдений в каждой из них, введем категоризующую переменную, отвечающую за время дня. Всего у нее будет 4 класса, отвечающие за ночное время (0-7), утро(8-12), день (13-17) и вечер (18-23). Внутри групп распределение числа аварий более или менее однородное.

Для анализа среднего числа пострадавших в различное время дня воспользуемся средствами Дисперсионного анализа. В качестве элементов модели были взяты Время дня, Тип происшествия и взаимодействие этих факторов. Результаты приведены ниже.

Результаты использования ДА

Рис. 38. Результаты использования ДА

Критерий Фишера позволяет отвергнуть гипотезу об однородности групп, что позволяет говорить об их различии. Следовательно, деление всех аварий различного типа на произошедшие в различное время дня значимо влияет на число пострадавших (межгрупповая дисперсия в 63 раза больше внутригрупповой).

Однако значимость различия не дает ответ на вопрос о том, в каких авариях больше людей страдает. График среднего числа пострадавших для различных групп приведен ниже.

График средних с ошибками для ночного и утреннего периода

Рис. 39. График средних с ошибками для ночного и утреннего периода

Как видно, для различных типов происшествий среднее число пострадавших различается в зависимости от времени дня. Столкновения в ночное время в полтора раза более жестоки - число пострадавших больше. То же самое имеет место и с наездом на препятствие - в ночное время они, должно быть, происходят на большей скорости, что приводит к травмам или жертвам. Кажется, что в утренние часы повышается число жертв при опрокидывании, но этот результат недостаточно надежен из-за небольшого числа наблюдений.

График средних с ошибками для дневного и вечернего периода

Рис. 40. График средних с ошибками для дневного и вечернего периода

Для дневного и вечернего периода видны значимые различия в среднем чисел пострадавших при различных авариях. Для таких происшествий, как столкновение или наезд на стоящее ТС число пострадавших выше в вечернее время. При наезде на пешехода стабильно число пострадавших равно 1, нет смысла проводить дальнейшую группировку. При таком происшествии, как Опрокидывание, среднее число пострадавших совпадает.

Заметен пик среднего числа пострадавших при ночных столкновениях и наездах на препятствие. Действительно, ночью, по свободным трассам автомобили движутся с достаточно большой скоростью, и при столкновении нет возможности избежать большого числа пострадавших. Вечерний период отмечен большим числом пострадавших при наездах на стоящие ТС.

При наезде на пешехода всегда фиксировалось число пострадавших, равное 1, что не допускает дальнейшую группировку данных. Но эта группировка не требуется, так как исследования в этом направлении не имеют смысла.

 


Резюме

Проведенные исследования были относительно поверхностными и позволили выделить ряд факторов, влияющих на общее количество аварий и на количество пострадавших. Были проанализированы как временные(день, час), так и систематические факторы (состояние дороги). Из них были выделены действительно влияющие на результат и приведены оценки средних в различных группах.

Для общего числа аварий можно сделать следующие выводы:

  • Для числа аварий в единицу времени есть четкая и сильная временная зависимость. Число аварий больше в апреле-мае, меньше – в зимние месяцы. Пик аварийности каждый день приходится на вечерние часы, когда люди возвращаются с работы. Наибольшее количество ДТП происходит в конце рабочей недели, наименьшее – в выходные.

  • На аварийность сильно влияют систематические факторы, такие как состояние погоды, наличие сооружений, состояние покрытия. Влияет и освещенность (работа световых приборов), причем включенные фары снижают аварийность и в сумеречное/светлое время.

  • Наиболее часто регистрируются наезды на пешеходов и мелкие столкновения с 1-2 пострадавшими. Столкновения в основном происходят на перекрестках, а наезды – на пешеходных переходах.

  • Аварии на крупных магистралях происходят реже, чем на некрупных дорогах, но характеризуются большим числом пострадавших.

Что касается числа пострадавших при авариях, здесь можно сделать следующие выводы:

  • Есть четкие и сильные временные факторы в зависимости числа пострадавших от характеристик аварии, причем периоды, характеризующиеся спадом аварийности, имеют высокое среднее число пострадавших.

  • Наибольшим числом пострадавших характеризуются аварии с большим числом участников (людей). Но небольшим числом машин.

  • Число пострадавших почти не подчиняется систематическим факторам, таким как состояние дороги или погоды.

  • При построении модели зависимости числа пострадавших от параметров аварии наиболее значимыми факторами выделяются Тип происшествия и временные параметры.

  • Аварии на небольших дорогах характеризуются небольшим числом пострадавших, на крупных же автострадах число жертв растет.

Проведенные исследования носят по большей части поверхностный характер и не дают окончательного ответа на вопрос о модели, определяющей количество пострадавших. К сожалению, для проведения детальных исследований не достает информации систематического характера, такой как обстоятельства столкновения, состояние водителя, скорость движения и т.д. Эти параметры, очевидно, непосредственным образом влияют на исход ДТП. Также может быть полезным исследование случайных факторов на количество пострадавших. Это может дать информацию, ценную для автопроизводителей о слабых местах в конструкции автомобиля.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание групповых занятий

 

 





info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia, 2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта