База примеров

Анализ продаж электронной и бытовой техники в системе STATISTICA

Структура данных

Ассоциативные правила

Построение ассоциативных правил

Шаг 1. Импорт данных

Шаг 2. Построение ассоциативных правил

Шаг 3. Анализ результатов

Заключение

Список литературы

Структура данных

Имеется выборка из базы данных компании, занимающейся продажей электронной и бытовой техники. Выборка состоит из 1000 наблюдений (клиенты компании). Ниже приведен фрагмент таблицы.

Табл. 1 Фрагмент таблицы

В таблице данных приводится информация о покупках 1000 клиентов по 10 наименованиям. Если в ячейке таблицы стоит единицы, это означает, что данный покупатель приобрел данный товар.

Например, покупатель, с ID 10385, приобрел музыкальный центр, наушники, домашний кинотеатр, ноутбук, DVD-плеер, ЖК-телевизор, холодильник.

В последнем столбце таблицы содержится информация о том, что воспользовался ли клиент услугами кредита или расплатился за покупки без его помощи.

Понятно, что таблицы подобной структуры содержат большое количество наблюдений и проводить стандартный анализ для них затруднительно и зачастую неэффективно, так как у исследователя отсутствует полное представление о возможных связях, содержащихся в имеющихся данных.

Нашей задачей является определить возможные зависимости между переменными по имеющимся данным при помощи Ассоциативных правил STATISTICA Data Miner.

Анализ предоставленных данных проводился в статистическом пакете STATISTICA 10.

Ассоциативные правила

Анализ Data Mining – Association Rules основан на построении ассоциативных правил связи между наблюдаемыми явлениями.

Ассоциативные правила или правила связи позволяют находить закономерности между связанными событиями (причина обозначается как Body, следствие как Head).

Скажем, покупка домашнего кинотеатра (Body) в 84 % случаях происходит в кредит (Head). При этом покупателей кинотеатра (Head) в кредит (Body) было всего 40% от клиентов в таблице данных.

Здесь 84% – называются достоверностью (confidence) ассоциативного правила:

Body -> Head

«Покупка домашнего кинотеатра» -> «Кредит»,

А 40% - поддержкой (support) этого ассоциативного правила.

Также существует еще одна характеристика связи - корреляция. В некотором смысле, она является нормализованной величиной поддержки.

Значение корреляции для пары кодовых или текстовых значений {Body, Head} вычисляется как поддержка этой пары, деленная на квадратный корень из величины поддержки Body и Head:

- доля покупателей, которые купили кинотеатр.

Определим, какие закономерности можно обнаружить в предоставленных данных с помощью анализа ассоциативных правил.

Построение ассоциативных правил

Шаг 1. Импорт данных

Выберем вкладку Добыча данных (Data Mining), далее Анализ последовательностей, ассоциаций и связей:

Выбираем в качестве источника данных файл AssociationSales.sta, в котором содержится интересующая нас информация.

Рис. 1 Выбор источника данных

В таблице данные переменные принимают только два значения: 1 или 0. И поэтому переменные выберем как многомерные дихотомии (см. рис. 2).

Рис. 2 Выбор переменных

Шаг 2. Построение ассоциативных правил

Параметры:

  • Minimum support (минимальная поддержка),
  • Minimum confidence (минимальная достоверность),
  • Minimum correlation (минимальная корреляция)

определяют нижние границы включения ассоциативного правила в итоговый список.

Рис. 3 Задание параметров анализа

При увеличении данных величин будет уменьшаться количество правил, попадающих в итоговую таблицу. По сути, мы начинаем искать все более и более надежные зависимости в данных. Например, установив минимальный уровень достоверности равный 1, мы получим только те правила (если конечно таковые будут), которые соответствуют следующему принципу: из А всегда (в 100% наблюдений) следует B.

Шаг 3. Анализ результатов

Анализ обнаружил 18 ассоциативных правил, которые удовлетворяют ограничениям на минимальные значения уровня поддержки, достоверности и корреляции.

Табл. 2 Результаты анализа

Поясним, как устроена таблица.

Причина содержится в переменной Body (например, «Принтер = 1»), следствие в Head (например, «Кредит = да»).

Support (Body, Head) («совместная» поддержка) – показывает, для какой доли всех наблюдений верна и причина, и следствие.

Confidence (Body->Head) (достоверность) – показывает, какая доля всех наблюдений, для которых верна причина, верно и следствие.

Также STATISTICA вычисляет величину Correlation (корреляции) – это нормализованная величина поддержки, основанная на поддержке.

Из таблицы, например, можно понять, что люди в 81% случаях покупают холодильник в кредит. Клиенты магазина вместе с ЖК-телевизором покупают DVD-плеер (61%), вместе с компьютером приобретают принтер (85%).

Можно обнаружить и немного неожиданные связи, такие как покупка принтера при приобретении ЖК-телевизора (66%).

Для более наглядного представления правил ассоциаций можно использовать графики правил ассоциаций. Они содержат ту же информацию, что и таблица результатов, однако позволяют визуально сравнивать между собой правила.

Рис. 4 Сети правил ассоциаций

Прокомментируем график: каждая линия, соединяющая круг из причины (Body) с кругом из следствия (Head), означает одно ассоциативное правило.

Чем толще линия (и темнее) соединения, тем выше достоверность правила.

Чем больше (и темнее) размер круга, тем выше уровень поддержки.

При этом размер круга, соответствующего причине (Body) или следствию (Head), означает частоту встречаемости причины или следствия (см. выше комментарии к таблице Support (Body)).

Величина совместной поддержки (Support (Body, Head)) отображается через размер (и цвет) круга посредине (Implies).

Заключение

Построение ассоциативных правил позволяют быстро и наглядно получить первичное представление о зависимостях в данных. Обнаруженные связи между различными факторами позволяют выдвинуть предположения для построения регрессионных и/или нейросетевых моделей.

Таким образом, использование ассоциативных правил позволяет найти на этапе разведочного анализа возможные скрытые зависимости и связи. Также ассоциативные правила позволяют определить наиболее значимые признаки и отбросить несущественные.

Список литературы

  1. В.П.Боровиков. STATISTICA. Искусство анализа данных на компьютере: для профессионалов (2-е издание), СПб.: Питер, 2003. – 688 с.: ил.
  2. Г.И.Ивченко, Ю.И.Медведев. Математическая статистика. – М.: Высшая школа, 1984. – 248 с.
  3. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. – М.: Большая Российская энциклопедия, 2003. – 912 с.
  4. Электронный учебник на www.statsoft.ru

В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание груповых занятий






info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта