База примеров

Интерактивное бурение

Первым шагом во многих проектах добычи данных является интерактивное исследование данных с целью получения первоначального представления о типах переменных, используемых в анализе, и возможных взаимосвязях между ними. Система STATISTICA и модуль STATISTICA Добыча данных, в частности, предлагают широкий набор как методов разведочного анализа (EDA), так и методов графического анализа (графическая или визуальная добыча данных). Задача Интерактивного бурения состоит в том, чтобы предоставить пользователю инструмент анализа, сочетающий графические и разведочные методы, который позволит быстро определять распределения переменных и связи между ними, а также определять наблюдения, принадлежащие неким специфическим группам данных. 

Интерактивное бурение

Короткий пример

Мы рассмотрим простой пример, чтобы дать пользователю некоторое представление об Интерактивном бурении. Пусть у нас имеются данные о Поле, Возрасте, Месте жительства, Заказанном продукте (A, B или C), Доходе и Уровне образования всех ваших клиентов. Интерактивное бурение позволяет выбрать интересующие вас переменные (например, все вышеперечисленные) и затем "пробурить" их, просто нажимая на специальные кнопки на соответствующих гистограммах, чтобы ответить на такие несложные вопросы, как:

  • "Мужчины или женщины в выборке, обладают более высоким уровнем образования?"

или на более сложные:

  • "Правда ли, что только высокообразованные женщины с низким уровнем дохода в основном покупают продукт A, реже покупают продукт B и никогда не покупают продукт C, причем это правило справедливо только для жителей Восточного побережья?"

 


Как работает интерактивное бурение

Термин "бурение", в контексте добычи данных, вполне раскрывает возможности этого метода: программа позволяет вам выбирать наблюдения из большого набора данных, с помощью выделения в нем подгрупп, характеризующихся определенными значениями или диапазонами значений переменных. В некотором смысле вы можете добираться до самых "глубоких слоев" данных, рассматривая все более узкие подмножества наблюдений, строящихся на основе все более сложных условий выбора (в отличие от условий выбора наблюдений в системе STATISTICA).

Пример 1

Данный пример основан на стандартном наборе данных STATISTICA, который содержится в файле Sports.sta. В нем содержатся результаты соц. опроса завсегдатаев спортивных баров относительно их спортивных интересов. Чтобы выразить свои предпочтения относительно различных видов спорта, респондентам были предложены следующие варианты ответа: Always, Usually, Sometimes и Never, в качестве ответа на вопрос, как часто им бывает интересно смотреть соответствующие спортивные передачи.

Шаг 1. Открываем файл Sports.sta.


 Увеличить

Шаг 2 . Запускаем модуль «Интерактивное бурение».

Запуск модуля «Интерактивное бурение»

Шаг 3. В диалоговом окне «Бурение» выберем категориальные переменные Football - Baseball . Добавим флажок в поле «Автообновление результатов».

Модуль «Интерактивное бурение»

Просмотрим статистики для переменных бурения. Для примера, отобразим гистограмму для переменной Football и таблицу частот для переменной Baseball.

Гистограмма для переменной Football и таблица частот

На гистограмме видно, что 38 человек ответили, что они всегда с интересом смотрят Футбол (ответ Always). Вы также видите таблицу частот для другой популярной игры - Бейсбола.

Теперь, предположим, что вы хотите выбрать 38 человек, которые выразили сильный интерес к футболу (в колонке Football стоит значение Always), чтобы более подробно изучить эту группу. Бурение позволяет выделить этот столбец, "забуриться", и затем проводить разного рода анализ всех остальных переменных, но только на выбранном подмножестве наблюдений. Например, проанализируем столбец со значениями Always.

Шаг 4. Во вкладке «Операции бурения» нажимаем кнопку «Вниз». Далее выбираем категорию «Always» и нажимаем OK.

Выбор категории

Результат будет следующим:

Гистограмма для переменной Baseball и таблица частот

Заметьте, что таблица частот по столбцу Baseball автоматически обновляется в соответствии с выбором Football-Always. Теперь вы можете "забуриться" еще глубже, выбирая, к примеру, только тех респондентов, которые выбрали ответ Always в графе Baseball, и т.д.

Категориальные и непрерывные переменные. Для выполнения бурения могут быть выбраны категориальные и непрерывные переменные. Проведение бурения категориальных переменных осуществляется довольно просто, так как данные уже разделены на категории (например, переменная Gender делит наблюдения на две категории: Male и Female). Для непрерывных переменных существует несколько способов разбиения на группы: можно задать число категорий, на которое требуется разбить множество, можно задать длину шага, чтобы получить упорядоченные категории, а также можно задать границы для непрерывных переменных бурения. Например, для непрерывной переменной Income (доход) можно задать "рамки", и затем провести в них бурение, чтобы узнать распределение переменных внутри каждой "рамки".

Изучение конкретных наблюдений. На каждом шаге вам захочется "извлечь" наблюдения, принадлежащие соответствующему подмножеству. Например, если набор данных содержит адреса респондентов, можно выбрать из них тех, кто сильно интересуется Футболом и Бейсболом (Football=Always и Baseball=Always) и послать им по почте приглашение на спортивное мероприятие.

Бурение "вверх". Модуль Интерактивное бурение позволяет не только "бурить в глубину" вашу базу данных (выбирать группы наблюдений посредством последовательного усложнения условий выбора), но также осуществлять "бурение вверх": в любой момент вы можете отменить условие, наложенное на одну из выбранных ранее переменных. В процессе дальнейшей обработки данных программа будет использовать лишь те данные, которые удовлетворяют оставшимся условиям. 

 


Применение Интерактивного бурения

Пример, описанный выше, очень прост, и дает представление только об основных возможностях программы. Настоящая сила модуля STATISTICA Интерактивное бурение заключается в автоматической корректировке вспомогательных результатов в процессе бурения: вы можете проводить следующие виды анализа на выбранном подмножестве наблюдений: 

  • Описательные статистики и таблицы частот;

  • Диаграммы размаха, дающие представление о распределении непрерывных переменных;

  • Матричные диаграммы рассеяния, дающие представление о связях между непрерывными переменными;

  • А так же любой другой вид анализа, который позволяет провести система STATISTICA, с помощью извлечения выбранного подмножества наблюдений;

Так, например, вы можете ознакомиться со списком покупок, сделанных покупателями с разными демографическими характеристиками; изучить эффективность определенных лекарств для людей различных возрастных категорий и т.п.; или извлечь группу людей, которые, судя по проведенным методом бурения исследованиям рынка, будут покупать новый продукт компании. 

 


Сравнение Интерактивного бурения с OLAP (On-Line Analytic Processing) технологиями

Нетрудно заметить, что функциональность модуля Интерактивное бурение в своих простейших аспектах схожа с инструментами, которые предоставляет OLAP технология (такими как те, что предложены в дополнительном OLAP модуле для STATISTICA Добытчик данных). OLAP инструменты позволяют пользователям быстро извлечь из базы данных наблюдения и общую информацию об этих наблюдениях с помощью оптимизированных возможностей OLAP сервера, специфических для каждой СУБД (например, Oracle или MS SQL Server), и зачастую обеспечивает значительное улучшение качества по сравнению с обычными, не OLAP, способами построения запроса. Основными преимуществами модуля STATISTICA Интерактивное бурение над OLAP - инструментами являются:

(a) Его тесная интеграция с гибкими инструментами категоризации и исследовательскими возможностями системы STATISTICA. Аналитические возможности модуля STATISTICA Интерактивное бурение (который имеет функцию бурения "вверх" и позволяет быстро строить сложные графики, подробные описательные статистики и т.д.), намного полнее, чем обычные OLAP-инструменты.

(b) Тот факт, что модуль STATISTICA Интерактивное бурение не привязан ни к какой специальной платформе (системе управления базами данных) и не требует наличия OLAP сервера (например, он может оперировать непосредственно с файлами данных формата системы STATISTICA). В то же время, осуществляя соединение приложения STATISTICA с (удаленной) базой данных, вы можете эффективно проводить бурение любого источника данных, вне зависимости от того, доступны ли OLAP инструменты на сервере.

 


Автоматически обновляющиеся после каждого бурения графики и итоговые статистики

Вы можете настроить модуль Интерактивное бурение таким образом, что результаты анализа будут обновляться автоматически, после каждой операции бурения. На Стартовой панели установите флажок Автоматически обновлять результаты, либо флажок Автономные таблицы и графики... на вкладке Опции, что приведет к тому же эффекту (две эти опции связаны, так что при выборе одной из них, автоматически будет выбрана и другая). После этого все таблицы результата (кроме таблиц исходных данных, сгенерированных после нажатия на кнопку Сохранить текущие данные на вкладке Быстрый) и графики будут выводиться на экран в отдельных окнах и автоматически обновляться после каждой операции бурения (как "вверх", так и "вниз").

Пример 2

Откройте файл данных Employees.sta. Он содержит некоторую (фиктивную) информацию о сотрудниках компании Sooner Pretzel Company. Откройте окно Интерактивное бурение - Стартовая панель, нажмите кнопку Переменные бурения и выберите переменные Gender, Depart и Educ,  как категориальные переменные бурения. Затем на вкладке Просмотр нажмите кнопку Отображать переменные и выберите переменные Senior (стаж) и Salary.

Установка автоматического обновления

Потом установите флажок Автоматически обновлять результаты на Стартовой панели, либо флажок Автономные таблицы и графики... на вкладке Опции, что приведет к тому же эффекту (две эти опции связаны, так что при выборе одной из них, автоматически будет выбрана и другая). Вернитесь на вкладку Просмотр и нажмите на кнопку Матричная диаграмма рассеяния и на кнопку Гистограммы (если на экране появится слишком много гистограмм, вы можете закрыть те, которые не представляют интереса. Автоматически обновляться будут только оставшиеся на экране гистограммы).

Теперь вы можете проводить операции бурения, причем после каждой операции гистограммы и матричная диаграмма рассеяния будут меняться, в зависимости от выбранного (с помощью бурения) множества наблюдений.

Например, на рисунке ниже изображены графические результаты по мужчинам, служащим в отделе упаковки.

Корреляции и гистограмма

Проводя интерактивное бурение с помощью автономных графиков и таблиц, можно легко определять различия между группами по выбранным для анализа переменным.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание групповых занятий

 

 





info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта