Уникальные возможности STATISTICA Data Miner

Что такое Data Mining?

Сам термин Data Mining переводится как "извлечение информации" или "добыча данных". Нередко рядом с Data Mining встречаются слова knowledge discovery - "обнаружение знаний" и Data Warehouse - "хранилище данных". Возникновение указанных терминов, которые являются неотъемлемой частью Data Mining, связано с новым витком в развитии средств и методов обработки и хранения данных.

Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных, образно говоря, в "нахождении золотых песчинок в огромной куче руды". Дело в том, что человеческий разум сам по себе не приспособлен для восприятия больших массивов разнородной информации. В среднем человек, за исключением некоторых индивидуумов, не способен улавливать более двух-трех взаимосвязей даже в небольших выборках. Но и традиционная статистика, долгое время претендовавшая на роль основного инструмента анализа данных, также нередко пасует при решении задач из реальной жизни. Она оперирует усредненными характеристиками выборки, которые часто являются фиктивными величинами (средней платежеспособностью клиента, когда в зависимости от функции риска или функции потерь, вам необходимо уметь прогнозировать состоятельность и намерения клиента; средней интенсивностью сигнала, тогда как вам интересны характерные особенности и предпосылки пиков сигнала и т.д.). Поэтому методы математической статистики оказываются полезными главным образом для проверки заранее сформулированных гипотез, тогда как определение гипотезы иногда бывает достаточно сложной и трудоемкой задачей. Современные технологии Data Mining перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (OLAP) в Data Mining бремя формулировки гипотез и выявления необычных (unexpected) шаблонов переложено с человека на компьютер. Data Mining - это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы пытаетесь получить. Вот например некоторые методы: ассоциация (объединение), классификация, кластеризация, анализ временных рядов и прогнозирование, нейронные сети и т.д.

Сфера применения Data Mining ничем не ограничена - Data Mining нужен везде, где имеются какие-либо данные. Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. Приводятся сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример - годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании. Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.

Уникальные возможности STATISTICA Data Miner

Компанией StatSoft была разработана система STATISTICA Data Miner, которая спроектирована и реализована как универсальное и всестороннее средство анализа данных - от взаимодействия с различными базами данных до создания готовых отчетов, реализующее так называемый графически - ориентированный подход. Чтобы описать все возможности данного пакета потребуется написать целую книгу, поэтому постараемся вкратце описать имеющиеся в данном пакете основные средства Data Mining.

im001.gif

  • Наиболее полный пакет методов Data Mining на рынке программного обеспечения;

  • Большой набор готовых решений;

  • Удобный пользовательский интерфейс, полностью интегрированный с MS Office;

  • Мощные средства разведочного анализа;

  • Полностью оптимизированный пакет для работы с огромным объемом информации;

  • Гибкий механизм управления;

  • Многозадачность системы;

Сердцем STATISTICA Data Miner является браузер процедур Data Mining, содержащий более 300 основных процедур, специально оптимизированных под задачи Data Mining, и средств логической связи между ними и управления потоками данных, позволяющий вам конструировать собственные аналитические методы.

Node Browser

Рабочее пространство STATISTICA Data Miner состоит из четырех основных частей:

Рабочее пространство

3М последовательный график Как вы уже заметили, Data Mining включает огромный набор различных аналитических процедур, что делает его недоступным для обычных пользователей, которые слабо разбираются в методах анализа данных. Компания StatSoft нашла выход и из этой ситуации, данный пакет могут использовать как профессионалы, так и обычные пользователи, обладающие небольшими опытом и знаниями в анализе данных и математической статистике. Для этого кроме общих методов анализа были встроены готовые законченные (сконструированные) модули анализа данных, предназначенные для решения наиболее важных и популярных задач: прогнозирования, классификации, создания правил ассоциации и т.д. В добавление к сказанному, приведу пару наиболее интересных и наглядных примеров: прогнозирование непрерывной переменной и построение правил ассоциации.

Прогнозирование с использованием нейросетей, моделей АРПСС и экспоненциального сглаживания

Прогнозирование

  1. Выбираем тип анализа: General Forecaster - Прогнозирование -> Neural Network Time Series Project - Проект Нейронных сетей и Временных рядов.

  2. Щелкнув правой кнопкой мыши по любой составляющей части анализа, вы можете задать параметры анализа: настроить параметры моделей, задать размер прогноза и т.д.

  3. Выбираем файл данных и задаем переменную с непрерывными значениями.

  4. При помощи опции Connect - Связать соединяем файл данных с выбранным анализом и нажимаем Run - Запустить.

  5. После окончания работы в разделе Reports - Результаты мы получаем результаты.

Построение правил ассоциации, которые приобретают в последнее время большую популярность, особенно среди аналитиков и маркетологов крупных торговых сетей.

Прогнозирование

  1. Задаем вид анализа: Association Rules - Правила ассоциации.

  2. Задаем файл данных и переменные.

  3. На вкладке Advanced - Дополнительно можно, по желанию, изменить параметры уровня доверия, значимые границы корреляции и т.д.

  4. Нажимаем кнопку OK.

  5. Перед вами появляется окно результатов, содержащее таблицу правил ассоциации, 2М и 3М графики правил ассоциации и многое другое.

Более подробное описание корпоративной системы STATISTICA Data Miner вы найдете здесь.

 


Литература

  1. Боровиков В. П., Ивченко Г. И., "Прогнозирование в системе STATISTICA в среде WINDOWS", М., "Финансы и статистика", 1999, 382c.

  2. Боровиков В. П., "STATISTICA: искусство анализа данных на компьютере. Для профессионалов", СПб., "Питер", 2001, 656с.

  3. "Нейронные сети STATISTICA Neural Networks" - М., "Горячая линия - Телеком", 2001, 182с.

  4. Дюк В., "Data Mining - состояние, проблемы, новые решения", 1999.

‹‹
››
ПнВтСрЧтПтСбВс


                info@statsoft.ru         +7 (495) 787-77-33      +7 (499) 674-06-15          STATISTICA 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2023

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта