Big Data: технологии анализа Больших данных

Big Data – модный нынче термин, фигурирующий почти на всех профессиональных конференциях, посвященных анализу данных, прогностической аналитике, интеллектуальному анализу данных (data mining), CRM.

Анализ неструктурированных данных Big Data - это действительно большая проблема и о данном вопросе написано и сказано гораздо меньше, чем о хранении данных и технологиях управления Большими данными.

Часто задача состоит в том, чтобы быстро построить точные модели для данных, хранящихся в распределенной файловой системе. Существуют реализации map-reduce для различных алгоритмов data mining/прогностической аналитики, подходящих для масштабной параллельной обработки данных в распределенной файловой системе (что может быть поддержано с помощью платформы STATISTICА StatSoft). Однако, именно из-за того, что вы обработали очень большое количество данных, уверенны ли вы, что итоговая модель является действительно точной?

На самом деле, скорее всего, удобнее строить модели для небольших сегментов данных в распределенной файловой системе.

Точность модели зависит от качества выборки (каждое наблюдение в популяции должно иметь известную вероятность выбора) и её размер связан со сложностью модели. Размер популяции не имеет значения.

Именно по этой причине, например, выборка, состоящая всего из нескольких тысяч голосов, может позволить построить очень точные прогнозы реальных результатов голосования.

Итак, реальная значимость Big Data в распределенных файловых системах состоит не в том, чтобы построить прогностические модели на основе всех данных; точность моделей не будет выше.

Более значимым является использование всего объема данных для сегментации и кластеризации, что позволит эффективно строить большое количество моделей для небольших кластеров.

Например, можно ожидать, что модели, основанные на широкой сегментации (20-30 лет), будут менее точными, чем большое число моделей, построенных на более детальной сегментации (например, 20-21-летние студенты, проживающие в общежитии, и учащиеся на факультете бизнеса).

Таким образом, один из способов получения преимуществ Big Data заключается в том, чтобы использовать доступную информацию для построения большого количества моделей для большого числа сегментов и, затем, по соответствующей модели строить прогнозы.

В предельном случае, каждый отдельный «человек» в большом хранилище данных клиентов может иметь свою собственную модель для прогнозирования будущих покупок.

Это означает, что аналитическая платформа (например, STATISTICA Enterprise), поддерживающая хранилища данных, должна быть в состоянии управлять сотнями или даже тысячами моделей, и иметь возможность перенастраивать их, когда это необходимо.

Читать подробнее о подходе StatSoft к анализу Big Data


Взаимодействие
‹‹
››
ПнВтСрЧтПтСбВс


Полезные ссылки

info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта