Революция Big Data: Как извлечь необходимую информацию из «Больших Данных»?


Оглавление

Предисловие

Насколько большие Big Data?

От больших объемов данных к Big Data

Задачи, связанные с Big Data

Хранение и управление Big Data

Неструктурированная информация

Анализ Big Data

Map-Reduce

Простые статистики, Business Intelligence (BI)

Прогнозное моделирование, углубленные статистики

Построение моделей

Интеграция со STATISTICA

Критика Big Data

Итоги

Словарь

Открытое мероприятие: «Предиктивная аналитика и Big Data: методы, инструменты, решения»

октябрь 2015 г., Москва

См. подробнее о новой аналитической платформе Больших данных – STATISTICA Big Data Analytics

 

Взгляд StatSoft: Итак, реальная значимость Big Data в распределенных файловых системах состоит не в том, чтобы построить прогностические модели на основе всех данных; точность моделей не будет выше.

Более значимым является использование всего объема данных для сегментации и кластеризации, что позволит эффективно строить большое количество моделей для небольших кластеров.



Предисловие

“Big data” – модный нынче термин, фигурирующий почти на всех профессиональных конференциях, посвященных анализу данных, прогностической аналитике, интеллектуальному анализу данных (data mining), CRM. Термин используется в сферах, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: экономике, банковской деятельности, производстве, маркетинге, телекоммуникациях, веб-аналитике, медицине и др.

Вместе со стремительным накоплением информации быстрыми темпами развиваются и технологии анализа данных. Если еще несколько лет назад было возможно, скажем, лишь сегментировать клиентов на группы со схожими предпочтениями, то теперь возможно строить модели для каждого клиента в режиме реального времени, анализируя, например, его перемещение по сети Интернет для поиска конкретного товара. Интересы потребителя могут быть проанализированы, и в соответствии с построенной моделью выведена подходящая реклама или конкретные предложения. Модель также может настраиваться и перестраиваться в режиме реального времени, что было немыслимо еще несколько лет назад.

В области телекоммуникации, например, развиты технологии для определения физического расположения сотовых телефонов и их владельцев, и, кажется, в скором времени станет реальностью идея, описанная в научно-фантастическом фильме «Особое мнение», 2002 года, где отображение рекламной информации в торговых центрах учитывала интересы конкретных лиц, проходящих мимо.

В то же время, существуют ситуации, когда увлечение новыми технологиями может привести и к разочарованию. Например, иногда разреженные данные (Sparse data), дающие важное понимание действительности, являются гораздо более ценными, чем Большие данные (Big Data), описывающие горы, зачастую, не существенной информации.

Цель данной статьи – прояснить и обдумать новые возможности Big Data и проиллюстрировать, как аналитическая платформа STATISTICA компании StatSoft может помочь в эффективном использовании Big Data для оптимизации процессов и решения задач.


Насколько большие Big Data?

Конечно, правильный ответ на данный вопрос должен звучать - «это зависит…»

В современных обсуждениях понятие Big Data описывают как данные объема в порядках терабайт.

На практике (если речь идет о гигабайтах или терабайтах), такие данные легко хранить и управлять ими с помощью «традиционных» баз данных и стандартного оборудования (сервера баз данных).

Программное обеспечение STATISTICA использует многопоточную технологию для алгоритмов доступа к данным (чтения), преобразования и построения прогностическихскоринговых) моделей, поэтому такие выборки данных могут быть легко проанализированы, и не требуют специализированных инструментов.

В некоторых текущих проектах StatSoft обрабатываются выборки порядка 9-12 миллионов строк. Умножим их на 1000 параметров (переменных), собранных и организованных в хранилище данных для построения рисковых или прогностических моделей. Такого рода файл будет иметь объем “только” около 100 гигабайт. Это, конечно, не маленькое хранилище данных, но его размеры не превышают возможностей технологии стандартных баз данных.

Линейка продуктов STATISTICA для пакетного анализа и построения скоринговых моделей (STATISTICA Enterprise), решения, работающие в режиме реального времени (STATISTICA Live Score), и аналитические инструменты для создания и управления моделями (STATISTICA Data Miner, Decisioning) легко масштабируются на несколько серверов с многоядерными процессорами.

На практике это означает, что достаточная скорость работы аналитических моделей (например, прогнозы в отношении кредитного риска, вероятности мошенничества, надежности узлов оборудования, и т.д.) позволяющая принимать оперативные решения, почти всегда может быть достигнута с помощью стандартных инструментов STATISTICA.

От больших объемов данных к Big Data

Как правило, обсуждение Big Data сосредоточено вокруг хранилищ данных (и проведении анализа, основанных на таких хранилищах), объемом намного больше, чем просто несколько терабайт.

В частности, некоторые хранилища данных могут вырасти до тысячи терабайт, т.е., до петабайт (1000 терабайт = 1 петабайт).

За пределами петабайт, накопление данных может быть измерено в эксабайтах, например, в производственном секторе по всему миру в 2010 году, по оценкам, накоплено в общей сложности 2 эксабайта новой информации (Manyika et al., 2011 г.).

Существуют отрасли, где данные собираются и накапливаются очень интенсивно.

Например, в производственной сфере, такой как электростанции, непрерывный поток данных генерируется иногда для десятков тысяч параметров каждую минуту или даже каждую секунду.

Кроме того, за последние несколько лет, внедряются так называемые “smart grid” технологии, позволяющие коммунальным службам измерять потребление электроэнергии отдельными семьями каждую минуту или каждую секунду.

Для такого рода приложений, в которых данные должны храниться годами, накопленные данные классифицируются как Extremely Big Data.

Растет и число приложений Big Data среди коммерческих и государственных секторов, где объем данных в хранилищах, может составлять сотни терабайт или петабайт.

Современные технологии позволяют «отслеживать» людей и их поведение различными способами. Например, когда мы пользуемся интернетом, делаем покупки в Интернет-магазинах или крупных сетях магазинов, таких как Walmart (согласно Википедии, хранилище данных Walmart оценивается более чем в 2 петабайт), или перемещаемся с включенными мобильными телефонами – мы оставляем след наших действий, что приводит к накоплению новой информации.

Различные способы связи, от простых телефонных звонков до загрузки информации через сайты социальных сетей, таких как Facebook (согласно данным Википедии, обмен информацией каждый месяц составляет 30 млрд. единиц), или обмен видео на таких сайтах, как YouTube (Youtube утверждает, что он загружает 24 часа видео каждую минуту; см. Wikipedia), ежедневно генерируют огромное количество новых данных.

Аналогичным образом, современные медицинские технологии генерируют большие объемы данных, относящиеся к оказанию медицинской помощи (изображения, видео, мониторинг в реальном времени).

Итак, классификацию объемов данных можно представить так:

Большие наборы данных: от 1000 мегабайт (1 гигабайт) до сотен гигабайт

Огромные наборы данных: от 1000 гигабайт (1терабайт) до нескольких терабайт

Big Data: от нескольких терабайт до сотен терабайт

Extremely Big Data: от 1000 до 10000 терабайт = от 1 до 10 петабайт


Задачи, связанные с Big Data

Существуют три типа задач связанных с Big Data:

1. Хранение и управление

Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных.

2. Неструктурированная информация

Большинство всех данных Big Data являются неструктурированными. Т.е. как можно организовать текст, видео, изображения, и т.д.?

3. Анализ Big Data

Как анализировать неструктурированную информацию? Как на основе Big Data составлять простые отчеты, строить и внедрять углубленные прогностические модели?


Хранение и управление Big Data

Big Data обычно хранятся и организуются в распределенных файловых системах.

В общих чертах, информация хранится на нескольких (иногда тысячах) жестких дисках, на стандартных компьютерах.

Так называемая «карта» (map) отслеживает, где (на каком компьютере и/или диске) хранится конкретная часть информации.

Для обеспечения отказоустойчивости и надежности, каждую часть информации обычно сохраняют несколько раз, например – трижды.

Так, например, предположим, что вы собрали индивидуальные транзакции в большой розничной сети магазинов. Подробная информация о каждой транзакции будет храниться на разных серверах и жестких дисках, а «карта» (map) индексирует, где именно хранятся сведения о соответствующей сделке.

С помощью стандартного оборудования и открытых программных средств для управления этой распределенной файловой системой (например, Hadoop), сравнительно легко можно реализовать надежные хранилища данных в масштабе петабайт.


Неструктурированная информация

Большая часть собранной информации в распределенной файловой системе состоит из неструктурированных данных, таких как текст, изображения, фотографии или видео.

Это имеет свои преимущества и недостатки.

Преимущество состоит в том, что возможность хранения больших данных позволяет сохранять “все данные”, не беспокоясь о том, какая часть данных актуальна для последующего анализа и принятия решения.

Недостатком является то, что в таких случаях для извлечения полезной информации требуется последующая обработка этих огромных массивов данных.

Хотя некоторые из этих операций могут быть простыми (например, простые подсчеты, и т.д.), другие требуют более сложных алгоритмов, которые должны быть специально разработаны для эффективной работы на распределенной файловой системе.

Один топ-менеджер однажды рассказал StatSoft что он «потратил целое состояние на IT и хранение данных, но до сих пор не начал получать денег», потому что не думал о том, как лучше использовать эти данные для улучшения основной деятельности.

Итак, в то время как объем данных может расти в геометрической прогрессии, возможности извлекать информацию и действовать на основе этой информации, ограничены и будут асимптотически достигать предела.

Важно, чтобы методы и процедуры для построения, обновления моделей, а также для автоматизации процесса принятия решений были разработаны наряду с системами хранения данных, чтобы гарантировать, что такие системы являются полезными и выгодными для предприятия.


Анализ Big Data

Это действительно большая проблема, связанная с анализом неструктурированных данных Big Data: как анализировать их с пользой. О данном вопросе написано гораздо меньше, чем о хранении данных и технологиях управления Big Data.

Есть ряд вопросов, которые следует рассмотреть.


Map-Reduce

При анализе сотни терабайт или петабайт данных, не представляется возможным извлечь данные в какое-либо другое место для анализа (например, в STATISTICA Enterprise Analysis Server).

Процесс переноса данных по каналам на отдельный сервер или сервера (для параллельной обработки) займет слишком много времени и требует слишком большого трафика.

Вместо этого, аналитические вычисления должны быть выполнены физически близко к месту, где хранятся данные.

Алгоритм Map-Reduce представляет собой модель для распределенных вычислений. Принцип его работы заключается в следующем: происходит распределение входных данных на рабочие узлы (individual nodes) распределенной файловой системы для предварительной обработки (map-шаг) и, затем, свертка (объединение) уже предварительно обработанных данных (reduce-шаг).

Таким образом, скажем, для вычисления итоговой суммы, алгоритм будет параллельно вычислять промежуточные суммы в каждом из узлов распределенной файловой системы, и затем суммировать эти промежуточные значения.

В Интернете доступно огромное количество информации о том, каким образом можно выполнять различные вычисления с помощью модели map-reduce, в том числе и для прогностической аналитики.


Простые статистики, Business Intelligence (BI)

Для составления простых отчетов BI, существует множество продуктов с открытым кодом, позволяющих вычислять суммы, средние, пропорции и т.п. с помощью map-reduce.

Таким образом, получить точные подсчеты и другие простые статистики для составления отчетов очень легко.


Прогнозное моделирование, углубленные статистики

На первый взгляд может показаться, что построение прогностических моделей в распределенной файловой системой сложнее, однако это совсем не так. Рассмотрим предварительные этапы анализа данных.

Подготовка данных. Некоторое время назад StatSoft провел серию крупных и успешных проектов с участием очень больших наборов данных, описывающих поминутные показатели процесса работы электростанции. Цель проводимого анализа заключалась в повышении эффективности деятельности электростанции и понижении количества выбросов (Electric Power Research Institute, 2009).

Важно, что, несмотря на то, что наборы данных могут быть очень большими, информация, содержащаяся в них, имеет значительно меньшую размерность.

Например, в то время как данные накапливаются ежесекундно или ежеминутно, многие параметры (температура газов и печей, потоки, положение заслонок и т.д.) остаются стабильными на больших интервалах времени. Иначе говоря, данные, записывающиеся каждую секунду, являются в основном повторениями одной и той же информации.

Таким образом, необходимо проводить “умное” агрегирование данных, получая для моделирования и оптимизации данные, которые содержат только необходимую информацию о динамических изменениях, влияющих на эффективность работы электростанции и количество выбросов.

Классификация текстов и предварительная обработка данных. Проиллюстрируем ещё раз, как большие наборы данных могут содержать гораздо меньше полезной информации.

Например, StatSoft участвовал в проектах, связанных с анализом текстов (text mining) из твитов, отражающих, насколько пассажиры удовлетворены авиакомпаниями и их услугами.

Несмотря на то, что ежечасно и ежедневно было извлечено большое количество соответствующих твитов, настроения, выраженные в них, были довольно простыми и однообразными. Большинство сообщений – жалобы и краткие сообщения из одного предложения о “плохом опыте”. Кроме того, число и “сила” этих настроений относительно стабильны во времени и в конкретных вопросах (например, потерянный багаж, плохое питание, отмена рейсов).

Таким образом, сокращение фактических твитов до скора (оценки) настроения, используя методы text mining (например, реализованные в STATISTICA Text Miner), приводит к гораздо меньшему объему данных, которые затем могут быть легко сопоставлены с существующими структурированными данными (фактические продажи билетов, или информация о часто летающих пассажирах). Анализ позволяет разбить клиентов на группы и изучить их характерные жалобы.

Существует множество инструментов для проведения такого агрегирования данных (например, скор настроений) в распределенной файловой системе, что позволяет легко осуществлять данный аналитический процесс.


Построение моделей

Часто задача состоит в том, чтобы быстро построить точные модели для данных, хранящихся в распределенной файловой системе.

Существуют реализации map-reduce для различных алгоритмов data mining/прогностической аналитики, подходящих для масштабной параллельной обработки данных в распределенной файловой системе (что может быть поддержано с помощью платформы STATISTICА StatSoft).

Однако, именно из-за того, что вы обработали очень большое количество данных, уверенны ли вы, что итоговая модель является действительно более точной?

На самом деле, скорее всего, удобнее строить модели для небольших сегментов данных в распределенной файловой системе.

Как говорится в недавнем отчете Forrester: «Два плюс два равняется 3,9 – это обычно достаточно хорошо» (Hopkins & Evelson, 2011).

Статистическая и математическая точность заключается в том, что модель линейной регрессии, включающая, например, 10 предикторов, основанных на правильно сделанной вероятностной выборке из 100 000 наблюдений, будет так же точна, как модель, построенная на 100 миллионах наблюдений.

В вероятностной выборке каждый элемент совокупности имеет определенную, заранее заданную вероятность быть выбранным. Причем для каждого элемента совокупности вероятность попадания в выборку одинакова.

В противоположность этому, некоторые поставщики в области Big Data, часто для рекламы, заявляют, что “все данные должны быть обработаны”.

В действительности, точность модели зависит от качества выборки (каждое наблюдение в популяции должно иметь известную вероятность выбора) и её размер связан со сложностью модели. Размер популяции не имеет значения.

Именно по этой причине, например, выборка, состоящая всего из нескольких тысяч голосов, может позволить построить очень точные прогнозы реальных результатов голосования.

Итак, реальная значимость Big Data в распределенных файловых системах состоит не в том, чтобы построить прогностические модели на основе всех данных; точность моделей не будет выше.

Более значимым является использование всего объема данных для сегментации и кластеризации, что позволит эффективно строить большое количество моделей для небольших кластеров.

Например, можно ожидать, что модели, основанные на широкой сегментации (20-30 лет), будут менее точными, чем большое число моделей, построенных на более детальной сегментации (например, 20-21-летние студенты, проживающие в общежитии, и учащиеся на факультете бизнеса).

Таким образом, один из способов получения преимуществ Big Data заключается в том, чтобы использовать доступную информацию для построения большого количества моделей для большого числа сегментов и, затем, по соответствующей модели строить прогнозы.

В предельном случае, каждый отдельный «человек» в большом хранилище данных клиентов может иметь свою собственную модель для прогнозирования будущих покупок.

Это означает, что аналитическая платформа (например, STATISTICA Enterprise), поддерживающая хранилища данных, должна быть в состоянии управлять сотнями или даже тысячами моделей, и иметь возможность перенастраивать их, когда это необходимо.


Интеграция со STATISTICA

Выборка, сокращение данных, отбор данных с помощью map-reduce. Что это означает для анализа Big Data?

Существуют эффективные (map-reduce) алгоритмы получения выборки, доступные для распределенных файловых систем, с помощью которых Big Data становятся пригодными для построения прогностических моделей.

Для решения многих задач это очень удобный способ, например, развертывание STATISTICA Enterprise и Data Mining платформы над интерфейсом данных в распределенной файловой системе для выполнения операций подготовки данных/агрегирования и/или вероятностной выборки, использующих алгоритмы map-reduce (и управлемых платформой Enterprise).

В дополнение, можно также строить детальные выборки (например, на основе микросегментации специфичных групп клиентов) и предоставлять данные STATISTICA для построения моделей для специфичных сегментов.

Интеграция STATISTICA с open-source инструментами. Уникальное достоинство STATISTICA Enterprise и Data Mining платформы в том, что она специально разработана как корпоративная платформа с использованием стандартных интерфейсов для сценариев и данных.

Это значит, что не только инструменты StatSoft, но и open-source инструменты, а также специализированная аналитика с использованием алгоритмов map-reduce, могут быть легко интегрированы в платформу STATISTICA, управляться через неё как отдельный узел в рабочей среде.

Например, платформа R, часто используемая аналитиками для проведения специализированных вычислений, легко взаимодействует со STATISTICA. Скрипты R уже много лет, как могут быть выполнены из среды STATISTICA.

Методы анализа Big Data появляются и развиваются очень быстро. Важно, чтобы аналитическая платформа для распределенной файловой системы могла легко использовать новые методы подготовки и агрегирования данных, выборки и стратификации.

Реализации специализированных процедур map-reduce. В дополнение к легкой интеграции с open-source и другими инструментами и платформами, не менее важно, что аналитическая платформа STATISTICA обеспечивает возможность гибкой настройки рабочей среды аналитика для решения конкретных задач на основе распределенной файловой системы и Big Data.

Появляются и развиваются различные методы анализа и использования Big Data, и на данный момент нет «традиционных» прогностических методов, стандартных подходов, которые были бы хорошо задокументированы.

Однако данная ситуация может измениться довольно быстро, так как все крупнейшие поставщики баз данных и BI инструментов (Microsoft, Oracle, Teradata, и другие) оперативно предоставляют интерфейсы и инструменты для доступа и обработки данных.

Так или иначе, платформа STATISTICA Enterprise предоставляет вам возможность пользовательской настройки конкретных аналитических подходов, основанных на данных в распределенных файловых системах, а также поддерживает нестандартные интерфейсы и инструменты.


Критика Big Data

Хранение Big Data не всегда приводит к получению выгоды

Хранение огромного количества данных, описывающих некоторые легко наблюдаемые события, не всегда приводит к выгодному понимаю реальности.

Это в равной мере относится к анализу акций, каналов twitter, медицинских данных, данных CRM, или мониторингу комплекса оборудования для диагностического обслуживания.

Например, достоверный список потенциальных покупателей товаров, наряду с демографической информацией, а также информацией о чистой стоимости товаров, могут быть гораздо более ценными для поставщиков, чем массивное хранилище данных о кликах на различных сайтах онлайн-магазинов.

При мониторинге работы электростанций, мы узнали, [и продемонстрировали, см. Electric Power Research Institute (EPRI), 2009], что обращение внимания именно на определенные фрагменты информации и на изменения, которые происходят в некоторых параметрах (или их комбинациях), более информативны для последующего представления, чем мониторинг тысячи параметров потоков данных за каждую секунду.

Как и в случае любого проекта по оптимизации организационной или коммерческой деятельности, важно начать с вопросов: “Как должны в идеале выглядеть результаты?”, “Как я могу измерить успех?“ и «Какая информация более информативна и полезна для достижения идеального результата?».

Ответы на эти вопросы вполне могут привести к реализации хранилища Big Data, однако во многих случаях – могут и не привести.

Скорость обновления данных и «актуальный» временной интервал

Может случиться, что вы строите модели на производстве, предсказывающие неполадки на одну секунду вперед на основе непрерывного потока данных для тысяч параметров. Однако если это требует, чтобы инженер два часа детализировал результат и «что-то делал», то такая система может быть бессмысленной.

Для поставщиков домашней фурнитуры, было бы важнее получить “сигнал” за месяц или два перед тем, как осуществится покупка жилья, вместо информации в режиме реального времени уже после покупки, когда потенциальный клиент просматривает различные Интернет-сайты в поисках фурнитуры.

Раннее оповещение позволило бы поставщикам завести контакты с потенциальным клиентом, предоставить специальные предложения и, возможно, побудить посетить магазин.

В целом, следует начинать с четкого определения необходимых параметров и стратегии того, как добиться успехов в той или иной области.

После этого уже будет очевиден необходимый временной интервал обновления данных, а, следовательно, и требования к оптимальному плану сбора данных, их хранению и анализу.


Итоги

Цель данной статьи – дать краткий обзор определенных сложностей, связанных с Big Data: хранилищами данных объемом в терабайт, петабайт (и больше), технологиями и подходами для преодоления сложностей получения значимой информации из Big Data.

Итак, создание и поддержка хранилищ объемом в терабайт, петабайт и более стало возможным благодаря технологиям распределенных файловых систем.

В распределенных системах, вместо хранения данных в одной файловой системе, данные сохраняются и индексируются на нескольких (и даже тысячах) жестких дисках и серверах. Создается также «карта» (map), где содержится информация о том, где именно находятся те или иные данные.

Hadoop является одной из самых известных систем, использующих данный подход.

Чтобы обработать данные в распределенной файловой системе, необходимо проводить низкоуровневые вычисления, такие как суммирование, агрегирование и др. в месте их физического размещения в распределенной файловой системе. Создать карту (map) проведенных вычислительных алгоритмов и отслеживать локальные результаты. Затем, аккумулировать результаты (reduced). Данный подход и шаблон проведения вычислительных алгоритмов получил название Map-Reduce.

На практике, анализ Big Data редко заключается в том, чтобы вычислить статистические итоги по всем данным. Вместо этого значимость Big Data заключается в возможности разделения данных на «микро-сегменты» и с помощью методов data mining и прогностического моделирования построить большое число моделей для небольших групп наблюдений.

С точки зрения реализации, аналитическая платформа для работы с Big Data должна уметь использовать новые технологии map-reduce.

Платформа STATISTICA Enterprise и Decisioning предоставляет все возможности для эффективной работы с Big Data, а также позволяет управлять тысячами моделей, применяемых в отношении таких данных.





Словарь

Big Data

Как правило, обсуждение Big Data в контексте прогнозного моделирования и анализа данных имеет отношение к хранилищам данных (и к анализу, основанного на таких хранилищах), с объемом больше, чем несколько терабайт (1 терабайт = 1,000 гигабайт; 1 гигабайт = 1,000 мегабайт).

Некоторые хранилища данных могут вырастать до тысячи терабайт, т.е., до диапазона петабайт (от 1000 терабайт = 1 петабайт).

Сверх петабайт, накопление данных может быть измерено в эксабайтах, например, в производственном секторе по всему миру в 2010 году, по оценкам, хранится в общей сложности 2 эксабайт новой информации (Manyika et al., 2011 г.).

Distributed File System - Распределенная файловая система

Big Data (несколько терабайт, петабайт) могут быть сохранены и систематизированы в распределенных файловых системах.

В самых общих чертах, информация хранится на одном из нескольких (иногда тысяч) жестких дисков на стандартных компьютерах.

Так называемая «карта» (map) отслеживает, где (на каком компьютере или диске) хранится конкретная информация.

Для надежности, каждую порцию информации обычно сохраняют несколько раз, например, трижды.

Так, например, предположим, что вы накапливаете индивидуальные сделки в большой розничной сети магазинов. Подробная информация о каждой транзакции будет храниться на разных серверах и жестких дисках, а главная карта (map) отслеживает, где точно хранятся сведения о соответствующей сделке.

С помощью стандартного технического обеспечения и открытых программных средств для управления этой распределенной файловой системы (такой, как Hadoop), надежные хранилища данных могут быть реализованы сравнительно легко.

Exabyte - Эксабайт

1 эксабайт это 1000 петабайт, или 1000 * 1000 терабайт.

Hadoop

Распределенная файловая система для хранения и управления хранилищами данных в диапазоне от нескольких терабайт до петабайт.

Map-Reduce

Принцип работы алгоритма Map-reduce заключается в следующем: происходит распределение входных данных на рабочие узлы (individual nodes) распределенной файловой системы для предварительной обработки (map-шаг) и, затем, свертка (объединение) уже предварительно обработанных данных (reduce-шаг).

Таким образом, скажем, для вычисления итоговой суммы, алгоритм будет параллельно вычислять промежуточные итоги в каждом из узлов распределенной файловой системы, и затем суммировать промежуточные итоги.

Petabyte - Петабайт

1 петабайт = 1000 терабайт.

Terabyte -Терабайт

1 терабайт = 1000 гигабайт.

Современные распределенные файловые системы, такие как Hadoop, делают возможным хранение и управление несколькими терабайт данных в одном хранилище.

в начало



см. также: Интервью технического директора StatSoft Russia о преимуществах внедрения корпоративных решений

Корпоративные аналитические решения - новый курс StatSoft


‹‹
››
ПнВтСрЧтПтСбВс


info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта