Модули Data Mining

Значительная часть аналитической функциональности, используемой STATISTICA Data Miner, разработана в модулях, которые включены в различные продукты STATISTICA:

Однако некоторые модули содержат узкоспециализированные методы Data Mining и доступны только в STATISTICA Data Miner:

Отсеивание признаков и фильтрация переменных (для очень больших наборов данных)

Правила связей

Интерактивное бурение данных

Обобщенный EM и кластерный анализ методом к-средних

Обобщенные аддитивные модели (GAM)

Общие деревья классификации и регрессии (GTrees)

Общие модели CHAID

Интерактивные деревья классификации и регрессии

Растущие деревья

Случайные леса

Машинное обучение – метод опорных векторов

Машинное обучение – метод k-ближайших соседей

Многомерные адаптивные регрессионные сплайны (MARSplines)

Качество подгонки

Быстрое внедрение прогнозирующих моделей

* Некоторые модули Data Miner могут также быть приобретены по отдельности

 


Отсеивание признаков и фильтрация переменных Отсеивание признаков и фильтрация переменных

Этот модуль автоматически выбирает набор переменных из чрезвычайно большого файла с данными или базы данных, подключенной для обработки на месте (IDP). Модуль может обрабатывать практически неограниченное число переменных: свыше миллиона входных переменных можно проверить для выбора предикторов регрессии или классификации. Программа реализует несколько подходов для отбора переменных («признаков»), которые вероятно могут быть полезными или информативными в последующих анализах. Уникальные алгоритмы, реализованные в модуле Отсеивание признаков и фильтрация переменных, выбирают непрерывные и категориальные предикторы, которые взаимодействуют с зависимыми непрерывными или категориальными переменными, независимо от того, является ли взаимодействие простым (линейное) или сложным (нелинейное, немонотонное). Таким образом, программа не предвзята в выборе в пользу какой-либо участвующей модели, которую вы можете использовать, чтобы найти окончательное лучшее правило, оценку, например, для прогнозирования или классификации.

Доступны также разнообразные расширенные функциональные возможности отбора признаков.

Данный модуль особенно эффективен в сочетании с обработкой баз данных на месте (нет необходимости копировать или импортировать исходные данные на локальный компьютер), когда он может быть использован для сканирования огромных списков входных переменных. С помощью данного модуля можно выбрать вероятных кандидатов, которые содержат информацию, относящуюся к анализируемой переменной, и автоматически выбрать эти переменные для дальнейшего анализа с другими узлами в проекте Data Miner.

Подмножества переменных, выбранные на основе первоначального сканирования с помощью этого модуля, могут быть переданы для дальнейшего специального (пост-) отбора признаков, основанного на нейронных сетях, MAR сплайнах (MAR Splines), линейной регрессии или классификатора, или CHAID. Данный функционал позволяет STATISTICA Data Miner обрабатывать наборы данных объемом нескольких гига- и терабайт (см. сравнительные тесты производительности с использованием больших наборов данных).

Правила связей Правила связей

Правила связей Этот модуль содержит полную реализацию так называемого априорного алгоритма обнаружения правил ассоциаций, таких как: "клиенты, которые заказывают продукт A, часто также заказывают продукт B или C" или "сотрудники, которые высказались положительно за X, часто жалуются на Y, но счастливы с Z" (см. Agrawal и Swami, 1993; Agrawal и Srikant, 1994; Han и Lakshmanan, 2001; см. также Witten и Frank, 2000).

Модуль Правила связей позволяет вам быстро обработать большой набор данных на наличие ассоциаций (взаимодействия), на основе заранее определенного "порогового" значения для обнаружения. Программа обнаружит взаимодействие или ассоциации между конкретными оценками категориальных переменных в большом наборе данных. Это общая задача многих проектов Data Mining, применяемых для анализа текста или базы данных, содержащей записи клиентских операций (например, товары, приобретенные на каждого клиента), а также text mining.

Как и все модули STATISTICA, данные во внешних базах данных могут быть обработаны модулем STATISTICA Правила связей на месте (опционально, с помощью технологии In-Place Database Processing), поэтому программа способна эффективно обрабатывать чрезвычайно объемные задачи.





Правила связей





Результаты могут быть отображены в таблицах, а также на уникальных 2М и 3М графиках, где сильные связи выделены толстыми линиями, соединяющими соответствующие элементы.

Правила связей

Интерактивное бурение данных Интерактивное бурение данных

Первый шаг для многих проектов Data Mining – это интерактивное исследование для получения первых "впечатлений" о типах анализируемых переменных и их возможном взаимодействии. Цель Интерактивного бурения данных – обеспечить комбинированный графический разведочный анализ данных, инструмент табуляции, который позволит Вам быстро просмотреть распределение переменных, их взаимодействие с другими переменными и определить фактические наблюдения, принадлежащие к конкретным подгруппам данных.

Бурение

Проводник

Метафора "бурение" в контексте Data Mining обобщает основные операции анализа: программа позволяет вам выбрать наблюдения из большого набора данных, задавая подгруппы на основе конкретных значений или набора значений интересующих переменных (например, Пол, Средние закупки). Вы можете исследовать "глубокие слои" данных, задавая все более сложные логические условия выбора наблюдений.

Упрощение

Интерактивный характер Проводника позволяет не только углубиться в данные или базу данных (выделить группы наблюдений с сугубо конкретными логическими условиями отбора), но и "упростить" выборку: в любое время вы можете выбрать одну определенную ранее группу переменных и убрать ее из списка бурения; при обработке данных программа будет выбирать только те наблюдения, которые соответствуют логическим условиям отбора и обновлять результаты.

Приложения интерактивного бурения

Действительная мощность интерактивного бурения в STATISTICA заключается в различных вспомогательных результатах, которые могут автоматически обновляться в ходе интерактивного бурения: Вы можете выбрать список переменных для просмотра и вычислить для выбранных наблюдений:

К примеру, вы можете просмотреть типы покупок, которые делали клиенты различных групп; узнать эффективность некоторых лекарственных средств в разных группах лечения, или извлечь вероятных покупателей нового продукта из БД покупателей на основе тщательного изучения определенного сегмента рынка, используя бурение данных.

Обобщенный EM и кластерный анализ Обобщенный EM и кластерный анализ методом к-средних

Модуль Обобщенный EM и кластерный анализ методом к-средних является расширением методов, доступных в модуле кластерного анализа STATISTICA. Данный модуль специально разработан для обработки больших наборов данных. Он позволяет разбить на кластеры непрерывные и/или категориальные переменные, реализует функциональность полного обучения без учителя для распознавания образов (кластеризации), включает возможность внедрения моделей прогнозирующей кластеризации.

Предоставляются различные варианты перекрестной проверки (в том числе V-кратная кросс-проверка), которые позволяют автоматически выбирать и оценивать лучшие решения проблемы задач кластеризации. Таким образом, Вам не нужно указывать число кластеров в анализе, этот параметр задаст программа, выбрав наилучшее решение (количество кластеров) за Вас!

В модуле реализована расширенная кластеризация методом EM. Ее иногда называют кластеризацией на основе вероятности или статистической кластеризацией. Программа проводит кластеризацию наблюдений на основе категориальных и непрерывных переменных, предполагая различные распределения анализируемых переменных (заданных пользователем).

Модуль позволяет строить итоговые результаты и графики (например, график распределения для кластеризации EM), вычислять подробные статистики классификации для каждого наблюдения.

Модуль позволяет внедрять решения задачи кластеризации (в виде кода C, C ++, C #, Visual Basic, PMML), для классификации новых наблюдений.

Обобщенные аддитивные модели Обобщенные аддитивные модели (GAM)

Модуль Обобщенные аддитивные модели реализует методы, разработанные и опубликованные в работах Hastie и Tibshirani (1990). Детальное обсуждение этих методов можно найти в работе Schimek (2000).

Модуль позволяет обрабатывать непрерывные и категориальные переменные. Напоминаем, что STATISTICA включает в себя также разнообразные методы подгонки нелинейных моделей, такие как: Нелинейное оценивание, Обобщенные линейные модели, Общие модели классификации и регрессии.

Распределения и функции связи

Программа предоставляет пользователям широкий набор распределений и функций связи для нахождения эффекта воздействия независимых переменных на зависимую:

Нормальное, Гамма и распределение Гаусса:

Функция связи:

Биномиальное распределение:

Сглаживание

Программа использует для сглаживания кубический сплайн с заданным числом степеней свободы (задается пользователем), для нахождения оптимального преобразования (функции) предикторов.

Итоговые статистики

Модуль позволяет рассчитывать множество результирующих статистик для оценивания адекватности модели, подгонки модели, и интерпретации результатов: историю итераций выполнения подгонки модели, суммарные статистики, включая общую оценку R-квадрат (вычисляются из дисперсии) степеней свободы модели, подробные статистики наблюдений, относящихся к прогнозируемым откликам, остаткам, а также сглаживанию.

Графические результаты включают диаграммы рассеяния наблюдаемых откликов и остатков, прогнозируемых данных и остатков, гистограммы наблюдаемых значений и остатков, нормальный вероятностный график остатков, графики частичных остатков для каждого предиктора, отображение кубического сплайна сглаживания для окончательного решения. Для логит-модели могут быть построены диаграммы бинарных откликов (лифтовые карты).

Общие деревья классификации и регрессии Общие деревья классификации и регрессии (GTrees)

Модель общих деревьев классификации и регрессии является методом рекурсивного разбиения, используемым для классификации или разбиения выборок (наблюдений) на основе набора предикторов. В отличие от линейных и нелинейных алгоритмов регрессий, данный модуль позволяет обнаружить иерархические правила принятия решений для обеспечения оптимального разделения наблюдений (как непрерывных, так и категориальных переменных), на основе их отделения друг от друга по категориальным и/или непрерывным признакам.

Модуль реализует методы, называемые CART® (Breiman, Friedman, Olshen и Stone (1984)). Однако модуль Общие деревья содержит различные расширения и опции, которые обычно не встречаются в других реализациях этого алгоритма и являются полезными для Data Mining.

В дополнение к стандартным анализам, реализация этих методов в STATISTICA позволяет задать ANOVA/ANCOVA-подобные планы с непрерывными и/или категориальными предикторами и их взаимодействиями. ANOVA/ANCOVA-подобные планы могут быть заданы при помощи диалога, Мастера анализа, или с помощью кода плана. Более того, код плана является совместимым с другими модулями STATISTICA, благодаря чему вы можете быстро применить код плана в разных модулях анализа (например, сравнить качество классификации методом GDA (Общие модели дискриминантного анализа) и GTrees (Общие деревья)).

Пользовательский интерфейс; специальные "модели"

Модуль предлагает функциональные возможности контролирования процесса построения деревьев, усечения (упрощения) деревьев и выбора наилучшего решения. Для непрерывных переменных усечение деревьев основано на дисперсии или на прямой остановке по методу FACT. Для категориальных зависимых переменных, усечение основано на ошибках классификации, дисперсии или на прямой остановке по методу FACT.

Общие деревья классификации и регрессии

Вы можете указать максимальное число узлов для дерева или минимальное n для каждого узла. Модуль предоставляет функционал для построения наилучшего дерева решений, включая V-кратную кросс проверку и проверку на новых наблюдениях (контрольной выборке). Для зависимых категориальных переменных могут быть выбраны различные измерения для изменения алгоритма и для оценки качества итогового дерева классификации. Настройки позволяют пользователю указать априорные вероятности классификации и цены ошибки классификации. Критерий согласия включает меру Джини (Gini – мера информационного выигрыша), Хи-квадрат и G-квадрат.

Пропущенные данные и искусственные расщепления

Пропущенные данные и искусственные расщепления

Пропущенные значения в предикторах могут быть обработаны программой с помощью расщепления искусственных переменных, т. е. переменных, которые похожи на переменные, используемые для конкретных расщеплений (на узлы).

ANOVA/ANCOVA-подобные планы

В дополнение к стандартному анализу CART®, Вы можете комбинировать непрерывные и категориальные переменные подобно планам анализа ANOVA/ANCOVA и выполнять анализ, используя матричный план для предикторов. Это позволяет вам оценивать и сравнивать сложные модели предикторов и их эффективность для прогнозирования и классификации, используя различные аналитические методы (GLM, GLZ, GDA и т. д.).

Обозреватель деревьев

Обозреватель деревьев

В дополнение к простым итоговым графикам деревьев, Вы можете вывести дерево в интерактивном обозревателе деревьев, который позволяет вам сворачивать или разворачивать узлы дерева и быстро просматривать наиболее важную информацию о соответствующих узлах деревьев или классификации. Например, Вы можете выделить конкретный узел в обозревателе и сразу увидеть классификацию и цены ошибки классификации для данного узла. Обозреватель деревьев предоставляет очень эффективные и интуитивные средства для просмотра структуры дерева, используя методы, которые широко используются в приложениях Windows для просмотра иерархически структурированной информации. Составной обозреватель деревьев может отобразить несколько деревьев одновременно, включая итоговое дерево и различные составные части усеченного дерева, благодаря размещению нескольких обозревателей рядом друг с другом, что обеспечивает легкость сравнения различных структур дерева и суб-деревьев. Обозреватель деревьев STATISTICA – важная инновация, которая помогает интерпретировать деревья решений.

Интерактивные деревья

Также предоставляется функциональная возможность рассмотрения деревьев в интерактивном режиме либо с помощью инструмента Кисть, либо путем размещения больших графов дерева в прокручивающихся графических окнах, где большой граф может быть изучен в увеличенном масштабе.

Итоговые статистики

Модуль Общие деревья предоставляет обширный набор инструментов для изучения итоговых результатов. Итоговые результаты доступны для каждого узла, а также детальные статистики, относящиеся к классификации, цены классификации, прибыль и другие. Также доступны уникальные графические представления итогов анализа, включая гистограммы (специализированные для задач классификации) каждого узла, детальные составные графики непрерывных зависимых переменных (нормальный вероятностный график, диаграмма рассеяния) и графики с параллельными координатами для каждого узла, предоставляющие эффективные шаблоны откликов для задач классификации. Как и для всех статистических модулей анализа в STATISTICA, все численные результаты могут быть использованы как промежуточные для проведения последующих анализов, позволяя Вам быстро исследовать и в дальнейшем анализировать наблюдения, классифицированные в соответствующие узлы (например, Вы можете использовать модуль Общие деревья для проведения начальной классификации и далее использовать лучшее подмножество переменных в GDA для поиска дополнительных переменных, которые могут помочь в дальнейшей классификации).

Генератор кода C, C++, C#, Java, STATISTICA Visual Basic, SQL

Информация, содержащаяся в итоговом дереве, может быть быстро внедрена в пользовательскую программу или в запросы базы данных с помощью генератора кода C, C++, C#, Java, STATISTICA Visual Basic, SQL. Код STATISTICA Visual Basic генерируется в форме, которая подходит для включения его в пользовательские узлы STATISTICA Data Miner.

Общие модели CHAID Общие модели CHAID (Chi-square Automatic Interaction Detection)

Подобно реализации модуля Общие деревья классификации и регрессии, другой рекурсивный метод разделения, модуль CHAID, обеспечивает не только реализацию оригинального метода, но и может быть расширен до методов анализа ANOVA/ANCOVA.

Стандартный CHAID

Анализ CHAID может быть проведен для непрерывных и категориальных зависимых переменных. Доступны многочисленные функциональные возможности контроля процесса построения деревьев. Пользователь имеет контроль над параметрами минимальное число n в узле, максимальное число узлов, вероятность для разделения и объединения категорий. Пользователь может задать полный поиск лучшего решения (Полный CHAID). Статистики V-кратной кросс-проверки могут быть вычислены для оценивания устойчивости итогового решения. Для задач классификации пользователь может задать цены ошибок классификаций.

Стандартный CHAID

ANOVA/ANCOVA-подобные планы

В дополнение к традиционному CHAID анализу вы можете комбинировать непрерывные и категориальные переменные в ANOVA/ANCOVA-подобных планах и выполнять анализ, используя матричный план для предикторов. Это позволяет Вам оценивать и сравнивать сложные модели предикторов и их эффективность для прогнозирования и классификации, используя различные аналитические методы (GLM, GLZ, GDA, GTrees).

Обозреватель деревьев

Обозреватель деревьев

Как и для других деревьев (см. GTrees), результаты анализа CHAID могут быть просмотрены в Обозревателе деревьев STATISTICA. Этот уникальный обозреватель предоставляет высокоэффективное и интуитивно понятное средство просмотра сложных структур деревьев и сравнения одновременно нескольких деревьев (в нескольких обозревателях).

Итоговые статистики

Модуль Общие CHAID модели предоставляет обширный набор инструментов для изучения итоговых результатов. Итоговые результаты доступны для каждого узла, а также детальные статистики, относящиеся к классификации, цены классификации, прибыль и другие. Также доступны уникальные графические представления итогов анализа, включая гистограммы (специализированные для задач классификации) каждого узла, детальные составные графики непрерывных зависимых переменных (нормальный вероятностный график, диаграмма рассеяния) и графики с параллельными координатами для каждого узла, предоставляющие эффективные шаблоны откликов для задач классификации. Как и для всех статистических модулей анализа в STATISTICA, все численные результаты могут быть использованы как промежуточные для проведения последующих анализов, позволяя вам быстро исследовать и в дальнейшем анализировать наблюдения, классифицированные в соответствующие узлы (например, Вы можете использовать модуль CHAID для проведения начальной классификации и далее использовать лучшее подмножество переменных в GDA для поиска дополнительных переменных, которые могут помочь в дальнейшей классификации).

Интерактивные деревья классификации и регрессии Интерактивные деревья классификации и регрессии

В дополнение к модулям для автоматического построения деревьев (Общие деревья классификации и регрессии, Общие CHAID модели), STATISTICA Data Miner содержит инструменты для построения некоторых деревьев интерактивно. Вы можете выбрать (бинарный) метод Общие деревья классификации и регрессии или метод CHAID на каждом шаге роста дерева (выбирая переменную разделения и критерий разделения) интерактивно или автоматически.

Когда рост дерева происходит интерактивно, вы имеете полный контроль над всеми аспектами – выбор и оценка кандидатов для каждого разделения, категоризация диапазона значений предикторов и т. д.

Высоко интерактивные инструменты, доступные для этого модуля, позволяют вам растить и усекать деревья для быстрой оценки качества дерева классификации или регрессии и вычислять все вспомогательные статистики на каждом шаге для полноценного исследования природы каждого решения.

Этот инструмент особенно полезен как для Data Mining, так и для разведочного анализа данных (EDA), он включает полный набор опций для автоматического развертывания – для прогноза и классификации новых переменных (см. описание этих опций в контексте модулей CHAID и Общие деревья классификации и регрессии).

Растущие деревья Растущие деревья

Самые недавние исследования в статистике и алгоритмах машинного обучения показали, что для некоторых «сложных» задач оценок и прогнозирования (классификаций), при вычислении которых используются последовательно растущие деревья, могут быть получены более точные результаты по сравнению с использованием нейронных сетей и сложных единичных деревьев.

STATISTICA Data Miner содержит экспертный модуль Растущие деревья для задач, связанных с Data Mining.

Вам предоставляется контроль над всеми аспектами процедуры оценки и подробные итоги каждого этапа данной оценки. Результаты содержат большинство стандартных сводных статистик для классификации и регрессии, вычисленных с помощью модуля Общие деревья классификации и регрессии. Также предоставляются автоматические методы развертывания итогового растущего дерева для классификации и для регрессионного прогнозирования.

Случайные леса Случайные леса

Модуль Случайные леса STATISTICA является реализацией алгоритмов Случайных лесов, разработанных Breiman. Алгоритмы применимы и для регрессионного анализа. Случайные леса включают ансамбль простых деревьев классификации, каждое из которых способно производить отклик, при предоставлении набора значений предикторов.

Вы имеете полный контроль над всеми ключевыми аспектами по оценке анализа и параметров модели, включая сложность деревьев, максимальное число деревьев в лесу, а также контроль над тем, как остановить алгоритм, когда были достигнуты удовлетворительные результаты.

Модуль эффективно работает с большим объемом данных и может обрабатывать особенно большой набор переменных без их удаления.

Итоги включают наиболее стандартные сводные статистики классификации и регрессии, вычисленные с помощью модуля Общие деревья классификации и регрессии. Также доступны автоматические методы развертывания итоговых Случайных лесов для классификации и регрессии.

Машинное обучение (Machine Learning) – Метод опорных векторов (SVM)

Этот метод решает задачи регрессии и классификации путем построения нелинейных границ решений. Благодаря характеру пространства, в котором найдены эти границы, метод опорных векторов проявляет высокую степень гибкости при решении задач классификации и регрессии различной сложности.

Модуль STATISTICA SVM поддерживает 4 типа модели опорных векторов с различными ядрами, включая линейные, нелинейные, полиномиальные, РБФ (радиально базисные функции) и сигмовидные базисные функции. Это также обеспечивает обработку несбалансированных данных.

Кросс-проверка, хорошо известный метод, используется для определения наилучшего значения различных параметров модели из набора заданных значений.

Для оценки критериев качества и интерпретации результатов может быть построено большое количество графиков и таблиц. Также доступны автоматические методы развертывания результатов SVM для классификации и регрессии.

Машинное обучение (Machine Learning) – Метод k-ближайших соседей (KNN)

STATISTICA KNN является методом, основанным на памяти, который в отличие от других статистических методов не требует обучения (т. е. не происходит подгонка модели). Он попадает в категорию методов-прототипов. Он функционирует на интуитивном представлении, что близкие объекты, скорее всего, будут в одной категории. Таким образом, в KNN прогнозы основываются на множестве примеров прототипов, которые используются для прогнозирования новых данных на основе большинства голосов (для задач классификации) и усреднения (для регрессии) на множестве K ближайших прототипов.

Этот метод может обрабатывать большие объемы данных как непрерывных, так и категориальных предикторов.

Перекрестная проверка, хорошо известная методика, используется для получения оценок параметров модели, которые являются неизвестными.

Для оценки критериев качества и интерпретации результатов может быть построено большое количество графиков и таблиц. Также доступны автоматические методы развертывания результатов KNN для классификации и регрессии.

Многомерные адаптивные регрессионные сплайны Многомерные адаптивные регрессионные сплайны (MARSplines)

Модуль Многомерные Адаптивные Сплайны основан на реализации метода, первоначально предложенного Friedman (1991; Multivariate Adaptive Regression Splines, Annals of Statistics, 19, 1-141). В STATISTICA Data Miner модуль MARSplines предлагает расширенные возможности решения задач регрессии и классификации для непрерывных и категориальных переменных.

Многомерные адаптивные регрессионные сплайны

Модуль, с точки зрения его функциональности, можно рассматривать как обобщение и модификация пошаговой Множественной регрессии и Деревьев классификацииирегрессии (GC&RT).

Модуль специально разработан (оптимизирован) для обработки очень больших объемов данных. Доступно большое количество итоговых результатов и инструментов диагностики, которые могут позволить вам оценить численно и графически качество MAR сплайнов.

Генераторы кода C/C++, C#, STATISTICA Visual Basic, XML

Информация, содержащаяся в модели, может быть быстро внедрена в пользовательские программы с помощью генератора кода C/C++/C #, STATISTICA Visual Basic или PMML (основанного на синтаксисе XML). Код STATISTICA Visual Basic будет создан в формате, который подходит для внедрения в пользовательские узлы STATISTICA Data Miner. Код PMML (Predictive Models Markup Language) может быть использован для модуля Быстрое внедрение для эффективного расчета прогнозов. PMML файлы полностью портативны – модели, полученные с помощью настольной версии STATISTICA Data Miner, могут использоваться в WebSTATISTICA Data Miner (т. е. на сервере), и наоборот.

Качество подгонки Качество подгонки

Модуль STATISTICA Качество подгонки позволяет вычислить разнообразные статистики критериев согласия для непрерывных и категориальных переменных (для задач классификации и регрессии). Этот модуль разработан специально для приложений Data Mining, для включения в проекты "оценки конкурентных моделей", как инструмент для выбора лучшего решения.

Программа использует в качестве входных параметров прогнозируемые значения или классификации, вычисленные с помощью любого модуля STATISTICA для регрессии и классификации и вычисляет широкий набор статистик, а также строит графики для каждого отклика или классификации.

Критерий согласия для непрерывных откликов включает наименьший квадрат дисперсии (LSD), среднюю дисперсию, относительную квадратичную ошибку, относительную абсолютную ошибку, коэффициент корреляции. Для задач классификации (для категорированных откликов) программа вычислит статистики Хи-квадрат, G-квадрат (максимального правдоподобия Хи-квадрат), процент несовпадений (оценка ошибки классификации), квадратичные потери информационные потери.

Быстрое построение прогноза Быстрое внедрение прогнозирующих моделей

Модуль Быстрое внедрение прогнозирующих моделей позволяет Вам загрузить один или несколько PMML (Predictive Models Markup Language) файлов с информацией о модели и очень быстро вычислить прогноз для большого количества наблюдений (для одной или более моделей).

PMML файлы могут быть сгенерированы практически во всех модулях прогнозного Data Mining (а также в модуле EM и кластерный анализ методом K-средних).

PMML – это XML документ, который хорошо подходит для передачи информации о модели в архитектуре клиент-сервер (например, продукт WebSTATISTICA).

Быстрое построение прогноза

Возможности модуля Быстрое внедрение прогнозирующих моделей предоставляют самые быстрые, самые эффективные методы для вычисления прогноза с помощью полностью обученной модели.

Все модели заранее запрограммированы в общей форме в высоко-оптимизированной скомпилированной программе. PMML код предоставляет только оценки параметров для полностью подготовленных моделей, что позволяет модулю вычислять прогнозы или прогнозируемую классификацию (или кластер) за один проход через данные.

На сколько нам известно, очень трудно "превзойти" производительность (скорость вычислений) данного инструмента, даже если бы Вы написали свой собственный код на C++, основанный на сгенерированном соответствующими модулями коде (C, C ++ или C#).

Обратите внимание, что модуль также будет автоматически вычислять сводные статистики для каждой модели. Если имеются наблюдаемые значения или классификации, то программа будет автоматически вычислять статистики критериев согласия для каждой модели, включая диаграммы точности прогнозов и прибыли для одной или нескольких моделей (gains и lift карты).

‹‹
››
ПнВтСрЧтПтСбВс


info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта