Классификация

Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры.

Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д.

В самой общей формулировке под классификацией понимается разделение рассматриваемой совокупности объектов или явлений на однородные, в определенном смысле, группы либо отнесение каждого из заданного множества объектов к одному из заранее известных классов.

В последние годы было проведено большое количество широких комплексных исследований сложных социально-экономических, технических, медицинских и других процессов и систем, таких, как образ и уровень жизни населения, совершенствование организационных систем, региональная дифференциация социально-экономического развития, планирование и прогнозирование отраслевых систем, закономерности возникновения сбоев в технике или заболеваний в медицине. В связи с многоплановостью и сложностью этих объектов и процессов данные о них носят многомерный и разнотипный характер, так как до их анализа обычно бывает неясно, насколько существенно то или иное свойство для конкретной цели. В этих условиях выходят на первый план проблемы построения группировок и классификаций по многомерным данным (т.е. проблемы классификации многомерных наблюдений), причем появляется возможность оптимизации этого построения с точки зрения наибольшего соответствия получаемого результата поставленной конечной цели классификации.

Программа STATISTICA является комплексным аналитическим инструментом, предназначенным для классификации данных в любых областях, а справка системы своевременно напомнит необходимую терминологию.

STATISTICA - полностью на русском языке!

При решении задач классификации могут применяться процедуры и модули следующих продуктов STATISTICA:

STATISTICA Base 

Продукт необходим для расчета описательных статистик, построения графиков, свычисления коэффициента корреляций, его значимости, построения различных таблиц частот, таблиц сопряженности и др.


STATISTICA Advanced

Продукт содержит все возможности STATISTICA Base и расширяет их углубленными методами анализа.

Модуль STATISTICA Multivariate Exploratory Techniques (Многомерные разведочные технологии анализа)

Предоставляет широкий выбор разведочных технологий анализа различных типов данных в сочетании с богатыми интерактивными средствами визуализации.

Модули этого блока могут быть использованы при решении задач, связанных с сегментацией исходных объектов в данных, снижением размерности данных, задач классификации и др. Применение многомерных статистических методов анализа позволяет снизить трудоемкость решения задачи прогнозирования.

Модуль Кластерный анализ позволяет разбить исходную, вообще говоря, неоднородную совокупность объектов на максимально однородные группы, или кластеры. Например, в крупных торговых сетях ассортимент продаваемых товаров насчитывает тысячи единиц. Мы можем разбить все множество временных рядов на однородные кластеры, которые будут содержать ряды, обладающие сходной динамикой, после чего анализировать уже не отдельные ряды, а целые кластеры. Таким образом, значительно (иногда в десятки раз) снижается размерность задачи, а следовательно и трудоемкость прогнозирования продаж.

Кроме этого, можно кластеризовать данные исходя из абсолютных значений оборота по каждому из товаров, и выделить товары, продажи которых приносят наибольшую прибыль. Как показывает опыт, часто около 20% ассортимента обеспечивают 80% оборота (так называемый принцип Парето).

Модуль Дискриминантный анализ содержит большой набор средств и статистик для классификации старых и новых наблюдений (для оценки качества модели), позволяет вычислить стандартные функции классификации для каждой группы. Дискриминантный анализ используется для принятия решения о том, какие переменные дискриминируют или разделяют объекты на две или более естественно возникающих групп (его используют как метод проверки гипотез или как метод разведочного анализа). 

Предположим, исследователь в области образования хочет определить, какие переменные относят выпускника средней школы к одной из трех категорий: поступающие в колледж, поступающие в профшколу или отказывающиеся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь мог собирать данные о различных переменных до окончания учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из перечисленных выше категорий. Затем можно использовать Дискриминантный анализ для определения, какие переменные дают наилучшее предсказание о выборе учащимися их дальнейшего пути и в дальнейшем использовать эти результаты, например, для прогноза судьбы учеников следующего года выпуска.


Кроме того, StatSoft Russia ведет разработку готовых отраслевых решений, позволяющих автоматизировать процесс построения прогнозов (в том числе для сотен рядов), а также учесть всю специфику задач Заказчика.


Ниже представлены некоторые примеры решения задачи классификации в STATISTICA:

Академия Анализа Данных предлагает широкий набор курсов по любым темам анализа данных. Перейти к списку тем

Наиболее популярные курсы по решению задачи классификации:



‹‹
››
ПнВтСрЧтПтСбВс


info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта