Дисперсионный анализ (ANOVA)

Содержание

Общие определения

Пошаговый пример в STATISTICA

Шаг 1. Выбор анализа

Шаг 2. Задание переменных

Шаг 3. Изменение опций

Шаг 4. Анализ результатов – просмотр всех эффектов

Шаг 5. Анализ результатов – просмотр заданных эффектов

Шаг 6. Анализ результатов – оценка качества модели

Шаг 7. Анализ результатов – анализ контрастов

Шаг 8. Дополнительные результаты

Литература

 


Общие определения

Целью дисперсионного анализа (ANOVA – Analysis of Variation) является проверка значимости различия между средними в разных группах с помощью сравнения дисперсий этих групп. Разделение общей дисперсии на несколько источников (связанных с различными эффектами в плане), позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью.

Проверяемая гипотеза состоит в том, что различия между группами нет. При истинности нулевой гипотезы, оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. При ложности - значимо отклоняться.

В целом дисперсионный анализ может быть разделён на несколько видов:

В STATISITICA реализованы все известные модели дисперсионного анализа.

В STATISITICA дисперсионный анализ можно провести с помощью модуля Дисперсионный анализ в блоке STATISITICA Base (Анализ -> Дисперсионный анализ(ДА)).  Для построения модели специального вида используется полная версия Дисперсионного анализа, представленная в модулях Общие линейные модели, Обобщённые линейные и нелинейные модели, Общие регрессионные модели, Общие модели частных наименьших квадратов из блока Углубленные методы анализа (STATISTICA Advanced Linear/Non-Linear Models). 

в начало 

 


Пошаговый пример в STATISTICA

Мы будем иллюстрировать возможности дисперсионного анализа в STATISITICA, рассматривая пошаговый модельный пример.

Исходный файл данных описывает совокупность людей с разным уровнем дохода, образования, возраста и пола. Рассмотрим, как влияют уровень образования, возраст и пол на уровень дохода.

По возрасту все люди были разделены на четыре группы:

По уровню образования произошло деление на 5 групп:

Так как данные модельные, то полученные результаты будут носить в основном качественный характер и иллюстрировать способ проведения анализа.

Шаг 1. Выбор анализа

Выберем дисперсионный анализ из меню: Анализ -> Углубленные методы анализа -> Общие линейные модели.

Выбор дисперсионного анализа из выпадающего меню STATISTICA

Рис. 1. Выбор дисперсионного анализа из выпадающего меню STATISTICA

Далее откроется окно, в котором представлены различные виды анализа. Выбираем Вид анализаФакторный Дисперсионный анализ

Выбор вида анализа

Рис. 2. Выбор вида анализа 

В этом окне также можете выбрать способ построения модели: диалоговый режим или использовать мастер анализа. Выберем диалоговый режим.

Шаг 2. Задание переменных

Из открытого файла данных выберем переменные для анализа, щелкните кнопку Переменные, выберете:

Доход – зависимая переменная,

Уровень образования, Пол и Возраст – категориальные факторы (предикторы).

Заметим, что Коды факторов в этом простом примере можно не задавать. При нажатии на кнопку OK, STATISTICA задаст их автоматически.

Задание переменных

Рис. 3. Задание переменных 

Шаг 3. Изменение опций

Обратимся к вкладке Опции в окне GLM Факторный ДА.

Вкладка Опции

Рис. 4. Вкладка Опции

В этом диалоговом окне вы можете:

Оставим все установки по умолчанию (этого достаточно в большинстве случаев) и нажмём кнопку ОК.

Шаг 4. Анализ результатов – просмотр всех эффектов

Результаты анализа можно посмотреть в окне Результаты с помощью вкладок и группы кнопок. Рассмотрим, например, вкладку Итоги.

Окно анализа результатов: вкладка Итоги

Рис. 5. Окно анализа результатов: вкладка Итоги

С этой вкладки можно получить доступ ко всем основным результатам. Воспользуйтесь остальными вкладками для получения дополнительных результатов. Кнопка Меньше позволяет изменить диалоговое окно результатов, удалив вкладки, которые, как правило, не используются.

При нажатии кнопки Проверить все эффекты получаем следующую таблицу.

Таблица всех эффектов

Рис. 6. Таблица всех эффектов 

Эта таблица выводит основные результаты анализа: суммы квадратов, степени свободы, значения F-критерия, уровни значимости.

Для удобства исследования значимые эффекты (p<.05) выделены красным цветом. Два главных эффекта (Уровень образования и Возраст) и некоторые взаимодействия в данном примере являются значимыми (p<.05).

Шаг 5. Анализ результатов – просмотр заданных эффектов

Чтобы посмотреть, каким образом средний уровень дохода различается по категориям, удобнее всего воспользоваться графическими средствами. При нажатии на кнопку Все эффекты/графики появится следующее диалоговое окно.

Окно Таблица всех эффектов

Рис. 7. Окно Таблица всех эффектов

В окне перечислены все рассматриваемые эффекты. Статистически значимые эффекты помечены *.

Например, выберем эффект Возраст, в группе Отображать укажем Таблицу и нажмём ОК. Появится таблица, в которой для каждого уровня эффекта приведено среднее значение зависимой переменной (Доход), величина стандартной ошибки и границы доверительных пределов.

Таблица с описательными статистиками по уровням переменной Возраст

Рис. 8. Таблица с описательными статистиками по уровням переменной Возраст

Эту таблицу удобно представить в графическом виде. Для этого выберем График в группе Отображать диалогового окна Таблица всех эффектов и нажмём ОК. Появится соответствующий график.

График зависимости среднего дохода от возраста

Рис. 9. График зависимости среднего дохода от возраста 

Из графика ясно видно, что между группами людей разного возраста есть разница в уровне дохода. Чем выше возраст, тем больше доход.

Аналогичные операции проведём для взаимодействия нескольких факторов. В диалоговом окне Таблица всех эффектов выберем Пол*Возраст и нажмём ОК.

График зависимости среднего дохода от пола и возраста

Рис. 10. График зависимости среднего дохода от пола и возраста 

Получен неожиданный результат: для опрошенных людей в возрасте до 50 лет уровень дохода растёт с возрастом и не зависит от пола; для опрошенных людей старше 50 лет женщины имеют значимо больший доход, чем мужчины.

Стоит построить полученный график в разрезе уровня образования. Возможно, такая закономерность нарушается в некоторых категориях или, наоборот, носит универсальный характер. Для этого выберем Уровень образования * Пол * Возраст и нажмём ОК.

График зависимости среднего дохода от пола, возраста, уровня образования

Рис. 11. График зависимости среднего дохода от пола, возраста, уровня образования 

Видим, что полученная зависимость не характерна для среднего и среднего профессионального образования. В остальных случаях она справедлива.

Шаг 6. Анализ результатов – оценка качества модели

Выше в основном использовались графические средства дисперсионного анализа. Рассмотрим некоторые другие полезные результаты, которые можно получить.

Во-первых, интересно посмотреть, какую долю изменчивости объясняют рассматриваемые факторы и их взаимодействия. Для этого во вкладке Итоги нажмём на кнопку Общая R модели. Появится следующая таблица.

Таблица SS модели и SS остатков

Рис. 12. Таблица SS модели и SS остатков 

Число в столбце Множеств. R2 – квадрат множественного коэффициента корреляции; оно показывает, какую долю изменчивости объясняет построенная модель. В нашем случае R2 = 0.195, что говорит о невысоком качестве модели. В самом деле, на уровень дохода влияют не только факторы, внесённые в модель.

Шаг 7. Анализ результатов – анализ контрастов

Часто требуется не только установить различие в среднем значении зависимой переменной для разных категорий, но и установить величину различия для заданных категорий. Для этого следует исследовать контрасты.

Выше было показано, что уровень дохода для мужчин и женщин значимо отличается для возраста от 51, в остальных случаях различие не значимо. Выведем разницу в уровне дохода для мужчин и женщин в возрасте выше 51 года и между 40 и 50 годами.

Для этого перейдём во вкладку Контрасты и выставим все значения следующим образом.

Вкладка Контрасты

Рис. 13. Вкладка Контрасты

При нажатии кнопки Вычислить появится несколько таблиц. Нас интересует таблица с оценками контрастов.

Таблица Оценки контрастов

Рис. 14. Таблица Оценки контрастов

Можно сделать следующие выводы:

Аналогично можно задать более сложные контрасты или воспользоваться одним из заранее заданных наборов.

Шаг 8. Дополнительные результаты

Используя остальные вкладки окна результатов можно получить следующие результаты:

Результаты доступны как в численном, так и в графическом видах.

Отметим, что набор дополнительных результатов зависит от вида построенной модели, т.е. от используемого модуля. 

в начало

 


Литература

  1. В.П.Боровиков. STATISTICA. Искусство анализа данных на компьютере, 2-е издание, ПИТЕР, 2003, 700 с. 

‹‹
››
ПнВтСрЧтПтСбВс


info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2018

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта