Канонический корреляционный анализ

Содержание

Введение

Основные идеи и предположения

Собственные значения и канонические корреляции

Значимость корней

Канонические веса и каноническое множество

Структура фактора и канонические веса

Извлеченная дисперсия и избыточность

Практическая значимость канонических корней

Пример канонического анализа в STATISTICA по шагам

Цель анализа

Предварительные вычисления

Визуальный анализ

Канонический анализ

Задание переменных

Результаты

Факторная структура и избыточность

Факторная структура левого множества

Факторная структура правого множества

Канонические значения

Графическое изображение канонических значений

Группы наблюдений

Заключение

 


Введение

Основные идеи и предположения

Для нахождения взаимосвязи между наборами переменных в системе STATISTICA используется Канонический корреляционный анализ.

В отличие от стандартного анализа корреляций, этот модуль исследует взаимосвязь между двумя множествами переменных.

Анализ находит зависимость между взвешенными суммами переменных из каждого множества (т.е., между линейными комбинациями, называемым также каноническими переменными).

Не вдаваясь в тонкости анализа, веса (коэффициенты) этих линейных комбинаций могут быть найдены как решение задачи на собственные значения.

Получаемые при этом решения называются каноническими корнями, каждое из которых объясняет уникальную долю изменчивости между двумя наборами переменных.

Анализ находит новые собственные значения по шагам, на каждом шаге максимизируя корреляцию между каноническими переменными. Первые несколько пар канонических переменных в Каноническом Анализе обычно объясняют наибольшую долю различия между двумя множествами переменных.

Приведем наиболее важные предположения канонического анализа, выполнение которых обеспечивает получение достоверных и обоснованных результатов.

Применение критерия значимости при анализе канонической корреляции основано на предположении, что переменные в выборке имеют многомерное нормальное распределение.

Как и большинство других модулей пакета STATISTICA, модуль Канонический Анализ позволяет провести графический анализ данных, т.е. построить гистограмму частот с наложенной на нее нормальной кривой, или вывести на экран диаграмму рассеяния наблюдаемой переменной.

Теоретически, последствия нарушения этого предположения мало изучены. Однако при очень больших размерах выборки (см. ниже) результаты анализа канонической корреляции достаточно устойчивы или робастны.

В книге Stevens (1986) приводится подробное обсуждение размера выборки, необходимого для получения достоверных результатов. Как уже говорилось, при наличии больших корреляций между данными (например, R > .7), даже малые размеры выборки (например, n = 50) позволяют в большинстве случаев обнаружить эти корреляции.

Однако, для получения достоверных оценок нагрузок канонических факторов (для интерпретации), Стивенс рекомендует использовать как минимум в 20 раз больше наблюдений, чем число переменных, используемых в анализе, если нужно интерпретировать только наиболее значимый корень.

Для получения достоверных оценок для двух канонических корней, в книге Barcikowski и Stevens (1975) авторы рекомендуют, основываясь на исследовании с помощью метода Монте-Карло, использовать в 40 - 60 раз больше наблюдений, чем число исследуемых переменных.

Наличие выбросов может оказывать большое влияние на значение коэффициентов корреляции. Поэтому выбросы могут оказывать заметное влияние на вычисление канонических корреляций. Конечно, чем больше размер выборки, тем меньшее значение оказывают один или два выброса.

Однако при проведении анализа все-таки хорошо было бы построить диаграмму рассеяния. Отметим, что диаграмма рассеяния доступна не только для исходных переменных, но и для канонических переменных.

Еще одним предположением является требование, чтобы переменные в обоих множествах не были полностью избыточными. 

Например, если включить одну и ту же переменную дважды в одно из множеств, то окажется непонятным, какие ей следует придать веса. С вычислительной точки зрения, такая избыточность нарушает ход анализа.

При наличии полной коррелированности между наблюдаемыми переменными (R = 1.0) корреляционная матрица не может быть обращена, и вычисления, необходимые для анализа канонической корреляции, таким образом, не могут быть завершены. Подобные корреляционные матрицы называются плохо обусловленными.

Собственные значения и канонические корреляции

При вычислении канонических корней STATISTICA подсчитывает собственные значения матрицы корреляций. Эти значения равны доле дисперсии, объясняемой корреляцией между соответствующими каноническими переменными.

При этом полученная доля вычисляется относительно дисперсии канонических переменных, т.е. взвешенных сумм по двум множествам переменных; таким образом, собственные значения не показывают абсолютного значения, объясняемого в соответствующих канонических переменных.

При проведении анализа программа вычислит столько собственных значений, сколько имеется канонических корней, т.е. столько, сколько переменных имеется в наименьшем множестве.

Если извлечь квадратный корень из полученных собственных значений, получим набор чисел, который можно проинтерпретировать как коэффициенты корреляции. Поскольку они относятся к каноническим переменным, их также называют каноническими корреляциями.

Как и собственные значения, корреляции между последовательно выделяемыми на каждом шаге каноническими переменными, убывают. Поэтому, в выводимом на экран отчете о коррелированности между множествами переменных часто приводят лишь первое, т.е. максимальное значение. Однако другие канонические переменные также могут быть значимо коррелированны, и эти корреляции часто допускают достаточно осмысленную интерпретацию. 

Значимость корней

Критерий значимости канонических корреляций сравнительно несложен.

Во-первых, канонические корреляции оцениваются одна за другой в порядке убывания. Только те корни, которые оказались статистически значимыми, оставляются для последующего анализа. Хотя на самом деле вычисления происходят немного иначе. Программа сначала оценивает значимость всего набора корней, затем значимость набора, остающегося после удаления первого корня, второго корня, и т.д.

Некоторые авторы подвергали критике использование последовательных критериев значимости для канонических корней (см., например, работу Harris, 1976). Однако, эта процедура была "реабилитирована" с помощью метода Монте-Карло в вышедшей позднее книге Mendoza, Markos и Gonter (1978).

Исследования показали, что используемый критерий обнаруживает большие канонические корреляции даже при небольшом размере выборки (например, n = 50). Слабые канонические корреляции (например, R = .3) требуют больших размеров выборки (n > 200) для обнаружения в 50% случаев.

Отметим, что канонические корреляции небольшого размера обычно не представляют практической ценности, поскольку им соответствует небольшая реальная изменчивость исходных данных. Чуть позднее, мы поговорим об этом подробнее, а также обсудим влияние на результаты размера выборки.

Канонические веса и каноническое множество

После определения числа значимых канонических корней возникает вопрос об интерпретации каждого (значимого) корня. Напомним, что каждый корень в действительности представляет две взвешенные суммы, по одной на каждое множество переменных. Одним из способов толкования смысла каждого канонического корня является рассмотрение весов, сопоставленных каждому множеству переменных. Эти веса также называются каноническими весами.

При анализе, обычно, пользуются тем, что чем больше приписанный вес (т.е. абсолютное значение веса), тем больше вклад соответствующей переменной в значение канонической переменной. Для проведения более подробного сравнительного анализа обычно рассматриваются стандартизованные переменные, т.е. z - преобразованные переменные с нулевым средним и единичным стандартным отклонением.

В терминах множественной регрессии, канонические веса можно проинтерпретировать как бета-веса в уравнении множественной регрессии. Канонические веса, в некотором смысле, аналогичны частным корреляциям переменных, соответствующих каноническому корню. В факторном анализе, канонические веса аналогичны весовым коэффициентам факторов.

Таким образом, рассмотрение канонических весов позволяет понять значение каждого канонического корня, т.е. увидеть, как конкретные переменные в каждом множестве влияют на взвешенную сумму (т.е. каноническую переменную). 

Структура фактора и канонические веса

Еще одним способом интерпретации канонических корней является рассмотрение обычных корреляций между каноническими переменными (или факторами) и переменными из каждого множества. Эти корреляции также называются каноническими нагрузками факторов.

Считается, что переменные, сильно коррелированные с канонической переменной, имеют с ней много общего. Поэтому, при описании смысла канонической переменной следует исходить в основном из реального смысла этих сильно коррелированных переменных. Такой способ интерпретации канонических переменных похож на метод, используемый в факторном анализе.

Иногда канонические веса для переменной оказываются близкими к нулю, а соответствующие им нагрузки очень велики. Также возможна обратная ситуация, когда канонические веса велики, а нагрузки небольшие. В таких случаях вывод может оказаться достаточно противоречивым.

Однако следует помнить, что канонические веса соответствуют уникальному вкладу каждой переменной, а нагрузки канонических факторов представляют простые суммарные корреляции.

Например, пусть в наше исследование удовлетворения от различных видов деятельности мы включили два вопроса, соответствующие примерно одному внешнему фактору: (1) "Удовлетворены ли Вы отношениями с вашим руководителем подразделения?" и (2) "Удовлетворены ли Вы отношениями с руководством?" Таким образом, ответы на эти вопросы содержат излишнюю информацию. 

Когда программа вычисляет веса для взвешенных сумм (канонических переменных) по каждому множеству, максимизируя их корреляцию, ей потребуется включить в сумму только одну из этих двух переменных. Если при этом больший вес будет приписан первому ответу, вклад второго ответа становится несущественным.

Следовательно, он получит нулевой или пренебрежительно малый вес. Тем не менее, если рассматривать обычные корреляции между соответствующими суммарными значениями и значениями двух канонических переменных (т.е. нагрузки факторов), они могут оказаться существенными у обоих факторов.

Таким образом, еще раз повторим, что канонические значения соответствуют уникальному вкладу, вносимому соответствующей переменной во взвешенную сумму или каноническую переменную; нагрузки канонических факторов отражают полную корреляцию между соответствующей переменной и взвешенной суммой.

Извлеченная дисперсия и избыточность

Как уже было сказано ранее, коэффициенты канонической корреляции соответствуют корреляции между взвешенными суммами по двум множествам переменных. Они не говорят ничего о том, какую часть изменчивости (дисперсии) каждый канонический корень объясняет в переменных. 

Однако, можно сделать заключение о доле объясняемой дисперсии, рассматривая нагрузки канонических факторов. Напомним, что они представляют собой корреляции между каноническими переменными и исходными переменными в соответствующем множестве.

Если возвести эти корреляции в квадрат, полученные числа будут отражать долю дисперсии, объясняемую каждой переменной. Для каждого корня можно вычислить среднее значение этих долей. При этом получится средняя доля изменчивости объясненной в этом множестве на основании соответствующей канонической переменной. Другими словами, можно вычислять среднюю долю дисперсии, извлеченной каждым корнем.

Каноническая корреляция при возведении в квадрат дает долю дисперсии, общей для сумм по каждому множеству (канонической переменной). Если умножить эту долю на долю извлеченной дисперсии, то получается мера избыточности множества переменных, т.е. величина, показывающая, насколько избыточно одно множество переменных, если задано другое множество.

Отметим также, что можно вычислить избыточность первого (левого) множества переменных при заданном втором (правом) множестве и избыточность второго (правого) множества переменных при заданном первом (левом) множестве.

Поскольку последовательно извлекаемые канонические корни не коррелированны между собой, то можно просто просуммировать избыточности по всем (или только по значимым) корням, получив при этом общий коэффициент избыточности (как предлагается в работе Stewart and Love, 1968).

Практическая значимость канонических корней

Для измерения избыточности также бывает полезным определение практической значимости канонических корней. При больших размерах выборки (см. ниже), канонические корреляции со значением R = .30 могут оказаться статистически значимыми. 

Если возвести этот коэффициент в квадрат (R-квадрат = .09) и использовать формулу для избыточности, становится ясным, что такие канонические корни объясняют лишь незначительную долю изменчивости переменных. Хотя, разумеется, окончательное решение о практической значимости принимается на основании субъективной позиции исследователя.

Однако для получения правдоподобных оценок того, насколько реальная изменчивость переменных объясняется конкретным каноническим корнем, бывает полезным не забывать о мере избыточности, т.е. о том насколько реальная изменчивость в одном множестве переменных объясняется другим множеством. 

 


Пример канонического анализа в STATISTICA по шагам

Цель анализа

Следующий пример использования Факторного анализа основан на искусственных данных, описывающих результаты анкетирования степени удовлетворенности жизнью.

Для анкетирования было случайно выбрано 100 человек старше 18 лет, имеющих различное социальное положение. Анкета содержала 10 вопросов, касающихся удовлетворения от работы и различных видов досуга, домашней жизни, а также общую удовлетворенность другими сферами жизни.

Заполненные анкеты были обработаны компьютером, а затем, изменением масштаба, средние значения оценок удовлетворения по каждому виду деятельности были приблизительно приравнены 100.

Результаты были сохранены в файле данных Factor.sta (см. частичную распечатку на рисунке ниже). Чтобы его открыть, выберите команду Открыть в меню Файл. Наиболее вероятно, что этот файл находится в папке /Examples/Datasets.

Исходные данные анкетирования

Рис. 1. Исходные данные анкетирования

Цель: Мы хотим изучить зависимость между удовлетворением от работы и удовлетворением в других сферах деятельности. При этом, элементы удовлетворения от работы являются независимыми (объясняющими) переменными, а удовлетворения в других сферах жизни – зависимыми переменными. 

Предварительные вычисления

Запустите модуль Канонический анализ (рис. 2). 

Запуск Канонического анализа

Рис. 2. Запуск Канонического анализа

Нажмите кнопку Переменные стартовой панели и выберите все переменные (рис. 3). 

Стартовое окно модуля Канонический анализ

Рис. 3. Стартовое окно модуля Канонический анализ

Анализ канонической корреляции основывается на изучении корреляционной матрицы исходных переменных. Поэтому первым шагом анализа является вычисление этой матрицы (если только эта матрица не была задана в окне Открытие файла данных). Заметим, что позже можно уменьшить число переменных, выбрав для анализа лишь часть заданных.

Чтобы получить дополнительно данные по описательным статистикам (например, среднее, корреляции, ковариации) для анализируемых в данный момент переменных, отметьте опцию Отображать описательные статистики и корреляционную матрицу стартовой панели, затем нажмите OK в стартовой панели для перехода в диалоговое окно Просмотр описательных статистик. (См. рис. 4) 

Диалоговое окно Просмотр описательных статистик

Рис. 4. Диалоговое окно Просмотр описательных статистик

Визуальный анализ

Для визуального анализа распределения выбранных переменных во вкладке Дополнительно диалогового окна Просмотр описательных статистик доступны два вида графиков: Диаграмма размаха для переменных и Матричные графики корреляции.

Нажмите кнопку Диаграмма размаха и выберите переменные в исходном наборе данных. В открывшемся после этого окне можно выбрать один из четырех видов диаграмм размаха (для нашего примера выберите медиана/квартили/размах). 

На полученных графиках (см. рис. 5.) отражено среднее значение (в нашем примере - медиана) и изменчивость (в нашем примере - квартили и размах) для выбранных переменных (отметим, что конкретный метод вычисления квартилей и медианы может быть определен во вкладке Общие диалогового окна Параметры, вызываемого из меню Сервис - Параметры).

Диаграмма размаха входных переменных

Рис. 5. Диаграмма размаха входных переменных

Диаграмма размаха полезна для проверки симметричности распределения переменной. Также данное предположение можно проверить при помощи гистограммы (см. ниже).

Теперь нажмите кнопку Матричный график корреляций для вывода на экран матрицы диаграмм рассеяния для выбранных переменных. Эти графики могут использоваться для выявления выбросов, которые могут сильно повлиять на вычисление коэффициентов корреляции, и, таким образом, на сам анализ, см. рис. 6. 

График корреляций

Рис. 6. График корреляций

Как и в большинстве других модулей, по умолчанию средством графического отображения таблицы средних и стандартных отклонений (для её отображения нажмите кнопку Средние и стд. отклонения) является 2М гистограмма распределения соответствующей переменной (см. рис. 8). 

Эта гистограмма, включающая график нормальной кривой, наложенный на наблюдаемое распределение, позволяет визуально оценить отклонения от нормальности.

Таблица средних и стандартных отклонений

Рис. 7. Таблица средних и стандартных отклонений

Например, для построения гистограммы переменной Work_1 нажмите правой кнопкой мыши на среднем значении переменной Work_1 (97.0296), а затем выберите в появившемся меню опцию Быстрые статистические графики - Гистограмма/нормальное. См. рис. 7. 

Гистограмма с нормальной подгонкой переменной Work_1

Рис. 8. Гистограмма с нормальной подгонкой переменной Work_1

Распределение этой переменной (ответы опрашиваемых на первый вопрос) близко к нормальному. Поэтому нет особых причин предполагать для этой переменной нарушение предположения о нормальности. См. рис. 8. 

 


Канонический анализ

Для проведения анализа канонической корреляции нажмите OK, закрыв окно Просмотр описательных статистик и открыв окно Определение модели. См. рис. 9. 

Задание переменных

Для определения двух множеств переменных нажмите на кнопку Переменные для канонического анализа во вкладке Быстрый диалогового окна Определение модели, чтобы открыть стандартное окно выбора переменных из двух списков.

Выберите переменные, соответствующие удовлетворению от работы (т.е. переменные Work_1, Work_2 и Work_3) в первый список, а оставшиеся переменные (т.е. переменные Hobby_1, Hobby_2, Home_1, Home_2, Home_3, Miscel_1, Miscel_2) во второй список.

Окно задания переменных

Рис. 9. Окно задания переменных 

Отметим, что обозначения первый и второй список здесь выбраны произвольно.

Можно поместить переменные, связанные с удовлетворением от работы, во второй список, а остальные - в первый. В этом смысле канонический анализ полностью "симметричен", т.е. вычисляет одни и те же статистики (нагрузки, веса, и т.п.) для переменных в каждом множестве. 

Диалоговые окна предлагают также некоторые другие опции (средние значения и стандартные отклонения, корреляции, графические опции).

Результаты

После задания двух множеств переменных можно приступить непосредственно к каноническому анализу. Нажмите OK. Через небольшой промежуток времени на экране появится окно Результаты канонического анализа. См. рис.10. 

Окно результатов канонического анализа

Рис. 10. Окно результатов канонического анализа

Нажмите кнопку Итоговые результаты для просмотра таблицы результатов канонического анализа.

Итоги канонического анализа

Рис. 11. Итоги канонического анализа

Каноническое значение R. Полученное каноническое значение R достаточно велико (.88), и высоко значимо (p< .001). Напомним, что выводимое здесь каноническое значение R относится к первому (наиболее значимому) каноническому корню. Эта величина может быть проинтерпретирована как корреляция между взвешенными суммами переменных в первом и втором множестве.

Далее, значения в строках с названиями Извлеченная дисперсия и Общая избыточность равны общей корреляции между двумя множествами переменных относительно дисперсий этих переменных. Они существенно отличаются от канонического значения R-квадрат, так как эта статистика отражает долю дисперсии, объясняемую каноническими переменными.

Извлеченная дисперсия. Значения в строке Извлеченная дисперсия равны средней дисперсии, извлеченной из переменных в соответствующем множестве, усредненной по всем каноническим корням.

Все три корня извлекают 100% дисперсии из левого множества переменных (соответствующего удовлетворению от работы) и 54%, поскольку программа извлекает ровно столько корней, сколько переменных в меньшем множестве. Поэтому для одного из двух рассматриваемых множеств имеется столько канонических переменных, сколько исходных переменных в нем содержится. 

Понятно, что в этом примере три независимые канонические переменные, вычисленные для первого множества (содержащего три переменные) должны объяснить 100% всей изменчивости в этом множестве.

Общая избыточность. Способ вычисления Общей избыточности описан в разделе Введение. Получаемые значения можно объяснить следующим образом: пользуясь значениями всех канонических корней и получив значения переменных в правом множестве (семь несвязанных с работой факторов удовлетворения), можно объяснить, в среднем, 61.6% дисперсии переменных в левом множестве. 

Аналогично, можно объяснить 33.3% изменчивости в правой группе по значениям переменных в левом множестве. Эти результаты говорят о достаточно сильной зависимости между переменными двух множеств.

Проверка значимости канонических корней. Теперь проверим, являются ли все три канонических корня значимыми. Напомним, что каноническое значение R, выдаваемое в этой таблице результатов, соответствует лишь первому корню, т.е. наибольшей и наиболее значимой канонической корреляции. 

Для проверки значимости всех канонических корней нажмите кнопку Статистика хи-квадрат для канонических корней во вкладке Канонические факторы диалогового окна Результаты канонического анализа. Полученные результаты приведены ниже на рис. 12: 

Проверка значимости канонических корней

Рис. 12. Проверка значимости канонических корней 

Наибольшее число корней, которое может быть извлечено, равняется наименьшему числу переменных в двух множествах. Поскольку в первое множество были выбраны три переменные, соответствующие удовлетворению от работы, программа извлечет ровно три канонических корня. 

Последовательный критерий значимости работает следующим образом. Сначала рассматриваются все три канонические переменные вместе, т.е. без удаления корней. Полученное значение высоко значимо (p-уровень < 0.000001).

Далее, первый (наиболее значимый) корень "удаляется" и определяется статистическая значимость двух оставшихся корней. Это значение (во второй строке таблицы результатов) не значимо (p-уровень = 0.541689). Можно остановиться на этом и заключить, что только первый корень является статистически значимым и должен быть изучен более подробно.

Если бы значение при втором применении критерия тоже было значимо, мы перешли бы к третьей строке таблицы результатов, чтобы проверить является ли третий оставшийся корень значимым.

Факторная структура и избыточность

Теперь нам известно, что далее мы должны рассматривать только первый канонический корень. Нас интересует, как этот корень может быть проинтерпретирован, т.е. как он коррелирован с переменными в двух множествах?

Как говорилось в разделе Введение, интерпретация канонических "факторов" похожа на используемую в факторном анализе. А именно, можно вычислить корреляции между переменными в каждом множестве с соответствующим каноническим корнем или переменной (напомним, что каноническая переменная в каждом множестве определяется как взвешенная сумма переменных этого множества). Эти корреляции также называются нагрузками канонических факторов или структурными коэффициентами.

Вкладка Факторная структура

Рис. 13. Вкладка Факторная структура

Чтобы вычислить эти величины (также как и значения извлеченной дисперсии для каждого множества), нужно нажать на кнопку Факторная структура и избыточности во вкладке Факторная структура диалогового окна Результаты канонического анализа для просмотра соответствующей таблицы результатов.

Факторная структура левого множества

Сначала, рассмотрим нагрузки в левом множестве. См. рис.14.

Факторная структура левого множества

Рис. 14. Факторная структура левого множества

Напомним, что только первый канонический корень оказался статистически значимым, и поэтому только он нуждается в интерпретации.

Можно заметить, что все три переменные, относящиеся к удовлетворению от работы, имеют значительную нагрузку на первый канонический фактор, иными словами они сильно коррелируют с этим фактором.

В качестве меры избыточности отображается среднее значение дисперсии, объясняемой первым корнем. Для этого были просуммированы квадраты нагрузок канонических факторов и сумма поделена на 3 (число переменных в первом множестве).

Полученная таблица результатов показана внизу (нажмите кнопку Факторная структура и избыточности во вкладке Факторная структура окна Результаты канонического анализа). См. рис. 14.

Таблица Доли извлеченной дисперсии

Рис. 15. Таблица Доли извлеченной дисперсии

Как видите, первый канонический корень извлекает в среднем около 77% дисперсии из переменных, соответствующих удовлетворению от работы. Если умножить это значение на долю дисперсии, общей между каноническими переменными в двух множествах (т.е. на R-квадрат), то получится число во втором столбце таблицы результатов (избыточность).

Поэтому, задавая значения переменных в правом множестве (факторы не связанные с работой), можно объяснить около 60% дисперсии в переменных, связанных работой, исходя из значения первого канонического корня.

Факторная структура правого множества

Как видно из таблицы, первому каноническому корню или фактору соответствуют наибольшие нагрузки относительно переменных, связанных с досугом (Hobby_1 и Hobby_2). См. рис. 15.

Факторная структура правого множества

Рис. 16. Факторная структура правого множества

Нагрузки по переменным, отвечающим за удовлетворение от семейной жизни, намного меньше. Поэтому можно заключить, что значительная корреляция между переменными в двух множествах (на основании сведений о первом корне), вероятно, является следствием зависимости между удовлетворением от работы и удовлетворенностью жизнью вообще.

Если рассматривать удовлетворение от работы как объясняющую переменную, можно сказать, что оно влияет на удовлетворение от досуга и общую удовлетворенность, но не влияет (или влияет гораздо меньше) на удовлетворение от семейной (домашней) жизни. См. рис. 16.

Ниже на рис. 17 приведена таблица результатов с коэффициентами избыточности для правого множества переменных.

Таблица Доли извлеченной дисперсии

Рис. 17. Таблица Доли извлеченной дисперсии

Как видите, первый канонический корень объясняет почти 42% дисперсии в переменных правого множества. Задавая значения переменных, связанных с работой, на основании первого канонического корня можно объяснить около 33% дисперсии в других переменных.

Отметим, что эти величины "занижены" относительной некоррелированностью канонической переменной и переменных, связанных с удовлетворенностью семейной жизнью.

Канонические значения

Напомним, что канонические переменные - это взвешенные суммы переменных соответствующего множества.

Чтобы просмотреть веса переменных в отдельных таблицах результатов, нужно нажать кнопку Канонические веса, левое и правое множества во вкладке Канонические значения диалогового окна Результаты Канонического анализа. См. рис. 18.

Таблицы Канонические веса

Таблицы Канонические веса

Рис. 18. Таблицы Канонические веса

Приведенные выше веса соответствуют стандартизированным (z преобразованным) переменным обоих множеств. Можно использовать эти веса для вычисления значений канонических переменных.

Эти значения можно сохранить с помощью кнопки Сохранить канонические значения во вкладке Канонические значения диалогового окна Результаты канонического анализа.

Графическое изображение канонических значений

Теперь мы выведем на экран в графическом виде соотношение между значениями канонических переменных из правого и левого множеств.

Нажмите кнопку Диаграмма рассеяния канонических корреляций во вкладке Факторная структура, чтобы перейти в диалоговое окно с таким же названием.

Для построения диаграммы рассеяния первой (и единственной значимой) канонической переменной, выберите Корень 1 в левом множестве и Корень 1 в правом множестве.

Задание параметров диаграммы рассеяния канонических переменных

Рис. 19. Задание параметров диаграммы рассеяния канонических переменных

Теперь нажмите OK для построения интересующего нас графика. (Заметим, что линия линейной регрессии была добавлена на наш график с помощью опции График: Подгонка диалогового окна Все параметры, которое можно вызвать двойным щелчком мыши на панели графика).

Диаграмма рассеяния канонических переменных

Рис. 20. Диаграмма рассеяния канонических переменных

На полученном графике нет резко выраженных выбросов. Кроме того, отклонения от регрессионной линии не образуют каких-либо характерных очертаний (например, располагаясь в виде U или S вокруг линии регрессии).

Поэтому можно заключить, что никаких заметных нарушений основных предположений канонического анализа не наблюдается.

Группы наблюдений

Другой интересной особенностью этого графика является возможность наглядной проверки разбиения наблюдений на группы. Такие кластеры (или группы) могут возникать, если анализируемая выборка неоднородна по своей природе.

Например, предположим, что в выборку включены ответы анкетируемых из двух разных областей промышленности, работающих в совершенно разных условиях.

В этом случае вполне реально, что при анализе графика окажется, что одна из групп более удовлетворена своей работой и проводимым досугом, чем другая. В этом случае на графике будут явно выражены две группы точек: одна ближе - к нижнему концу линии, а вторая - ближе к верхнему концу. Однако в нашем примере точки на графике не образуют таких кластеров.

 


Заключение

Исходя из выполненного анализа данных, можно заключить, что удовлетворенность работой влияет на удовлетворение от досуга и на удовлетворение от всех не связанных с работой сфер деятельности. При этом, похоже, что оно никак не влияет на удовлетворение от семейной жизни.

На практике, перед тем, как обобщать эти заключения, следует повторить анализ для других выборок. А именно, вам следует убедиться, что структура канонического фактора, которая привела к такой интерпретации первого канонического корня, достоверна (т.е. примерно одинакова для разных выборок).

 

‹‹
››
ПнВтСрЧтПтСбВс


info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2018

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта