База примеров

Изучение имиджа банков

Исходная таблица представляет собой модельные данные, агрегирующие ответы респондентов относительно их представлений о привлекательности различных банков. 

Респондентам был представлен список банков; предлагалось по каждому из тех, которые они знают, выбрать характеристики, наилучшим образом отражающие деятельность и состояние того или иного банка. 

Респондент может отметить все характеристики по каждому из банков, может не отметить ни одной. 

Названия всех банков являются вымышленными. 

Таблица агрегированных данных, содержащая ответы 11089 респондентов, приведена ниже.

Таблица 1. Исходная таблица данных

Так, например, 121 респондент отмечал в YellowBank индивидуальный подход к клиентам, 148 человек отмечали комфортную атмосферу в данном банке и т.п. 

Основной целью исследования является более наглядное представление «имиджа» каждого из банков, что малоэффективно сделать путем визуального сравнения абсолютных или относительных частот в таблице. 

Воспользуемся Анализом соответствий, содержащим большой спектр разведочных методов анализа двухвходовых и многовходовых таблиц. Основной задачей данного метода является упрощенное представление (в пространстве небольшой размерности) информации, содержащейся в больших частотных таблицах. 

Итак, исходные данные представляет собой таблицу сопряженности (13 х 8). Каждая строка и столбец содержат разное число ответов. Например, из таблицы понятно, что YellowBank является наиболее известным, а BlueBank – наименее известным среди респондентов. Очевидно, что напрямую сравнивать подобные данные нельзя. 

Выведем профили строк и столбцов таблицы, т.е. проценты по каждой строке и столбцу.

Таблица 2. Профили строк

Таблица 3. Профили столбцов

Представленные профили являются аналогами векторов в пространстве. Таким образом, если мы рассматриваем точки-характеристики в пространстве банков, то, например, вектор (18,0 18,0 7,74 6,85 5,95 6,7 11,61 25,15) задает точку «Индивидуальный подход к клиентам» в 8-ми мерном пространстве. 

Если же мы наоборот рассматриваем точки-банки в пространстве характеристик, то, например, вектор (3,87 4,74 7,36 8,0 4,23 8,01 5,96 4,58 11,27 9,25 10,73 11,05 10,95) задает YellowBank в 13-мерном пространстве. 

Исходя из содержательной стороны задачи, для определения предпочтений респондентов более целесообразным будет рассматривать банки в пространстве характеристик.

Средний профиль (называемый также центроидом) можно рассматривать как некую точку, лежащую в центре облака точек, представленного остальными профилями. Так, если какой-нибудь профиль сильно отличается от среднего, то соответствующая ему точка будет находиться далеко от центра, и наоборот.

Поскольку профили, по сути, не несут информации о том, какое количество респондентов они представляют, необходимо ввести понятие массы или, иначе говоря, веса профиля. 

Массы столбцов сj (массы строк ri) получаются делением маргинальных сумм по столбцам (строкам) на объем выборки:

Так, например, YellowBank будет соответствовать масса 3123/11089=0,28.

Очевидно, что расположение объектов в пространстве можно оценить, вычислив расстояние между ними, для чего в Анализе соответствий используется хи-квадрат расстояние между профилями:

где вектор  – профиль i-й строки; n – число столбцов

cj – массы столбцов, j=1,2,…n.

Одним из ключевых понятий в Анализе соответствий является понятие инерции, заимствованное из механики. Как и в природе у каждого физического объекта есть центр тяжести, у каждого элемента объекта есть масса, так и в нашем случае каждый профиль имеет свою массу (r) и находится на определенном расстоянии до центра тяжести - среднего профиля (d).

Моментом инерции каждого элемента объекта является масса элемента, умноженная на квадрат его расстояния до цента тяжести, а моментом инерции всего объекта является сумма моментов инерции всех элементов объекта:

Геометрически инерция интерпретируется как мера разброса профилей в многомерном пространстве. Чем больше профили удалены друг от друга, тем больше инерция. 

Нетрудно показать, что значение статистики хи-квадрат для таблицы может быть определено как значение общей инерции, умноженной на количество наблюдений:

    (1)

xij – наблюдаемые значения в ячейках таблицы;

ni – маргинальная сумма по строкам; 

 nj – маргинальная сумма по столбцам.

(1) есть привычная формула для вычисления статистики хи-квадрат Пирсона для двувходовых таблиц.

Если строки и столбцы полностью независимы друг от друга, то элементы таблицы могут быть воспроизведены исключительно при помощи сумм по строкам и столбцам. Ожидаемые частоты таблицы, в которой столбцы и строки независимы, вычисляются перемножением соответствующих маргинальных сумм по стокам и столбцам и делением полученного результата на общую сумму. 

Итак, в (1) в числителе стоят разности наблюдаемых и ожидаемых частот; любое отклонение от ожидаемых величин будет давать вклад в совокупную статистику хи-квадрат. 

Представить себе расположение точек в пространстве большем 3-х чрезвычайно сложно. Одной из основных задач Анализа соответствий является снижение размерности пространства и, таким образом, визуализация профилей в более удобном для восприятия виде. 

Итак, предположим для наглядности, что мы хотим снизить размерность пространства до n=2. Таким образом, нам необходимо подобрать такую плоскость, которая наиболее точно отражала хи-квадрат расстояние между точками. 

Для каждой данной плоскости расстояние между точкой профиля и плоскостью является наименьшим хи-квадрат расстоянием между профилем и плоскостью. Точка, лежащая на плоскости и наиболее близкая к профилю, есть проекция профиля на плоскость.

Пусть - расстояние между профилем и его проекцией на плоскость 

 - расстояние на плоскости от проекции профиля до центроида. 

Таким образом:

Рис. 1 Представление расстояния между профилем и центроидом 

Тогда общая инерция может быть разложена на две составляющие – инерцию на плоскости и остаточную инерцию:

Таким образом, нам необходимо найти такую плоскость, которая бы минимизировала остаточную инерцию, показывающую, какую долю различий мы потеряли при переходе в двумерное пространство (или же наоборот, такую плоскость, которая сохраняет максимально возможную долю информации в двумерном пространстве).

Мерой качества решения может выступать процент инерции, объясненной выбранными осями.

Отметим также, что для характеристики того, насколько хорошо точка объясняется осью, используется значение , где  - угол между профилем и осью.

- относительный вклад оси в инерцию.

Таким образом, чем ближе лежит точка в направлении оси, тем меньше угол и тем больше относительный вклад (или, что то же ).

Учитывая связь общей инерции со статистикой хи-квадрат (1) отметим, что анализ соответствий можно рассматривать как метод декомпозиции статистики хи-квадрат для двухвходовых таблиц с целью определения пространства наименьшей размерности, позволяющего представить отклонения от ожидаемых величин. 

Снижение размерности в Анализе соответствий достигается методом сингулярного разложения, являющимся обобщением метода разложения по собственным значениям, применяемым в факторном анализе. 

Мы не будем подробно останавливаться на алгоритме сингулярного разложения. Отметим только, что сингулярное разложение матрицы А размерности i x j выражается в виде произведения

где Г – диагональная матрица, содержащая К положительных чисел, называемых сингулярными числами, в убывающем порядке:  ; К – ранг матрицы А.

 , т.е. столбцы матриц U и V – ортонормированные.

Связь между методами разложения по собственным значениям и сингулярным разложением может быть выражена в следующих соотношениях:

Таким образом вектора V идентичны собственным векторам матрицы ,сингулярные числа  матрицы А являются квадратными корнями собственных чисел матрицы 

Итак, в результате применения Анализа соответствий мы получили 7 осей, для каждой из которых определены сингулярное значение; собственное значение; процент инерции, объясненной данной осью; вклад каждой оси в значение статистики хи-квадрат.

Таблица 4. Характеристики осей 

На основании полученных результатов мы можем сделать предположение об оптимальном числе осей, необходимых для наглядного представления наших данных. 

Как видно из таблицы, первые 2 оси определяют 87,1% инерции; 3 оси определяют 96,7% инерции; каждая из оставшихся осей объясняет меньше 2% общей инерции. 

Мы остановимся на двумерном решении, представляемом первыми двумя осями. 

Ниже приведены таблицы с координатами измерений, а также основными статистиками для строк и столбцов при двумерном решении.

Таблица 5. Координаты характеристик, основные статистики

Таблица 6. Координаты банков, основные статистики

Итак, мы рассматриваем точки-банки в двумерном пространстве характеристик. Для интерпретации осей необходимо учесть вклад, который каждая точка вносит в инерцию рассматриваемых осей (см. столбцы 7 и 9 таблицы 5).

У нас есть 13 высказываний, и, следовательно, средний абсолютный вклад для строк будет равен 1/13=0,077. В качестве точек, в наибольшей степени определяющих геометрическую ориентацию осей, будем рассматривать те точки, абсолютный вклад которых превышает порог 0,077.

Дополнительно, следует также обращать внимание на значение косинуса угла между профилем и осью (столбцы 8 и 10 таблицы 5). Как было показано ранее, чем больше значение , тем лучше точка объясняется выбранной осью. В качестве порогового значения в данном случае можно выбирать уровень 0,5, т.к. при значении , - не менее половины инерции точки принадлежит данной оси. 

Для выявления наиболее «значимых» характеристик, построим для них диаграмму рассеяния. По оси ОХ отложим вклады в инерцию, по оси OY – значение . Красным цветом на графике отмечены пороговые значения.

Рис. 2 Диаграмма рассеяния для параметров горизонтальной оси

Итак, применительно к первой (горизонтальной) оси выбираем точки:

  • Удобное месторасположение

  • Комфортная атмосфера

  • Большая сеть банкоматов

  • Большая сеть отделений в городе

  • Индивидуальный подход к клиентам

  • Доброжелательность персонала

Важно также учесть знак координаты точек. Так положительный знак (см. столбец 2 таблицы 5) имеют характеристики:

  • Удобное месторасположение

  • Большая сеть отделений в городе

  • Большая сеть банкоматов

Отрицательный знак имеют:

  • Доброжелательность персонала

  • Комфортная атмосфера

  • Индивидуальный подход к клиентам

Представим на оси наши характеристики:


           Доброжелательность персонала

            Удобное месторасположение

            Комфортная атмосфера

            Большая сеть отделений в городе

            Индивидуальный подход к клиентам

            Большая сеть банкоматов

Таким образом, интерпретируя горизонтальную ось, мы можем определить её как «клиентоориентированность – территориальное удобство»

Обратим внимание, что геометрически противоположные полюса не являются логически противоположными, а только позволяют нагляднее представить имидж банков. 

Проведем аналогичные рассуждения применительно ко второй (вертикальной) оси.

Рис. 3 Диаграмма рассеяния для параметров вертикальной оси 

Выбираем точки:

  • Стабильность

  • Умеренные цены за услуги

  • Выгодные условия кредита

  • Простое оформление необходимых документов

  • Большой выбор услуг

  • Оперативность выполнения операций

Положительный знак имеют характеристики (см. столбец 3 таблицы 5):

  • Умеренные цены за услуги

  • Выгодные условия кредита

  • Простое оформление необходимых документов

  • Оперативность выполнения операций

Отрицательный знак имеют характеристики:

  • Стабильность

  • Большой выбор услуг

Таким образом, на оси характеристики представлены так:

Умеренные цены за услуги

Выгодные условия кредита

Простое оформление необходимых документов

Оперативность выполнения операций


Стабильность

Большой выбор услуг


Итак, вертикальная ось может быть интерпретирована как «Большой, стабильный – благоприятные условия для сотрудничества»

В ходе работы Анализа соответствий мы выявили ключевые факторы, определяющие имидж банков и образующие пространство, в котором мы можем наглядно представить рассматриваемые банки.

Рис. 4 Итоговое представление банков в двумерном пространстве 

На основе информации, полученной из графика приведенного выше, можно сделать следующие выводы: 

YellowBank, WhiteBank, GreenBank предпочтительны клиентам в основном из-за их территориального удобства. Банки обладают большой сетью отделений и банкоматов, которые располагаются в легкодоступных местах. 

RedBank можно назвать клиентоориенторованным – в нем клиенты чувствуют себя комфортно, персонал относится к посетителям внимательно и доброжелательно. 

BlueBank и BlackBank респонденты выбирали в основном в силу благоприятных условий для сотрудничества. Банки выгодно и оперативно заключают сделки, предлагают клиентам умеренные цены за услуги, не осложняя сотрудничество трудоемким заполнением различных документов. 

BrownBank и GreyBank можно отнести к числу стабильных банков с широким выбором предоставляемых услуг. Сотрудничество с банками вполне комфортное и приятное.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание груповых занятий






info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта