База примеров

Пример использования визуального анализа данных

Круговые диаграммы

Линейные графики

Диаграмма Вороного

Трассировочный график

График вероятность – вероятность

Последовательные / наложенные графики

Диаграмма размаха

Диаграмма диапазонов

Тернарные графики

Лица Чернова



Проиллюстрируем графические возможности пакета STATISTICA. Будем использовать следующую базу данных: в первом столбце содержится дата (информация фиксировалась по 2 раза в месяц в течении месяца), во втором – цены на газ Газпрома на Лондонской товарной бирже на текущий день (данные взяты с сайта http://www.lme.com), во второй – курс евро (http://www.audito.ru/rateofexchange).

STATISTICA

Таблица 1. Исходные данные

Остальные столбцы содержат вымышленную информацию. Мы предполагаем, что имеется некоторая номинальная переменная, принимающая только два значения –1 и 0 (показывающая, например, наличие/отсутствие некоторого фактора, влияющего на результаты торгов) и некоторая категориальная переменная с натуральными значениями 5, 6, 7, 8, 9 и 10 (означающая, например, рейтинг Газпрома). Столбцы 6-8 показывают минимальный, средний и максимальный курсы евро в течении дня, а столбцы 9-11 – вероятности увеличения, уменьшения курса и того, что курс останется неизменным. Естественно, что сумма значений в трёх последних столбцах равна 1 для каждого наблюдения.

Таблица содержит 25 наблюдений.


Круговые диаграммы

Начнём с простейших графиков.

Круговая диаграмма является одним из наиболее часто используемых графических форматов для представления пропорций или значений переменных

Пусть, например, Вам нужно включить в доклад диаграмму, показывающую, какое относительное количество времени значение курса евро находилось в промежутках, по величине равных восьмой части всего диапазона изменения курса. Зайдём в модуль Графика/2M Графики/Круговые диаграммы.

На вкладке Дополнительно укажем переменную – Курс евро и количество категорий – 8. Можно указать тип диаграммы (2M,3M) и форму (окружность, эллипс).

Круговая диаграмма, STATISTICA

Задание параметров графика Круговые диаграммы

Нажмём OK.

Круговая диаграмма, STATISTICA

 Круговая диаграмма переменной Курс евро


Линейные графики

На линейных графиках отдельные точки данных соединены линией. Эти графики являются простым способом представления и исследования последовательностей значений. Графики трассировочного типа можно использовать для воспроизведения следа (а не последовательности). Также линейные графики применяются для изображения непрерывных функций, теоретических распределений и т.п.

В нашем случае данные во втором и третьем столбцах вполне естественно интерпретировать как временные ряды, поэтому линейные графики являются очень эффективным средством визуализации.

К примеру, пусть мы хотим визуально проанализировать различия в динамиках изменений результатов торгов и курса евро. Для этого запустим Графика/2M Графики/Линейный график (для переменных).

На вкладке Быстрый укажем интересующие нас переменные и тип графика – Составной.

Построенный график окажется несодержательным:

Линейный график, STATISTICA

Линейный график переменных Цены на газ и Курс евро

Причина понятна – колебания курса евро незначительны по сравнению с колебанием результатов торгов. Поэтому укажем другой тип графика – с двойной осью Y (вкладка Дополнительно).

Линейный график, STATISTICA

Вкладка Дополнительно окна 2M линейные графики

Сделаем ещё одно изменение. На вкладке Параметры1 укажем в группе Параметры отображения в качестве метки наблюдений Переменная, а в качестве переменной – Дата.

Нажмём OK.

Линейный график, STATISTICA

График с двойной осью Y переменных Цены на газ и Курс евро.


Диаграмма Вороного

Частным случаем диаграмм рассеяния является диаграмма Вороного

Эта особая диаграмма рассеяния одной переменной является в большей степени аналитическим средством, нежели просто методом графического представления данных. Предлагаемые ею решения помогают моделировать множество явлений в естественных и социальных науках (см. Coombs, 1964 г.; Ripley, 1981 г.). Программа разделяет пространство между точками данных, представленными координатами X, Y в двумерном пространстве. Пространство между отдельными точками данных делится границами на такие области, каждая точка которых находится ближе к заключенной внутри точке данных, чем к любой другой соседней точке данных. Использование этого метода сильно зависит от области исследования; однако во многих случаях к этой диаграмме полезно добавлять дополнительные измерения, используя категоризацию и выбор сложных подгрупп.

Диаграмма рассеяния, STATISTICA

Диаграмма Вороного категориальной переменной и курса евро


Трассировочный график

Трассировочный график является частным случаем линейного графика.

На трассировочных графиках сначала строится диаграмма рассеяния двух переменных, а затем отдельные точки данных соединяются линией (в порядке их считывания из файла данных). В этом смысле трассировочные графики визуализируют "путь" последовательного процесса (движение, изменение явления во времени и т.п.).

Трассировочный график, STATISTICA

Трассировочный график переменных Цены на газ Газпрома и Курс евро


График вероятность – вероятность

На графике вероятность-вероятность строится зависимость между наблюдаемой функцией распределения (доля непропущенных значений ≤ x) и теоретической функцией распределения для оценки подгонки теоретического распределения к наблюдаемым данным. Если все точки графика попадают на диагональную линию (со сдвигом 0 и наклоном 1), то можно сделать вывод, что теоретическое распределение точно приближает наблюдаемое распределение. Если точки данных не попадают на диагональную линию, то этот график можно использовать для наглядной проверки, подходит ли распределение к данным (например, если точки располагаются в форме буквы S относительно диагональной линии, то может потребоваться преобразование данных для того, чтобы привести их распределение к нужному виду).

Пусть, например, мы хотим визуально проверить, является ли распределение величины Курс евро нормальным. Для этого укажем на вкладке Дополнительно тип распределения – нормальное, а также поставим галочку в поле Вычислить по данным.

График вероятность-вероятность, STATISTICA

Задание параметров построения графиков вероятность-вероятность.

Нажмём ОК.

График вероятность-вероятность, STATISTICA

График вероятность – вероятность для переменной Курс евро


Последовательные / наложенные графики

Все типы графиков из этой группы используются для представления последовательностей значений. Наложенный вид этих графиков специально разработан для представления большой категории множеств данных, в которых последовательные переменные представляют части ("порции") целого.

Например, построим наложеннный график типа Зонный для переменных Вероятность уменьшения курса евро, Вероятность того, что курс евро не изменится и Вероятность увеличения курса евро.

Последовательный график, STATISTICA

Наложенный (зонный) график для переменных, обозначающих вероятности колебания курса евро


Диаграмма размаха

На диаграммах размаха диапазоны значений выбранной переменной (или переменных) строятся отдельно для групп наблюдений, определяемых значениями категоризующей (группирующей) переменной. Центральная тенденция (например, медиана или среднее) и статистики диапазонов или вариации (например, квантили, стандартные ошибки или стандартные отклонения) вычисляются для каждой группы наблюдений, а выбранные переменные представляются в стиле, указанном в списке Тип графика (на вкладке Быстрый или Дополнительно диалогового окна 2М диаграммы размаха). Здесь можно указать и точки выбросов.

Пусть нам нужно узнать, какие значения цен на газ наиболее вероятны при различных значениях категориальной переменной.

Диаграмма размаха, STATISTICA

Диаграмма размаха цен на газ в зависимости от значения категориальной переменной.


Диаграмма диапазонов

На диаграммах диапазонов системы STATISTICA представлены диапазоны значений или столбцы ошибок, относящиеся к определенным точкам данных, в форме прямоугольников или отрезков. В отличие от стандартных диаграмм размаха диапазоны или столбцы ошибок не вычисляются по данным, а определяются исходными значениями выбранных переменных. Для каждого наблюдения строится один диапазон или столбец ошибок. В простейшем случае нужно выбрать три переменные, одна из которых будет представлять средние точки, другая - верхние границы, а третья - нижние границы.

Например, построим графики для переменных Минимальный, Средний и Максимальный курс.

Диаграмма диапазонов, STATISTICA

Диаграмма диапазонов для переменных Минимальный, Средний и Максимальный курс.


Тернарные графики

Тернарные (или "трехлинейные") графики используются для исследования связей между несколькими переменными, когда три из них представляют собой, например, компоненты смеси (это означает, что сумма их остается постоянной для всех наблюдений). Обычное такие графики применяются при экспериментальном исследовании зависимости отклика от относительного содержания трех компонент (например, трех химических соединений), при этом соотношение компонент изменяется с целью определения его оптимального значения (например, при составлении смеси). На тернарных графиках для построения зависимости четырех (или более) переменных (компонент X, Y и Z и откликов V1, V2 и т.д.) используется треугольная система координат на плоскости (тернарные диаграммы рассеяния или линии уровня) или в пространстве (тернарные трехмерные диаграммы рассеяния или поверхности). При построении тернарного графика относительная доля каждой компоненты (для каждого наблюдения) ограничена их общей постоянной суммой (например, 1). При создании графика масштаб долей по умолчанию изменяется таким образом, чтобы эта сумма была равна 1 для каждого наблюдения

В нашем случае вполне естественно построить тернарный график для переменных, обозначающим измененение курса евро.

Тернарный график, STATISTICA

Двумерный тернарный график переменных, обозначающих вероятности изменения курса.


Лица Чернова

Лица Чернова это один из наиболее искусно разработанных типов пиктографиков. Для каждого наблюдения рисуется отдельное лицо. Переменные представлены как формы и размеры отдельных черт лица (например, длина носа, угол между бровями, ширина лица). Соответствие представленных на графике переменных конкретным чертам лица могут быть установлены в диалоговом окне

Покажем на нашем примере, как можно применять опцию включить подгруппы.

На вкладке Дополнительно нажмём кнопку Выделить пиктограммы и в появившемся окне укажем условие выбора: v3>34,5 (то есть мы хотим выделить пиктограммы, которые соответствуют дням, в которых курс евро был более 34,5).

Лица Чернова, STATISTICA

Окно Задать подгруппы

На вкладке Дополнительно окна Пиктографики укажем переменные: Категориальная и Номинальная

Лица Чернова, STATISTICA

Пиктограмма Лица Чернова

Ширина лица соответствует номинальной переменной, а уровень уха – категориальной. Пунктирной рамкой обведены лица, построенные по наблюдениям, удовлетворяющие указанному условию.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание групповых занятий

 

 





info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia, 2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта