База примеров

Исследование гемограмм пациентов

Исходные данные

Импорт из Excel в STATISTICA

Визуальный анализ

Диаграмма рассеяния

Способ 1

Способ 2

Средство Кисть

Диаграмма Вороного

Описательный (дескрипитивный) анализ гемограмм

Анализ выбросов

Корреляционный анализ

Корреляции Пирсона

Корреляции Спирмена и Кендалла

Исследование эффективности лечения: введение новой переменной

Цель дальнейшего исследования

Проверка гипотезы о нормальности

Сравнение выборок

Какой метод лечения более эффективен?

Есть ли существенное различие состояний пациентов до и после лечения?

 


Исходные данные

Исходная таблица данных содержится в формате Excel.

Нажмите, чтобы увеличить

Таблица содержит информацию о 150 пациентах.

Четыре столбца содержат значения показателей их гемограмм – количество эритроцитов (в 1012/л), тромбоцитов (109/л), лейкоцитов (109/л), гемоглобин (г/л).

Импорт из Excel в STATISTICA

Шаг 1. При попытке открытия файла в системе STATISTICA (через меню Файл/Открыть) программа предложит нам на выбор несколько вариантов.

Открытие файла

Выберем второй пункт.

Шаг 2. Далее необходимо выбрать номер листа в таблице Excel, который содержит нужную нам информацию. Сделать это очень просто.

Выберите лист

Выбреем Лист 1 и нажмём OK.

Шаг 3. Далее вам необходимо:

  • указать диапазон значений во внешнем файле данных, который будет импортирован;

  • решить, надо ли импортировать имена наблюдений и переменных;

  • сохранить (или нет) формат ячеек из исходной таблицы.

Открыть файл

Поставим галочки во все поля и нажмём OK.

Шаг 4. Теперь в программе STATISTICA открыта таблица.

Нажмите, чтобы увеличить

Сохраним её под именем Гемограмма.sta.

Шаг 4. Введём дополнительную информацию о переменных.

Для этого выберем в меню пункт Данные/Все спецификации переменных.

Редактор спецификаций переменных

В появившемся диалоге Редактор спецификаций переменных можно: указать длинные имена, изменить типы данных, коды пропущенных данных, добавить новые переменные или удалить старые и т.д.

Редактор спецификаций переменных

 


Визуальный анализ

Вначале данные нужно увидеть…

Система STATISTICA включает широкий спектр графических методов для визуального представления результатов исследований. Все графические средства системы STATISTICA обеспечивают возможность выбора встроенного аналитического интерактивного метода анализа и содержат большой набор программ настройки, позволяющих пользователю интерактивно управлять отображением информации на экране.

Диаграмма рассеяния

Построим диаграмму рассеяния для переменной Тромбоциты. Сделать это очень просто.

Из медицинской практики известно, что увеличение числа тромбоцитов в крови может привести к тромбозу.

Для выявления больных со слишком большим уровнем тромбоцитов в крови построим диаграмму рассеяния переменных Номер пациента и Тромбоциты.

Диаграмма рассеяния

Врач определяет критический уровень количества тромбоцитов в крови для проведения операции. Пусть это значение равно 250.

Проведём горизонтальную прямую, соответствующую данному значению.

Это можно сделать двумя способами.

Способ 1

Выберем из раскрывающегося списка пункт Параметры графика. В появившемся окне перейдём на закладку Ось: Дополнительные риски.

Выберем Ось – Левая Х, укажем Положение = 250, поставим галочку в окне сетка.

Все параметры графика

Можно также настроить тип и толщину линии. Для внесения изменений нажмём на кнопку Сетка.

Свойства линии

В итоге на диаграмме рассеяния отобразится прямая Тромбоциты = 250.

Диаграмма рассеяния

Способ 2

Воспользуемся панелью Графические инструменты.

Выберем рисование стрелки и проведём соответствующую прямую на графике

Диаграмма рассеяния

Как и раньше, можно настраивать опции построенного объекта.

Параметры объекта стрелка

Теперь выделим пациентов, количество тромбоцитов в крови которых превышает данный уровень.

Для этого воспользуемся средством Кисть.

Средство Кисть

Средство Кисть является очень удобным для визуального анализа данных.

Нажмём на кнопку 2M Закрашивание на панели инструментов.

2М Закрашивание

Выделим точки, соответствующие наблюдениям, лежащим выше прямой Тромбоциты = 250.

Выделение точек

Если мы теперь откроем таблицу Редактор данных графика, то отмеченные наблюдения будут выделены красным цветом.

Диаграмма Вороного

Построим диаграмму Вороного по переменным Гемоглобин и Тромбоциты. Сделать это очень просто.

Диаграмма Вороного

На диаграмме Вороного значения двух переменных X и Y изображаются, как на диаграмме рассеяния, а затем пространство между отдельными точками данных делится границами, окружающими каждую точку данных, на области по следующему принципу: каждая точка области находится ближе к заключенной внутри точке данных, чем к любой другой соседней точке данных.

Приведем пример практического использования диаграммы Вороного.

Предположим, что на анализ поступил новый больной.

Для назначения лечения было бы полезно знать, какая гемограмма ему наиболее близка. Это можно сделать с помощью диаграммы Вороного.

Пусть в поступившей гемограмме указаны значения: Тромбоциты = 220 и Гемоглобин = 105. Проведём на графике соответствующие прямые; точка пересечения прямых будет соответствовать новому пациенту.

Диаграмма Вороного

Выявим наблюдение, которое является «хозяином» области, в которое попадает данное наблюдение.

Для этого воспользуемся средством Кисть.

Средство Кисть

 


Описательный (дескриптивный) анализ гемограмм

Вычислим описательные статистики для переменных, содержащих информацию о гемограммах. Сделать это очень просто.

Шаг 1. Запустим модуль Основные статистики и таблицы.

Основные статистики и таблицы

Выберем пункт Описательные статистики. Нажмём OK.

Шаг 2. Выбор переменных

Выберите переменные

Шаг 3. На вкладке Дополнительно укажем интересующие нас статистики.

Описательные статистики

Нажав OK, получим таблицу с описательными статистиками.

Рабочая книга

Описательные статистики по группам

Достаточно часто возникает необходимость вычислить описательные статистики отдельно по каждой группе наблюдений.

Например, вычислим средние значения показателей гемограммы отдельно для каждой группы пациентов, а также для мужчин и для женщин.

Шаг 1. В диалоге Основные статистики и таблицы выберем пункт Группировка и однофакторный ДА.

В окне Внутригрупповые статистики и корреляции перейдём на вкладку Списки таблиц.

Внутригрупповые статистики и корреляции

Шаг 2. Выберем группирующие переменные.

Выберите до 6 списков переменных

Шаг 3. Выберем зависимые переменные.

Выберите зависимые переменные

Нажмём на кнопку OK в диалоге Внутригрупповые статистики и таблицы.

В рабочей книге STATISTICA появится таблица, содержащая значения средних по группам.

Рабочая книга

 


Анализ выбросов

Выбросами являются резко выделяющиеся наблюдения, например, пациенты с избыточным числом тромбоцитов.

Выявление выбросов осуществляется посредством построения двумерных диаграмм размаха.

Построим диаграмму размаха по переменной Тромбоциты.

Выберем в меню пункт Графики/2M Графики/Диаграммы размаха. В появившемся окне перейдём на вкладку Дополнительно.

2М Диаграмма размаха

Укажем переменные.

Выберите переменные

Пока что мы не будем указывать группирующую переменную.

Отметим, что на вкладке Дополнительно окна 2M Диаграмма размаха Вы можем настроить опции для выявления наблюдений – выбросов (например, Вы можете указать Коэффициент выбросов).

Нажмём OK в диалоге 2M Диаграмма размаха.

Диаграмма размаха

На диаграмме размаха отмечены четыре выброса – три «слишком больших» значения и одно «слишком маленькое».

Визуально анализируя диаграмму размаха, Вы можете получить представление об изменчивости переменной.

Определим, какие именно наблюдения являются выбросами. Один из способов нам уже известен – можно построить диаграмму рассеяния для переменных Номер наблюдения и Тромбоциты и при помощи средства Кисть выделить нужные наблюдения.

Опишем другой способ. Расположим наблюдения по убыванию переменной Тромбоциты.

Для этого выберем из меню пункт Данные/Сортировка.

В появившемся окне укажем параметры Ключа 1.

Параметры сортировки

После нажатия на кнопку OK наблюдения в исходной таблице данных будут расположены в порядке убывания переменной Тромбоциты.

Таблица данных

Теперь мы можем определить, какие наблюдения являются выбросами – это будут первые три и последнее наблюдения в таблице. Итак, «нестандартный» уровень тромбоцитов в крови выявлен у пациентов номер 71, 87, 79 и 97.

Теперь вновь вызовем диалог 2M Диаграмма размаха и зададим в окне Переменные в качестве группирующей переменной переменную Пол.

Диаграмма размаха

Отметим, что наблюдения – выбросы, отмеченные на этой диаграмме, отличаются от наблюдений-выбросов на диаграмме, построенной без разбиения на группы.

Например, значение Тромбоциты = 300, являющееся выбросом для наблюдений, рассмотренных вместе, оказывается «нормальным» при рассмотрении только группы женщин. Есть и примеры обратного: значение Тромбоциты = 73 оказывается выбросом для группы мужчин, но при рассмотрении всех наблюдений оно оказывается «нормальным».

 


Корреляционный анализ

Вычислим корреляции между переменными Var4 – Var7. Сделать это очень просто.

Корреляции Пирсона

Запустим модуль Основные статистики и таблицы. В появившемся окне выберем пункт Парные и частные корреляции.

Основные статистики и таблицы

Отобразится окно Парные и частные корреляции.

Парные и частные корреляции

Нажмём на кнопку Квадратная матрица и укажем переменные.

Выберите переменные для анализа

После нажатия на кнопку OK в диалоге Парные и Частные корреляции в рабочую книгу добавится таблица с коэффициентами корреляции между указанными переменными.

Рабочая книга

Итак, почти все переменные попарно зависимы; исключение составляет пара Эритроциты – Тромбоциты.

Корреляции Спирмена и Кендалла

Шаг 1. Запустим модуль Непараметрическая статистика. Выберем пункт Корреляции Спирмена, тау Кендалла, гамма.

Непараметрическая статистика

В появившемся диалоге Ранговые корреляции перейдём на вкладку Дополнительно.

Ранговые корреляции

Шаг 2. Зададим переменные.

Выберите переменные

Шаг 3. Нажмём на кнопку Спирмена R в диалоге Ранговая корреляция.

Рабочая книга

Теперь вернёмся в окно Ранговая корреляция и нажмём на кнопку Тау Кендалла.

Тау корреляции Кендалла

Обратите внимание: коэффициент корреляции Спирмена между переменными Эритроциты и Тромбоциты оказался статистически значимым, в то время как коэффициенты корреляции Кендалла – нет. Это объясняется тем, что коэффициент корреляции Спирмена сильнее реагирует на несогласие ранжировок.

Визуально проанализируем зависимость между переменными. С этой целью построим Матричный график.

Нажмём на кнопку Матричный график в диалоге Ранговые корреляции.

Корреляции

Другой способ построения подобного графика: можно выбрать из меню пункт Графика/Матричные графики.

 


Исследование эффективности лечения: введение новой переменной

Введем новую переменную, характеризующую эффективность лечения.

В качестве меры эффективности лечения выберем величину

r(x1,x2),

где - x1состояние пациента до лечения (девятая переменная в таблице), x2- состояние пациента после лечения (десятая переменная в таблице).

Эта величина обладает следующими свойствами:

1) Чем ближе значение r(x1,x2)к 1, тем эффективнее лечение. В крайнем случае, когда пациент поступил в предсмертном состоянии (10), а после лечения оказался абсолютно здоров (100), значение величины rравно 0.9.

2) Чем ближе значение rк -1, тем менее эффективно лечение. В крайнем случае, когда пациент поступил абсолютно здоровым (100), а после лечения оказался в предсмертном состоянии (10), значение величины rравно -0.9.

3) Значение  image101.gif = 0 означает, что состояние пациента не изменилось.

Добавим в таблицу новую переменную, назовём её Эффективностью, укажем формат отображения, зададим формулу для её вычисления.

Добавить переменные в таблицу

В итоге в таблице появится новый столбец.

Новый столбец

 


Цель дальнейшего исследования

Целью исследования, которое мы сейчас проведём, является получение ответов на следующие вопросы:

1) Какой метод лечения более эффективен?

2) Есть ли существенное различие состояний пациентов до и после лечения?

 


Проверка гипотезы о нормальности для переменной Эффективность

Для ответа на поставленные вопросы можно использовать T-критерий переменной Эффективность. Этот критерий требует нормальность распределения переменной, поэтому перед использованием проверим гипотезу о нормальности.

Сначала проверим визуальными методами.

Построим гистограмму по переменной Эффективность. Для этого выберем из меню пункт Графика/Гистограммы.

На вкладке Дополнительно укажем: Распределение = Нормальное, количество категорий – 7 (приблизительное значение двоичного логарифма от 150, то есть от количества наблюдений), выберем переменную – Эффективность.

2М Гистограммы

Гистограмма

Гипотеза о нормальности кажется очень неправдоподобной (особенно «плохо» выглядят крайние столбцы).

Тот же вывод следует сделать по нормальному вероятностному графику.

Нормальный вероятностный график

Если наблюдаемые значения (откладываемые по оси X) были бы распределены нормально, то все значения на графике должны были попасть на прямую линию. Однако этого не наблюдается.

Теперь вычислим некоторые описательные статистики для переменной Эффективность.

На вкладке Дополнительно диалога Описательные статистики поставим галочки в полях Асимметрия, стандартная ошибка асимметрии, Эксцесс, Стандартная ошибка эксцесса.

Описательные статистики

Нажмём OK.

Описательные статистики - результаты

Судя по значению Асимметрии, распределение переменной Эффективность можно считать нормальным (0 «почти что» содержится в интервале Ассиметрия ±Стандартная ошибка Асимметрии).

Но судя по значению Эксцесса, гипотезу о нормальности следует отклонить. Как правило, если найдена хотя бы одна существенная «нестыковка», гипотезу смело отклоняют, в то время как соответствие даже всем известным критериям ещё не влечёт справедливость гипотезы.

В заключении обратимся к модулю Подгонка распределений.

Подгонка распределений

Выберем пункт Нормальное в левом столбце, нажмём OK.

В появившемся окне укажем в качестве переменной Эффективность.

Подгонка непрерывных распределений

Нажмём OK.

Рабочая книга

Обратите внимание: значение p = 0,00031, то есть значительно меньше 5%. Это значит, что гипотезу о нормальности следует отклонить.

Итак, окончательный вывод: Распределение переменной Эффективность существенно отличается от нормального распределения.

 


Сравнение выборок

И первый, и второй вопросы, поставленные в пункте Цели исследования, относятся к задаче сравнения выборок. Будем отвечать на вопросы в порядке их постановки.

1) Какой метод лечения более эффективен?

С точки зрения прикладной статистики, задача сводится к сравнению значений переменной Эффективность по группам I и II (сравнение независимых выборок).

Как мы уже выяснили, распределение отличается от нормального, поэтому мы воспользуемся методами непараметрической статистики.

Шаг 1. Запустим модуль Непараметрическая статистика.

Непараметрическая статистика

Выберем пункт Сравнение двух независимых групп.

Сравнение двух выборок

Шаг 2. Укажем переменные.

Выбор группирующей переменной

Обратите внимание: коды для группирующей переменной (I и II) автоматически появятся в соответствующих окошках.

Сравнение двух групп

Шаг 3. Нажмём на кнопку U-критерий Манна – Уитни.

Критерий Манна-Уитни

Обратите внимание на p-уровень: 0,63. Гипотезу о равенстве функций распределения отклонить нельзя. Поэтому выявить явное преимущество одного из методов не удалось.

Неявное преимущество можно обнаружить на основе сравнения диаграмм размаха по переменной Эффективность.

Если мы хотим сравнить, вполне разумно рассмотрение категоризованных диаграмм размаха.

Для этого выберем в меню пункт Графики/категоризованные графики/Диаграмма размаха.

Укажем переменные для этого графика

Выбор переменных

На вкладке Дополнительно уменьшим количество Y-категорий до 4.

2М Категоризованные диаграммы размаха

Нажмём OK.

Диаграмма размаха

2) Есть ли существенное различие состояний пациентов до и после лечения?

Это уже задача сравнения парных повторных наблюдений.

Как и при ответе на первый вопрос, мы воспользуемся непараметрическими методами.

Шаг 1. Запустим модуль Непараметрическая статистика.

Непараметрическая статистика

Выберем пункт сравнение Двух зависимых переменных.

Сравнение двух переменных

Шаг 2. Укажем переменные.

Выбор переменных

Шаг 3. Нажмём на кнопку Критерий знаков.

Рабочая книга

Вернёмся в диалог Сравнение двух переменных и нажмём на кнопку Критерий Вилкоксона.

Критерий Вилкоксона

 

Интерпретация результатов: гипотезу об однородности следует отвергнуть и принять альтернативу доминирования. Так как среднее значение состояния до лечения больше среднего значения состояния после лечения, то следует признать, что лечение существенно улучшает состояние пациентов.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание груповых занятий






info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia, 2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта