Имеются данные о пациентах, поступивших в больницу для трансплантации сердца. Таблица с данными имеет вид:
Рис 1. Исходный файл данных
Первые три столбца в этой таблице есть даты трансплантации сердца (в следующей последовательности: месяц-день-год), 4, 5 и 6 столбцы - даты, когда соответствующий пациент либо умер, либо был изъят из наблюдения (иными словами, цензурирован, например, с пациентом была утрачена связь).
Переменная Цензурировано - Censored является индикатором цензурирования с кодом, который показывает, является соответствующее наблюдение завершенным или цензурированным (0-завершенно, т.е. пациент умер; 1-цензурированное). Переменная Age – возраст пациента, Antigen – показатель несовместимости антигенов, Mismatch – степень несовместимости тканей.
Переменная Hospital представляет собой фиктивную группирующую переменную, которая показывает, к какой из трех больниц относится пациент.
Рандомизация - формирование случайной выборки по исходной таблице данных.
Из имеющихся данных будем выделять произвольные подмножества различными методами.
В меню Данные выберем команду Подмножество.
Рис 2. Создать подмножество
Условия выбора наблюдений. Выберем переменные и определим условия выбора наблюдений в активном файле данных.
Предположим, что нас интересуют данные по больным, находящихся только в больнице ST_AND. Нажав кнопку Наблюдения, укажем заданное нами условие и нажмем OK.
Рис.3 Условия выбора наблюдений в Таблице данных
Рис. 4 Создать подмножество
В результате, получим данные, относящиеся только к интересующей нас больнице.
Рис. 5 Данные, относящиеся к больным, находившимся в больнице ST_AND
В меню Данные выберем команду Случайный выбор.
В этом диалоге находятся три вкладки: Простой выбор, Стратифицированный и Параметры.
1) Простая случайная выборка. При выборе этого правила, данные будут выбираться случайным образом.
Существует два способа выбора подмножества в общей совокупности: указав процент наблюдений или указав приблизительное число наблюдений (данный параметр устанавливается в меню Опции). Предположим, мы хотим проанализировать 40% пациентов.
Рис. 6 Простая случайная выборка, 40% наблюдений
После нажатия кнопки OK, получим следующие результаты:
Рис. 7 Результаты простой случайной выборки, содержащей 40% наблюдений
Поставив флажок в поле Выбор с возвращением, получим следующий результат: при включении наблюдения в подмножество, это наблюдение снова попадает в исходное множество наблюдений (таким образом, одно наблюдение может встретиться несколько раз в итоговом подмножестве).
2) Систематический случайный выбор. Используя данный метод, подмножество будет составляться с помощью систематического случайного выбора.
Например, если ввести число 5 в поле K=, то среди первых пяти наблюдений будет случайным образом выбрано одно, а затем STATISTICA будет выбирать каждое пятое наблюдение в исходном множестве данных.
Рис. 8 Систематический случайный выбор, К=5
3) Разделенный случайный выбор. При выборе данного метода, все наблюдения будут случайным образом разделены на два файла данных. Необходимо указать процент наблюдений или приблизительное число наблюдений (данный параметр устанавливается в меню Опции).
Рис.9 Разделенный случайный выбор, N=10
С помощью данной опции будет создана стратифицированная случайная выборка на основе текущего файла данных. Можно указать несколько стратифицирующих переменных, которые содержат целочисленные кодовые значения, определяющие отдельные группы (страты).
Стратифицированная выборка будет построена на основе комбинации всех кодов во все стратифицирующих переменных.
Например, выбрав в качестве переменных расслоения CENSORED и HOSPITAL, будут созданы различные доли выборок для комбинаций COMPLETE-HILLVIEW, COMPLETE- ST_AND, COMPLETE- BINER, CENSORED-HILLVIEW, CENSORED-ST_AND, CENSORED-BINER.
Опция Равные вероятности отмечается для выбора одной и той же доли наблюдений во всех группах. Предположим, общий (для всех групп) процент наблюдений в выборках составляет 50% (возможно также задание приблизительного числа наблюдений).
Рис. 10 Вкладка Стратифицированый
Рис. 11 Вкладка Параметры
1) Использовать условия выбора наблюдений. Если вы выбрать эту опцию, то условия выбора наблюдений, заданные при нажатии кнопки Наблюдения в диалоге будут применяться перед созданием подмножества.
Чтобы игнорировать условия выбора наблюдений, следует убрать отметку этой опции
2) Копировать формат наблюдений в новую таблицу. Отметив эту опцию, формат ячеек будет копироваться в новое подмножество.
3) Использовать веса наблюдений в случайном выборе. Если в текущей Таблице данных заданы веса наблюдений, можно интерпретировать эти веса как множители наблюдений. В этом случае, соответствующая дробная выборка будет эффективно подогнана к весам наблюдений.
4) Использовать сертифицированный генератор случайных чисел. STATISTICA использует очень точный и качественный генератор случайных чисел в тех случаях, когда необходимо провести некоторые процедуры.
Однако в большинстве процедур случайного выбора или стратифицированного случайного выбора можно использовать более простые и быстрые методы случайного выбора наблюдений. В частности, при работе с очень большими файлами данных можно убрать отметку этой опции для ускорения работы.
5) Выбор основан на процентах наблюдений. При выборе этой опции файл данных разделяется на основе процента наблюдений.
6) Выбор основан на приближенном N. При выборе этой опции файл данных разделяется на основе числа наблюдений
Узнайте больше на курсах Академии Анализа Данных StatSoft
Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
|
© StatSoft Russia |
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран. |