Вариабельность и размер выборки
О влиянии случайности на результат
Как меняется результат с ростом объёма данных
Какого объёма данных достаточно?
T-критерий для сравнения двух групп
Эффективность лечения гингивостоматита
Препараты магния при сердечном приступе
Известный американский статистик А.Вальд говорил, что «статистика – это совокупность методов, которые дают нам возможность принимать оптимальные решения в условиях неопределённости». Для получения научно обоснованных выводов на основании проводимого исследования необходимо учитывать неопределённость многих характеристик выборки, а также ограниченность числа наблюдений.
Клинические исследования могут проводиться с различными целями. Целью исследования может быть статистическое обоснование различия, или, напротив, сходства групп по величине некоторого риска (например, риска возникновения рецидива заболевания) или по эффективности назначенного метода терапии. Также целью исследования может быть оценивание некоторого числового показателя (например, распространённость заболевания в интересующей популяции) с заданной степенью точности. Независимо от цели, необходимо, чтобы исследование было проведено на выборке подходящего объёма: это будет гарантировать и корректность интерпретации числовых результатов статистических методов, и уверенность в том, что цель исследования весьма вероятно будет достигнута (эта вероятность называется мощностью исследования).
Планирование эксперимента и предварительная оценка необходимого объёма выборки обычно игнорируются исследователями, особенно в России. На практике к специалистам по биостатистике часто обращаются с предложением, которое формулируется приблизительно следующим образом: «Мы уже всё сделали (провели эксперименты, провели выборочное исследование, добыли исходные данные) и вам осталось только выполнить исходную обработку (посчитать)». К сожалению, понимание того, что думать о том, каким образом будут обрабатываться полученные в результате проведённого исследования данные, необходимо на этапе планирования исследования – отсутствует. В результате исследование не является оптимальным с точки зрения научной обоснованности результатов.
Мы хотим предостеречь вас от иллюзии относительно кажущейся простоты использования многих компьютерных программ, привлекающих неопытных статистиков наглядным воплощением испытанных статистических методов. Действительно, вопросы мощности используемых статистических критериев, величины наблюдаемого эффекта и их влияния на необходимый размер выборки – краеугольные камни на стыке практических исследований и теории статистики.
Наша цель – рассказать, к чему может привести статистический анализ недостаточного количества данных и кратко изложить практические способы определения размеров выборки, которые помогут вам в планировании своих исследований и критическом восприятии результатов ваших коллег.
При планировании дизайна клинического исследования обязательным является расчёт необходимого размера выборки. Этот объём выборки должен обеспечивать заданную мощность исследования.
Допустим, мы хотим рассчитать объём выборки, обеспечивающий мощность 90%. Это значит, что нужно определить количество пациентов, необходимое для того чтобы с вероятностью 90% наше исследование с X пациентами показало, что величина эффекта в основной и контрольной группе отличаются на Y%.
Когда величина различия между группами Y велика, величина X может быть сравнительно небольшой, и выборки такого объёма будет достаточно. Но зачастую в реальных исследованиях величина Y бывает очень малой, тогда X необходимо увеличивать и включать в исследование большее количество пациентов, чтобы вероятность обнаружить значимое различие оставалась равной 90%.
Однако, публикуемые результаты клинических исследований могут основываться на очень малом количестве данных. Рекорд, зафиксированный редакторами британского журнала “Bandolier” – рандомизированное исследование, проведённое на 3 пациентах. Напрашивается вопрос: насколько мал должен быть размер выборки, чтобы клиническим исследованием можно было пренебречь в мета-анализе? Однозначного ответа, естественно, не существует, но многие исследователи придерживаются эмпирического правила: если в исследование включено менее 10 пациентов, его можно не включать в расчёт.
Если не включать в мета-анализ клинические исследования недостаточной (или не оцененной) мощности, то разброс результатов оставшихся исследований может быть по-прежнему велик. Это происходит потому, что мощность исследования рассчитывается с целью определить, есть ли значимое различие в группах, а не с целью оценить величину этого различия.
На рис. 1 показаны результаты двойных слепых плацебо-контролируемых рандомизированных исследований, в которых исследовался эффект от лечения острого постоперационного болевого синдрома с помощью «Ибупрофена» [4]. Пациенты основной группы получали дозу 400мг «Ибупрофена», пациенты контрольной группы принимали плацебо. Все клинические исследования проводились на пациентах одной популяции, с одинаковой начальной интенсивностью боли. Уменьшение боли измерялось одинаковым способом через одно и то же время после приёма лекарства. Как видим из графика, результаты отдельных исследований в значительной степени отличались.
График на рис. 2 основан на данных 10000 исследований эффективности «Ибупрофена», смоделированных на компьютере на основе информации о тех же 5000 пациентах [5]. Цветом показана вероятность того, что сгенерированное на компьютере клиническое исследование попадёт в соответствующую точку графика. Например, вероятность того, что для 15% пациентов в контрольной группе и 50% пациентов в основной группе полученное лечение окажется эффективным, составляет более 0,15 (зелёный цвет области на графике).
Рис. 1. Результаты клинических исследований эффективности «Ибупрофена»
Рис. 2. Результаты компьютерного моделирования клинических исследований эффективности «Ибупрофена»
There is much good luck in the world, but it is luck.
We are none of us safe.
E.M.Forster
В этом разделе мы сначала рассмотрим интересные случайные эффекты, которые могут возникать при моделировании «клинических испытаний» с помощью игральной кости. Затем обсудим, как и при каких условиях могут измениться результаты реального исследования, в зависимости от объёма выборок, включённых в исследование.
Зачастую люди склонны к тому, чтобы оценивать (и переоценивать) роль случайности, скажем, выигрыша в лотерею, или автодорожного происшествия. Но влияние случайности на результат клинического исследования часто бывает недооценен. Рассуждая в терминах p-уровней и вероятностей, часто забывают о том, какой объём данных необходимо взять, чтобы быть уверенными в том, что наблюдаемый нами эффект не является результатом случайности.
Почему исследователи так доверяют p-уровням? Ведь заветное значение 0,05 просто говорит о том, что полученный результат может оказаться случайным не более чем в 1 случае из 20. Вы наверняка когда-нибудь играли в настольные игры, где нужно бросать пару игральных костей. Вас не смущает тот факт, что выпадение двух «шестёрок» (вообще говоря, не редкое событие) согласно теории вероятностей, происходит в 1 случае из 36 (что соответствует p=0,028<0,05)?
Посмотрим на проблему с другой стороны. Если бы вы собирались прыгнуть с парашютом, и вам бы сказали, что в 1 из 20 раз он не раскрывается, вы бы отважились на прыжок? А если в 1 из 100, или в 1 из 1000? Таким же образом и p-уровень, равный 0,05, говорит о том, что в каждом двадцатом случае «парашют не раскрывается», и полученный результат (найденная связь, различие между группами и т. д.) является случайным.
Далее мы рассмотрим две статьи [1,2], демонстрирующие, насколько часто и насколько сильно эффект случайности может оказывать влияние на результат. В первой публикации рассматривается моделирование клинических исследований по предупреждению инсульта. Вторая публикация посвящена моделированию лечения онкологических заболеваний.
В статье [1] описывается практическое задание, которое было предложено на семинаре по статистике студентам медицинского университета, изучающим инсульты. Студентам было предложено с помощью подбрасывания игральной кости смоделировать данные рандомизированного исследования. Если при подбрасывании кости выпадала «шестёрка», такой исход фиксировался как смерть пациента от инсульта, любое другое выпавшее число означало выживание. Таким образом генерировались данные вначале для основной, а затем и для контрольной группы «пациентов». Размеры групп варьировались от 5 до 100 пациентов (разным студентом были даны задания с различными объёмами групп).
Публикация [1] основана на результатах 44 клинических исследований, в которых приняли участие в сумме 2256 «пациентов». Можно было бы ожидать, что риск смертельного исхода от инсульта, оцененный в этих исследованиях должен быть близким к 16,7% (100/6) и в основной, и в контрольной группах. В то время как отношение шансов (так же как и относительный риск) должно было бы равняться 1.
Рис. 3. График Л’Аббе, полученный при моделировании клинических исследований риска смерти от инсульта
На рис. 3 показан график Л’Аббе для 44 смоделированных клинических испытаний. Каждому эксперименту на графике соответствует точка с координатами, равными риску смертельного исхода в основной и контрольной группе. Размер точки соответствует объёму выборки: чем больше пациентов принимало участие в клиническом исследовании, тем больше размер точки. Ожидаемый результат – на линии безразличия, на уровне около 17% как по горизонтальной, так и по вертикальной оси (линией безразличия называется прямая, на которой риски в основной и контрольной группах равны). В действительности же мы наблюдаем существенный разброс экспериментальных данных, причём есть точки, которые довольно далеко отклонились от линии безразличия.
Рис. 4. Отношения шансов, оцененные в 44 моделях клинических исследований и 95% доверительные интервалы для них. Закрашенные полосы соответствуют исследованиям, в которых отношение шансов значимо отличается от 1.
Отношения шансов для каждого из 44 исследований показаны на рис. 4. В двух экспериментах (с номерами 20 и 40 на графике) были получены отношения шансов, статистически значимо отличающиеся от 1. Вспомните про пример с парашютом, который не раскрывается примерно при каждом двадцатом прыжке!
Вариабельность риска смерти от инсульта в экспериментальных группах показана также на рис. 5, где точками отмечены доли смертельных исходов для каждой из 88 экспериментальных групп. Вертикальная линия соответствует ожидаемому результату (16,7%). Точки, соответствующие группам большего объёма лежат ближе к этой линии, тогда как результаты, полученные на малых выборках, колеблются в пределах от 0% до 60%.
Рис. 5. Доли смертельных исходов в каждой экспериментальной группе (основной/контрольной) при моделировании клинических исследований риска смерти от инсульта
Если объединить данные от всех 44 исследований (провести т.н. мета-анализ), то получатся следующие оценки риска смерти от инсульта: 16,0% для «общей» основной группы и 17,6% для «общей» контрольной группы. Относительный риск при этом равен 0,8 (=0,5/1,1), NNT=63 (95% ДИ 21-67), см. рис. 6:
Рис. 6. Мета-анализ по итогам 44 клинических исследований
Многие из смоделированных клинических исследований основывались на выборках малого объёма, вплоть до 5 человек в группе. «Небольшие» клинические исследования, которые включали менее 40 пациентов на группу, часто приводили к статистически значимым результатам (см. рис. 6: значение 1 не входит в ДИ для относительного риска в группе таких исследований).
Обратите внимание, что если не разделять всех пациентов на основную и контрольную группы, то оценка риска составит 16,7%, что соответствует ожидаемому риску (вероятность выпадения «шестёрки» на игральной кости равна 1/6).
Исследование [2] основано на данных о временах жизни 580 пациентов, больных раком. Эти данные были использованы для моделирования 100 клинических исследований. В каждом эксперименте одни и те же 580 пациентов случайным образом разделялись на основную и контрольную группы, после чего для каждой группы были построены функции выживаемости.
4 из 100 смоделированных исследований имели статистически значимые результаты: основная группа достоверно отличалась от контрольной. В одном из «исследований» снижение смертности в основной группе оказалось равным 40%, причём этот результат был значимым на уровне p=0,003.
Какой вывод на основе вышеизложенных фактов мы можем сделать? Полученные в [1,2] результаты дают нам понять, что случайность – это один из факторов, который нельзя игнорировать при проведении исследования, и что малые выборки сильнее «предрасположены» к случайным результатам, нежели выборки большого объёма. Причём, эффект случайности может влиять не только на результаты одиночных исследований. Даже если вы объединяете результаты нескольких клинических исследований (как в [1]), мета-анализ может привести к статистически значимым результатам даже в том случае, когда их на самом деле нет.
Высокие уровни статистической значимости могут быть получены случайно не только из-за недостаточного объёма данных, но и в результате неудачно проведённой рандомизации: именно по этой причине в исследовании [2] был получен p-уровень 0,003.
Таким образом, важным является не только дизайн клинического исследования, но и объёмы выборок основной и контрольной групп. Чем меньше величина эффекта (различия между группами), которую мы пытаемся оценить, тем больший объём данных для этого требуется. Только в случае, если различие между группами выражено сильно (например, риск смертельного исхода в основной группе на 50% ниже, чем в контрольной), для качественных результатов будет достаточно относительно небольших выборок (500 пациентов или меньше).
Когда исследователь выявляет статистически значимое различие между двумя группами, он в первую очередь пытается объяснить это различие какой-либо характеристикой пациентов в группах или различием в методе лечения. Очень редко ставится вопрос о том, насколько вероятно, что рассматриваемая связь была обнаружена случайно.
Исследование [3], проведённое совместно учёными США и Греции, подтверждает тот факт, что оценка величины эффекта лечения в значительной степени зависит от размера выборки. Учёные рассмотрели 60 отчётов о рандомизированных клинических исследованиях, посвящённых или лечению инфаркта миокарда, или перинатологии. Разница между датой публикации самого первого и самого «свежего» отчёта составляла более чем 3 года.
Отобранные отчёты были отсортированы в хронологическом порядке по дате их публикации. Общее отношение шансов рассчитывалось по итогам каждого года, т.е. в каждый новый мета-анализ добавлялись статьи, опубликованные за год. Вычислялось также относительное изменение величины эффекта лечения:
,
где – отношение шансов, полученное при мета-анализе статей, опубликованных до
-го года, т.е. по большему количеству пациентов, чем при расчете предыдущего отношения шансов
по итогам
-го года. Если
, это означает увеличение эффекта лечения, если
– снижение эффекта.
Относительное изменение величины эффекта можно изобразить графически, отложив по оси X число пациентов, включённых в мета-анализ. Следует ожидать, что график будет представлять собой почти горизонтальную линию, приближающуюся к 1 с ростом числа пациентов.
В [3] был получен следующий результат: при размере выборок менее 100 отношение шансов менялось от 0,2 до 6. При увеличении объёма выборки до 1000 пациентов «коридор» для отношения шансов сузился до границ 0,5 – 2. И только когда количество пациентов, по которым проводился мета-анализ, достигло 5000, отношение шансов стало достаточно близким к 1. 95%-доверительные интервалы для приведены на рис. 7:
Рис. 7. 95%-доверительные интервалы для относительного изменения величины эффекта
Когда мета-анализ основан на сравнительно небольших объёмах общей выборки, его результаты содержат существенную неопределённость; неизвестно, как изменится оценка величины эффекта лечения в будущем. Например, если на определённом этапе в мета-анализ включено 100 пациентов, дополнительные данные (которые появятся через год) могут, скажем, в 3 раза изменить оценку величины эффекта как в ту, так и в другую сторону.
На первый взгляд все наши рассуждения могут показаться сложными для интерпретации, но все они объясняют простую идею: если у нас есть небольшой объём данных, или данные низкого качества, то вероятность того, что полученный на них «статистически значимый» результат будет неверным, весьма велика.
На примерах легко показать, что недостаток данных может приводить к некачественным результатам и неверным выводам. Однако, определение объёма данных, достаточного для того, чтобы избежать ошибок – очень непростая задача. В первую очередь потому, что рассчитать требуемый объём выборки можно, только имея некоторые представления относительно ожидаемых результатов.
Чтобы рассчитать объём выборки, нужно определить на этапе планирования исследования следующие величины:
1) заданная вами мощность исследования (степень уверенности в том, что вы получите значимый результат, если он на самом деле имеет место в действительности). Обычно выбирают мощность, равную 70-80% и более,
2) уровень значимости - граничный уровень, ниже которого отбрасывают нулевую гипотезу. Обычно это 0,05 или 0,01; нулевую гипотезу (об отсутствии различий в группах) отклоняют, если величина p-уровня применяемого критерия меньше этих значений,
3) величина изучаемого эффекта (насколько выражено то различие между основной и контрольной группами, которое мы пытаемся обнаружить и обосновать с помощью статистического анализа),
4) вариабельность изучаемой величины в группах, например, стандартное отклонение, если есть числовая переменная.
Относительно легко выбрать мощность и уровень значимости критерия. Реальная трудность состоит в необходимости оценки силы эффекта и вариации числовой переменной до того, как отобраны данные.
Ниже будут приведены некоторые практические рекомендации для определения подходящего размера выборки для корректного применения различных статистических методов.
Для отдельных величин мощности и уровней значимости необходимые размеры выборки затабулированы, и таблицы можно найти в литературе по планированию клинических исследований [15]. Рассчитать размер выборки, необходимый для обеспечения заданной мощности T-критерия можно также по специальным формулам, например, по формуле Лера [14]. Для мощности 80% и двустороннего уровня значимости 0,05 при сравнении двух групп требуемый размер выборки в каждой группе равен (формула Лера):
где – предварительная оценка величины эффекта (наименьшая разность в средних, которая клинически значима),
– принятое стандартное отклонение наблюдений, одинаковое в каждой из 2 групп.
Другой способ расчёта – использование номограммы Алтмана – лёгкой в применении диаграммы, которая подходит для различных критериев.
Заметим, что номограмму Алтмана можно также применить и для оценки мощности критерия для уже заданного объёма выборки. Это бывает полезно, если нужно ретроспективно узнать, можно ли отнести отсутствие значимости критерия проверки гипотезы к неадекватному размеру выборки. Например, вы читаете отчёт об исследовании, в выводах которого говорится, что критерий показал отсутствие значимого различия эффективности двух препаратов.
Допустим, номограмма Алтмана покажет, что мощность этого исследования была около 95%, то исследование позволяет с достаточной уверенностью считать эффективность двух препаратов одинаковой (при условии, конечно, что статистический критерий был выбран правильно). Если же мощность исследования окажется равной 50%, то никакого полезного вывода о сравнительной эффективности вы сделать не сможете: даже если один препарат в действительности более эффективен, критерий показал бы значимость различия с вероятностью лишь 50%, и тот факт, что в исследовании получился результат p>0,05, может быть обусловлен случайностью.
Консервативное правило гласит, что ожидаемая частота в любой ячейке таблицы сопряжённости не должна опускаться ниже 5, а размер самой выборки должен составлять, по крайней мере, 20 наблюдений. Критерий хи-квадрат отличается от многих других проверок тем, что увеличение объёма выборки не оказывает влияние на пороговое значение, необходимое для отвержения нулевой гипотезы. Однако, число наблюдений влияет на мощность критерия. Малые ожидаемые частоты в одной или нескольких ячейках существенно снижают мощность.
Статистика хи-квадрат предназначена для проверки независимости категориальных переменных. Таким образом, наблюдения в таблице сопряжённости всегда являются независимыми: один пациент всегда попадает в единственную клетку таблицы сопряжённости. Таким образом, если число ячеек в таблице увеличивается (на математическом языке: увеличивается число степеней свободы), ожидаемые частоты могут несколько снизиться без снижения мощности. Определение размера выборки, необходимого для соблюдения заданной мощности при заданном числе степеней свободы, обсуждается, например, в [12].
Необходимый объём выборки для обеспечения заданной мощности критерия хи-квадрат можно рассчитать по номограмме Алтмана.
Простейшее практическое правило таково, что вам требуется не менее 50 наблюдений для корреляционного или регрессионного анализа, при этом это число будет возрастать с увеличением количества независимых переменных в регрессии. Некоторые специалисты [10] предлагают использовать объём выборки (где
– количество независимых переменных) при проверке множественной корреляции и
при проверке действия отдельных предикторов (в предположении средней силы взаимосвязи). При проверке того и другого потребуется больший размер выборки.
Кроме предложенных формул, можно использовать и другие эмпирические правила.
В случае наличия не более, чем 5 предикторов, можно действовать согласно правилу, предложенному в [11]: «число испытуемых должно превосходить число независимых переменных, по крайней мере, на 50». То есть минимально необходимый объём выборки равен числу предикторов плюс 50.
Для уравнений регрессии, включающих 6 и более предикторов, абсолютный минимум составляет 10 строчек данных на каждый предиктор. Однако, если позволяют обстоятельства, для обнаружения небольших по величине эффектов исследователю лучше обеспечить примерно 30 испытуемых на одну независимую переменную.
Например, если в генеральной совокупности коэффициент корреляции двух признаков составляет 0.3, то для достижения 80%-мощности критерия проверки коэффициента корреляции на статистическую значимость требуется 124 наблюдения.
Эти правила относятся к случаю относительно «хорошего» качества данных, когда факторы имеют нормальное распределение, используется стандартная процедура множественной регрессии. Обратите внимание на то, что в некоторых случаях объём выборки должен ещё больше увеличиться:
если зависимая переменная имеет асимметричное распределение,
если величина эффекта ожидается малой,
если в данных могут присутствовать существенные ошибки измерения,
если используется пошаговый метод отбора переменных (пошаговая регрессия с включением/исключением предикторов).
Приемлемое правило для факторного анализа – 300 наблюдений, либо, более мягкое правило – 50 наблюдений на один фактор. В [13] предложены следующие указания по объёму выборки: 50 – слишком мало, 100 – мало, 200 – приемлемо, 300 – хорошо, 500 – очень хорошо, 1000 – отлично. Однако, факторные решения, обладающие высокими факторными нагрузками (> 0.80), обычно требуют меньшего числа наблюдений.
Если вы применяете метод таблиц времён жизни, то для того чтобы получить надежные оценки трех основных функций (функции выживания, плотности вероятности и функции интенсивности) и их стандартных ошибок на каждом временном интервале, рекомендуется использовать выборку, содержащую не менее 30 нецензурированных наблюдений.
В этом разделе на примере реальных публикаций будет показано то, как размер выборки мог бы повлиять, или в действительности повлиял, на результаты конкретных клинических исследований.
Целью исследования [16] было проверить эффективность суспензии ацикловира (15 мг/кг) для лечения детей в возрасте 1-7 лет с герпетическим гингивостоматитом, длящимся менее 72 часов.
Было решено провести рандомизированное двойное-слепое плацебо-контролируемое исследование с лечением, осуществляемым 5 раз в день в течение 7 дней.
В качестве основного показателя эффективности лечения была выбрана длительность существования элементов гингивостоматита в полости рта.
При планировании исследования, был рассчитан необходимый размер выборки: сколько детей требуется включить в исследование, чтобы обеспечить 90% мощность обнаружения 2,5-дневной разницы в длительности существования элементов гингивостоматита между этими двумя группами () при уровне значимости 0,05. При этом авторы статьи предполагали, что стандартное отклонение длительности существования этих элементов в основной и контрольной группах составит около 5 дней (
).
Анализ мощности показал, что требуется включить в исследование около 160 детей (80 детей в каждую группу). Если бы была увеличена до 3 дней (т.е. исследователи рассчитывали бы выявить более сильное различие между группами), то требуемый объём выборки уменьшился бы приблизительно до 118, т.е. по 59 детей в каждой группе.
В исследовании [17] сравнивалась эффективность инъекций кортикостероида и физиотерапии для лечения болезненного ригидного плеча.
Было запланировано рандомизированное контролируемое исследование, в котором пациенты случайным образом назначены на 6-недельное лечение, содержащее или максимум 3 инъекции, или 12 30-минутных сеансов физиотерапии для каждого пациента.
Лечение считалось успешным после 7 недель, если пациент считал себя полностью выздоровевшим или у него наступило улучшение (положительная динамика по шеститочечной шкале Ликерта).
При планировании исследования было рассчитано, сколько пациентов требуется включить в группы, чтобы иметь 80% мощность обнаружения клинически важной разницы 25% в частоте успеха между двумя группами при уровне значимости 0,05. При этом авторы статьи считали успешным показатель 40% в группе, имеющей наименее успешное лечение (оценка сделана на этапе планирования исследования).
Используя номограмму Алтмана для определения объёма выборки, необходимого для достижения 80% мощности критерия хи-квадрат, исследователи установили, что требуется включить 60 пациентов в каждую группу. Если бы мощность была увеличена до 85%, требуемый размер выборки увеличился бы в целом примерно до 140, т.е. потребовалось бы по 70 пациентов в каждой группе.
В публикации [6] приведены результаты мета-анализа исследований, проведённых в 90-е годы. Исследования были посвящены побочным эффектам при применении нестероидных противовоспалительных препаратов (НСПВП). Большинство этих эффектов связаны с прямым или косвенным раздражением слизистой желудочно-кишечного тракта. Результаты нескольких исследований были объединены в мета-анализ с целью получить более чёткую картину риска возникновения побочных эффектов.
Условия включения клинического исследования в мета-анализ были следующими:
исследования типа «случай-контроль» или когортное исследование;
применялись НСПВП не «аспиринового» ряда;
из исследования не исключались данные о желудочно-кишечных кровотечениях, и других более серьёзных побочных эффектах, в том числе требующих консультации врача или госпитализации;
в отчёте об исследовании приведены данные, по которым можно подсчитать относительный риск (RR).
Рис. 8. Результаты мета-анализа клинических исследований риска возникновения желудочно-кишечных кровотечений при приёме НСПВП
Основная и контрольная группы во всех 18 клинических исследованиях, удовлетворяющих условиям включения, наблюдались на одинаковых условиях. Все исследования, кроме двух, включали поправки на смешанные факторы, такие как возраст, пол, наличие язвы желудка и одновременный приём других лекарственных препаратов.
В результате проведённого мета-анализа авторы [6] сделали вывод, что пациенты, получающие НСПВП, имеют более высокий риск возникновения желудочно-кишечного кровотечения, по сравнению с пациентами, не принимавшими НСПВП. Пациенты, страдающие язвой желудка, или те, у которых ранее были желудочно-кишечные кровотечения, и которые принимают НСПВП, подвержены большему риску возникновения побочных эффектов, чем пациенты, принимающие НСПВП, у которых не было таких особенностей в анамнезе. Пациенты старшего возраста, принимающие НСПВП, имеют больший риск возникновения побочных эффектов, чем пациенты моложе 50 лет, принимающие НСПВП.
Суммарная оценка (по 18 клиническим исследованиям) относительного риска составила 3,8 (95%ДИ 3,6 – 4,1).
На графике (см. рис. 8) хорошо заметен эффект влияния размера выборки на результат: клинические исследования, включающие менее 1000 пациентов, показывают большой разброс результатов. В одном из клинических исследований, основанном на выборке объёмом менее 200 человек, оценка относительного риска даже не превысила 1 (что означает, что вероятность побочного эффекта у пациентов, не принимавших НСПВП, выше).
Цель мета-анализа, результаты которого приведены в публикации [7], состояла в проверке гипотезы о том, что длительный прием аспирина может повышать риск развития геморрагического инсульта.
Были подобраны публикации, посвящённые рандомизированным клиническим исследованиям с назначением аспирина.
Условия включения клинического исследования в мета-анализ были следующими:
рандомизированные исследования (случайное разбиение пациентов на основную и контрольную группы);
отсутствовали другие вмешательства, кроме назначения пациентам аспирина;
продолжительность исследования более 1 месяца;
в отчёте об исследовании доступна информация о типе инсульта.
Критериям отбора соответствовали 16 испытаний (55 462 участника, 108 случаев развития геморрагического инсульта). Все испытания были плацебо-контролируемыми, средняя доза аспирина составляла 273 мг/сут (доза варьировалась от 75 до 1500 мг/сут), а средняя продолжительность его профилактического приема – 37 мес (разброс от 1 до 72 месяцев). Исследования проводились преимущественно на мужчинах (88%) в возрасте до 59 лет.
Рис. 9. Оценки риска возникновения геморрагического инсульта у пациентов, принимавших плацебо, в зависимости от объёма плацебо-группы
Размер выборки в проведённых клинических испытаниях варьировался от 60 до 11000 пациентов. Оценки риска возникновения геморрагического инсульта у пациентов плацебо-группы также менялся в зависимости от её объёма. Иллюстрация этой зависимости представлена на рис. 9.
Как легко видеть из графика, два клинических исследования с самыми большими размерами выборки дали оценки риска менее 0,2%. Оценка риска инсульта в контрольной группе по итогам мета-анализа составила 0,12%. Однако, в отдельных исследованиях оценка риска варьировалась от 0% вплоть до 1%. Важно отметить, что все исследования, «ответственные» за высокую вариабельность – это те, которые были проведены на выборках небольшого объёма (менее 2000 пациентов).
Изменение частоты развития любого инсульта и смертельного инсульта в группе пациентов, принимавших аспирин, оказалось статистически незначимым. Вместе с тем, было выявлено статистически значимое повышение риска развития геморрагического инсульта при длительном приёме аспирина.
Мета-аналитическое исследование [8], опубликованное в 1991 году, продемонстрировало весьма обнадёживающие результаты об эффективности применения препаратов магния после сердечного приступа.
Для исследования эффекта препаратов магния для снижения риска смерти от инфаркта миокарда, было выделено 7 рандомизированных клинических исследований с участием 1301 пациента. Среди 657 пациентов, которым внутривенно вводились препараты магния, было зафиксировано 25 (3,8%) летальных исходов. В контрольной группе (которой препараты магния не были назначены), состоящей из 644 пациентов, оценка риска летального исхода составила 8,2% (53 смертельных случая).
Отсюда можно сделать вывод, что назначение препаратов магния снижает шанс смертельного исхода примерно на 56%:
причём это снижение является статистически значимым (p<0,001).
Следует учесть, что у 70 из 648 пациентов основной группы и у 109 из 641 пациентов контрольной группы были отмечены серьёзные сопутствующие заболевания (вентрикулярная аритмия). Поскольку доля пациентов с осложнениями в основной группе (10,8%) ниже, чем в контрольной (0,17%), этот факт снижает уровень доверия к установленному выше результату.
В выводах исследования [8] было отмечено, что назначение внутривенных инъекций препаратов магния может снижать риск смертельного исхода при инфаркте миокарда, но для качественного доказательства эффективности (или неэффективности) препаратов магния требуются дополнительные клинические исследования.
Редакторы British Medical Journal критически отнеслись к выводам авторов [8], поскольку результаты мета-анализа, основанного преимущественно на выборках малого объёма и не включающего ни одного крупного клинического исследования, показались им сомнительными. Фрагмент критического отзыва BMJ: «Для того чтобы сделать выводы достоверными, необходимо включить в мета-анализ по крайней мере несколько клинических исследований среднего размера.»
В исследовании ISIS 4 принимали участие 56000 пациентов; полученные результаты расходились с выводами мета-анализа [8]. Таким образом, гипотеза об эффекте снижения риска смерти не подтвердилась.
Данные таблицы, приведённой на рис. 10, поставили точку в исследовании эффективности инъекций препаратов магния.
Рис. 10. Мета-анализ эффективности препаратов магния 1991 г. и данные современных клинических исследований
Крупные клинические исследования дают оценку риска смерти от инфаркта миокарда около 7% (доля смертельных исходов в контрольной группе). Исследования, основанные на выборках порядка 100 пациентов, дают оценку риска в контрольной группе в диапазоне от 0% (в этом случае доказать эффект терапии препаратами магния практически невозможно) до 20%.
Если оценить относительный риск смертельного исхода при применении препаратов магния по объединённым данным всех клинических исследований, т.е. по 66000 пациентам, то получим оценку относительного риска, равную 1,03 (95% ДИ 0,97 – 1,08). Что говорит о том, что препараты магния, по-видимому, не снижают риск смертельного исхода (доверительный интервал захватывает значение 1).
Ещё раз обратим внимание на то, что причина неверного результата исследования 1991 года не в плохом качестве проведения мета-анализа, а в недостаточном объёме выборки, на который и обращают внимание сами авторы статьи [8].
В мета-анализ [9] были включены рандомизированные клинические исследования, в которых никотин-заместительная терапия в основной группе пациентов сравнивалась с плацебо или отсутствием терапии в контрольной группе, или исследования, в которых сравнивались различные дозы никотин-заместительной терапии в группах.
В мета-анализ не включались результаты исследований, для которых отсутствует информация о пациентах, вышедших из-под наблюдения до окончания исследований, а также исследования, в которых последующее наблюдение (после курса терапии) длилось менее 6 месяцев.
Критерием положительного результата лечения считалось воздержание пациента от курения после как минимум 6 месяцев наблюдения после окончания курса терапии. Для контроля за «качеством» воздержания от курения применялся биохимический анализ.
В каждом исследовании вычислялся показатель NNT (number needed to treat), означающий количество пациентов, которых необходимо лечить для предотвращения одного неблагоприятного исхода (по сравнению с контрольной группой).
Рис. 11. Показатели NNT, полученные в клинических исследованиях никотин-заместительной терапии.
Сравнение клинических исследований на больших и малых выборках
В таблице на рис. 11 приведены доли успешных результатов терапии в основной и контрольной группах, а также величины показателей NNT. Результаты мета-анализа клинических исследований разного размера (до 500 и свыше 500 пациентов) для сравнения приведены отдельно. Таблица показывает, что значения NNT были выше (т.е. хуже) при мета-анализе крупных исследований. Объединение в мета-анализ исследований на выборках меньшего объёма давало более низкие показатели NNT, что желательно. Для никотин-заместительной терапии в форме жевательной резинки это отличие результатов мета-анализа является статистически значимым (95% доверительные интервалы не перекрываются).
Рис. 12 помогает понять, почему так произошло. На графике изображена зависимость оценки абсолютного снижения риска (ARR) возврата к курению от размера выборки, на которой была подсчитана эта оценка. Для выборок объёма менее 500 пациентов разброс ARR составляет от -3% до почти 30%, многие исследования дают оценки выше 10%. Исследования, включающие свыше 500 пациентов дают более «ровные» оценки, в диапазоне от -3% до 10%.
Рис. 12. Абсолютное снижение риска возврата к курению (ARR) между основной и контрольной группами через 6 месяцев после окончания никотин-заместительной терапии
Эффект завышения результата на выборках малого объёма может быть вызван так называемым публикационным смещением (publication bias). Публикационное смещение возникает из-за склонности некоторых исследователей, редакторов и других лиц преимущественно публиковать положительные (статистически значимые) результаты научных исследований, опуская статистически незначимые, неоднозначные или противоречащие ожиданиям данные. Т.е. те исследования на выборках малого объёма, которые давали «разброс» в сторону отрицательных оценок ARR, т.е. нежелательные для исследователя результаты, просто не были опубликованы. Это и вызывает систематическую ошибку мета-анализа, связанную с отбором публикаций, не включающих крупных клинических исследований.
В целом, мы надеемся, что представленная здесь информация отложилась у вас в голове в разделе «что нужно помнить о размерах выборки». Очень многие систематические обзоры, публикуемые в настоящее время, включают исследования, основанные только на малых выборках, или включают нерандомизированные исследования. И то, и другое, как мы показали на примерах, может привести к некорректным результатам.
Скептики скажут, что большая часть решений, принимаемых в области здравоохранения, всё равно основывается на малых объёмах информации, к тому же некачественной. Может они и правы, но чрезвычайно полезным является сам факт знания того, что имеющиеся данные могут привести к качественно неверным выводам.
1. CE Counsell et al. The miracle of DICE therapy for acute stroke: fact or fictional product of subgroup analysis? BMJ 1994 309: 1677-1681.
2. M Clarke, J Halsey. DICE2: a further investigation of the effects of chance in life, death and subgroup analyses. International Journal of Clinical Practice 2001 55: 240-242.
3. RA Moore et al. Size is everything - large amounts of information are needed to overcome random effects in estimating direction and magnitude of treatment effects. Pain 1998 78: 209-16.
4. Collins SL et al. Single dose oral ibuprofen and diclofenac for postoperative pain (Cochrane Review). In: The Cochrane Library, Issue 4, 2002. Oxford: Update Software.
5. RA Moore et al. Size is everything - large amounts of information are needed to overcome random effects in estimating direction and magnitude of treatment effects. Pain 1998 78: 209-16.
6. S Hernandez-Diaz, LA Garcia Rodriguez. Association between nonsteroidal anti-inflammatory drugs and upper gastrointestinal tract bleeding and perforation: An overview of epidemiological studies published in the 1990s. Archives of Internal Medicine 2000 160: 2093-2099.
7. J He, et al. Aspirin and risk of hemorrhagic stroke. A meta-analysis of randomized controlled trials. JAMA 1998 280: 1930-1935.
8. Teo KK, et al. Effects of intravenous magnesium in suspected acute myocardial infarction: overview of randomised trials. BMJ. 1991 303:1499-503.
9. C Silagy et al. Nicotine replacement therapy for smoking cessation (Cochrane Review). In: The Cochrane Library, Issue 1, 2001. Oxford: Update Software.
10. Green, S. B. (1991). How many subjects does it take to do a regression analysis? Multivariate Behavioral Research, 26, 499-510.
11. Harris, R. J. (1985). A primer of multivariate statistics (2nd ed.). New York: Academic Press.
12. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum.
13. Comrey, A. L., & Lee, H. B. (1992). A first course in factor analysis (2nd ed.). Hillsdale, NJ: Erlbaum.
14. Lehr R. (1992) Sixteen s squared over d squared: a relation for crudesample size estimates. Statistics in Medicine, 11, 1099-1102.
15. Machin D. & Campbell M.J. (1995) Statistical Tables for the Design of Clinical Trials, 2nd ed. Blackwell Scientific Publications, Oxford.
16. Amir J., Haral L., Smettana Z., Varsano I. (1977) Treatment of herpes simplex gingivostomatitis with acyclovir in children: a randomized double-blind placebo-controlled study. British Medical Journal, 314, 1800-1803.
17. Van der Windt D.A., Koes B.W., Deville W., de Jong B.A., Bouter M. (1998) Effectiveness of corticosteroid injections with physiotherapy for treatment of painful shoulder in primary care: randomized trial. British Medical Journal, 317, 1292-1296.
18. А.В.Чубенко, П.Н.Лапач, С.Н. Бабич. Медицина, основанная на доказательствах, и современные информационные технологии. – Украинский медичний часопис, №2(40), 2004.
Узнайте больше на курсах Академии Анализа Данных StatSoft
Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
|
© StatSoft Russia |
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран. |