Пирамида доказательств: каким исследованиям можно верить

Перевела статью ученого-биолога и пропагандиста рационального мышления, который в своем блоге желает остаться анонимом. Но пишет дико интересно. Статья о том, как ссылаться на научные факты. От слабого и неубедительного к железно доказанному.

Забавно: то, на что мы вечно ссылаемся в своем контенте — экспертное мнение, кейс – в научном мире стоит в самом низу иерархии и не заслуживает доверия. Стоит задуматься?

Люди очень любят необъективные подтверждения. У нас есть тенденция хвататься за любую идею, которая поддерживает нашу точку зрения и слепо игнорировать все, что не поддерживает.

Особенно это так, когда дело доходит до околонаучных тем. Люди любят думать, что наука на их стороне, и часто используют научные статьи, чтобы укрепить свои позиции.

Цитировать научную литературу, это, конечно, хорошая идея. Но, если мы говорим о научных фактах, полагаться стоит только на литературу, у которой есть экспертная оценка.

Не все научные статьи хорошего качества. Не всем стоит доверять.

Иногда публикуют и низкопробные исследования. И в мире сегодня столько доступной информации, что, если вы поищете хорошенько, найдете как минимум одно исследование в подтверждение вообще любой точки зрения. Поэтому важно осмотрительно выбирать статьи, которые соглашаются с нашим предвзятым мнением, и очень тщательно исследовать публикации.

Типы научных исследований и их достоверность

Существует много типов научных исследований. Одни методики более крепкие и доказательные, чем другие. Так, у вас может быть 2 исследования проведенных корректно, но оба они пришли к абсолютно разным выводам.

Прежде, чем ссылаться на исследование, посмотрите на методику и решите, надежно оно или нет.

Вот краткое описание основных типов исследования и оценка надежности от какого-то крутого наверно чувака.

Мнения экспертов, письма в журнал (очень слабое доказательство)

Некоторые научные журналы публикуют колонки или письма с экспертным мнением. Это очень странный формат для академических публикаций, потому что никакого исследования там, по сути, нет. Автор спорит с чьей-то еще позицией и объясняет, что исследователь или автор другой статьи делает не так.

Это могут быть довольно неплохие статьи, если они написаны экспертами в какой-то отрасли, но не стоит их путать с новыми научными открытиями. В них нет никакой новой информации и странно на них ссылаться.

Вы не можете написать «прививки вызывают аутизм, потому что вот этот ученый так сказал в своей колонке». Вам все равно нужны доказательства.

Читайте колонки оппонентов после того, как изучили результаты реальных исследований. Это хорошая критика, которая помогает науке развиваться.

недостоверная статья — Тут прям все плохо. Статья ссылается на «американских исследователей» и «американского ученого Швиммера». При этом нет ни одной ссылки на источник. А даже если и были бы — агрументация слабая, ученые только выдвинули гипотезу, никаких цифр или исследований эта статья не приводит.

Кейсы (очень слабое доказательство)

Кейсы — это просто перехваленные случаи из практики. Это просто отчет о каком-то единичном случае. В медицине они сосредоточены на каком-то одном пациенте и описывают какую-то новую реакцию на лечение или странную физиологическую патологию. Или успех какого-то нового способа лечения, течение какой-то редкой болезни итд.

В других сферах публикации похожи. Например, в зоологии есть «записки натуралиста», которые описывают какой-то ранее неизученный атрибут или поведение животного. Например, первые зафиксированные случаи альбинизма у вида, изменения в привычках питания и тд.

Кейсы могут быть полезны как стартовая точка для дальнейшего исследования. Но это просто описание единичного случая, не стоит слишком придавать ему значения. Он может и не повториться.

Например. Представим, что изобрели новое лекарство. И во время первого года его использования у врача есть пациент, у которого случается приступ эпилепсии сразу после того, как он примет это лекарство. Врач пишет об этом кейс. На этот доклад следует обратить серьезное внимание и запустить исследование, которое покажет, правда ли это лекарство может вызывать эпилепсию.

Но сам по себе этот доклад нельзя использовать как доказательство в сенсационной новости, что «Похудин экстра» опасен и вызывает эпилепсию! Давайте подпишем петицию!

Нужно подождать, пока пройдет большое исследование, чтобы приходить к какому-либо выводу.

Не забывайте — если А случилось до Б, это еще не значит, что А стало причиной Б. Это логическая ошибка, которую знают как post hoc ergo propter hoc:

«После» не значит «вследствие»

«После этого — значит по причине этого» (лат. post hoc ergo propter hoc) — логическая уловка, при которой причинно-следственная связь отождествляется с хронологической, временной: «Серийный убийца с детства увлекался почтовыми марками, следовательно, филателия превращает людей в безжалостных убийц». Википедия

манипуляция результатами кейсов — Пример грубой манипуляции данными кейса. Все же помнят Pokemon GO? Тут суть в том, что исследователи взяли данные об автомобильных авариях рядом с поекстопами на конкретной маленькой территории. И посчитали, как вырос показатель аварий в тот период, когда игра была популярной. А затем по математической формуле растянули эти данные на весь мир. То есть, назвали гипотетическое число. И оговорились, что не факт, что пострадавшие и погибшие люди в этот момент играли в Pokemon GO. Фактическе число смертей рядом с покестпами из исслеования — 2 за 19 месяцев. Тут само исследование.

Исследования на животных (слабое доказательство)

В таких исследованиях берут животных и тестируют на них лекарственные препараты, ГМО и другие штуки, чтобы предположить, опасны они или нет и дают ли нужный эффект. Сначала тест на зверях, а потом уже проверка на людях.

Точное место тестов на животных в пирамиде доказательств спорно, но все согласны, что ставить его надо ближе к самому низу. Причина простая: психология людей отличается от психологии животных. Поэтому лекарство может совсем по-разному сработать на нас, на мышках и на свинках.

А еще, сила исследования на животных зависит от того, насколько похожа физиология пушистиков на нашу. То есть, тест на шимпанзе более доказательный, чем на мышах.

Исследования на животных изначально ограничены, поэтому их используют просто как стартовую точку для дальнейших изысканий. Например, когда разрабатывают новое лекарство. Обычно его сначала тестят на зверях, потом на людях. Если результаты многообещают, то одобрят тест на людях. Но как только этот тест на людях запустят, результаты исследований на зверях потеряют свою релевантность. Любой результат на людях убедительнее.

Так что будь осторожен, дорогой друг, когда тестишь контент не на своей ЦА. — Маша

Мы полагаемся на результаты зверотестов, только когда речь идет о чем-то неэтичном. Например, о смертельной дозе какого-то нового газа.

Исследования в лабораторных условиях (слабые)

In vitro на латыни значит «в стекле», то есть тесты в пробирках. Это лабораторные исследования, которые проводят на изолированных клетках, биологических молекулах и др. А не исследования на целых комплексных и живых организмах.

Например, если люди хотят лучше понять, как лекарство Х лечит рак, они могут начать с лабораторных исследований. Взять изолированную клетку рака, напустить на нее Х и посмотреть, что будет.

Проблема в том, что в контролируемой среде — в пробирке — химикаты обычно ведут себя не так, как на воле. Потому что в любом сложном организме каждую секунду происходят тысячи химических реакций, которые тоже могут вступать в отношения с лекарством и все ему портить.

Задача лекарства-убийцы рака в живой среде похожа на кино с Томом Крузом. Хорошему веществу нужно еще добраться до плохих клеток, не перебив по пути гражданских и не разрушив полгорода. И не отвлекаясь каждые 5 минут на орду мелких плохишей — а таки найти и завалить босса, то есть рак.

Факт, что какая-то штука убивает клетки рака в чашке петри, — это только одна деталька огромного сложного пазла. Но все равно исследования in vitro нужны, чтобы дать старт более серьезным тестам. То есть — это начало пути, а не конец. Выводы делать просто рано.

Но люди склонны как-то заминать этот факт. И часто результаты пробирковых исследований подают как чудо и наконец-то мы вылечили рак!!!11 Или как доказательство того, что ГМО вредно, а прививки вызывают аутизм.

На самом деле, нужно еще годы подождать более надежных исследований, а потом делать вывод. Это как и в исследованиях на зверях — работает, да, но не в том мире.

Межсекторальное исследование (умеренно-слабое)

Такие исследования еще называют поперечными и углубленными. Они определяют, существует ли конкретное свойство в конкретной популяции в конкретное время. И они всегда ищут ассоциации между этим свойством и одной или несколькими переменными.

Это наблюдательные исследования. То есть ученые собирают данные, но не взаимодействуют и никак не влияют на пациентов. В общем случае, они проводятся с помощью опросов или исследования медицинских карт.

Например, можно провести межсекторальное исследование, чтобы определить текущий уровень сердечных заболеваний в конкретной популяции в конкретное время, и пока проводится исследование, вы сможете собрать данные и о других переменных. Например, о конкретных лекарствах, чтобы увидеть, влияют ли лекарства, диета и тд на сердечные заболевания.

У такого подхода есть несколько проблем, поэтому, в основном, их результаты слабые. Во-первых, в них нет рандомизации, так что очень сложно отсечь взаимоисключающие переменные.

Далее, вы часто полагаетесь на способность людей вспомнить детали и дать точный и полный ответ.

И самое главное, межсекторальные исследования нельзя использовать, чтобы установить причину и следствие.

Давайте представим, что вы делаете исследование о сердечных заболеваниях и находите сильную взаимосвязь между людьми, у которых есть болезнь сердца и людьми, которые принимают лекарство Х.

Это не значит, что Х вызывает сердечные заболевания.

Межсекторальные исследования, по сути, смотрят только в одну точку в один момент времени и не способны распутать причинно-следственную связь.

Возможно, болезнь сердца вызвана другими проблемами, которые, в свою очередь, приводят к тому, что люди начинают принимать лекарство Х. Или тут может быть какая-то третья переменная, которую вы не приняли во внимание, и она-то вызывает одновременно потребность в Х и сердечную болезнь

Поэтому межсекторальные исследования можно использовать, чтобы узнать о существовании характерной черты — болезни сердца — в конкретной популяции. Или чтобы дать точку отсчета дальнейшим исследованиям.

Вот если, например, найдут связь между болезнью сердца и Х, то скорее всего запустят рандомизированное контрольное испытание, чтобы определить, Х это или не Х влияет на случаи болезни сердца.

Еще это исследование может пригодиться, чтобы показать, что 2 переменных черты не связаны между собой. То есть, если вы обнаружите, что Х и болезнь сердца связаны, то все что вы сможете — это признать, что какая-то связь есть. А вот если вы увидите, что они НЕ связаны, то вы сможете заявить, что данные не подтверждают, что Х вызывает сердечную болезнь. По крайней мере, если ваше исследование будет достаточно масштабным.

Исследование случай-контроль (умеренная)

Эти исследование тоже наблюдательные и работают не как типичные исследования, а наоборот. Их начинают с результата, а затем стараются понять, что его вызвало.

Обычно это делается с помощью наблюдения за двумя группами. Есть группа А, у которой наблюдается нужный результат, и контрольная группа В. В каждой группе наблюдают частоту самой вероятной из причин этого результата.

В качестве примера давайте снова возьмем болезнь сердца и препарат Х. Но в этот раз организуем случай-контроль. Чтобы сделать это, нам нужна группа людей с болезнью сердца и контрольная группа, у которых этой болезни нет. Важно, что для этих двух групп нужно исключить искажающие факторы. Например, нельзя сравнивать группу бедных людей с болезнью и богатых людей без болезни, потому что экономический статус будет являться искажающим фактором. То есть, возможно, именно этот фактор дает такой результат, а вовсе не лекарство Х. Можно сравнивать богатых здоровых людей с богатыми больными. Еще важны совпадения по возрасту, полу и другому соцдему.

Теперь, когда у нас есть 2 правильные группы, мы можем смотреть на влияние Х в каждой группе. Если Х вызывает болезнь, мы должны увидеть, что его значительно больше принимают люди в группе больных. А если Х не вызывает болезнь, то его должны примерять примерно одинаково в обеих группах.

Тут важно, что в этом эксперименте тоже сложно различить причину и результат. Как и в межсекторальных исследованиях. В определенных обстоятельствах у него есть потенциал показать причину и следствие, если получится установить, что переменная прогноза случилась раньше, чем результат и если все искажающие факторы были учтены.

Редко бывает, чтобы все три этих условия были в одном эксперименте, поэтому часто это исследование предвзято.

Например, люди из группы больных с большей вероятностью вспомнят что-то типа употребления Х, а люди из группы здоровых просто не придают этому значения. В результате, невозможно вывести заключения из исследований случай-контроль.

Главное преимущество этого метода в том, что оно имеет дел с редкими результатами. Допустим, вам нужно исследовать какой-то редкий синдром, который случается только с 1 из 1000 человек. Межсекторальное или когортное исследование будет сделать очень сложно, потому что вам понадобится обследовать сотни тысяч людей, чтобы получить достаточную выборку с этим симптомом, чтобы у исследования была хоть какая-то статистическая мощность.

А вот случай-контроль вам упростит жизнь, потому что вы уже начнете с того, что такая группа людей с симптомом в природе есть. Вам нужно будет просто набрать группу людей без этого симптома. Так вы получите хорошую статистическую мощность, чтобы исследовать редкие случаи, которые не исследовать никак иначе.

Когортные исследования (умеренно-сильные)

Когортные исследования можно проводить перспективно и ретроспективно. В отличие от всегда ретроспективных случай-контроль исследований. В перспективном исследовании вы имеете дело с группой людей, у которых нет результата, который вас интересует. Например, болезни сердца. И которые отличаются или будут отличаться в том, как на них влияет какой-то потенциальный результат. Например, препарат Х.

Вы наблюдаете этих людей установленный период времени, чтобы увидеть, как они достигают результата, который вам нужен. Это снова наблюдающее исследование, то есть вы не подвергаете их действию потенциальной причины. Разве что вы выбираете группу, в которой некоторые индивидуумы уже подвержены воздействию этой причины. Так в нашем примере вы увидите, будут ли люди, которые принимают Х, больше подвержены риску сердечных заболеваний через несколько лет.

Ретроспективные исследования тоже можно делать, если у вас есть доступ к медицинским картам. В этом случае, вы также берете начальную выборку, но вместо того, чтобы наблюдать их, вы просто посмотрите, что там появилось в их картах через несколько лет. Тут дело в том, чтобы иметь хорошую выборку по размеру и по наличию достоверных и подробных медицинских записей.

Этот тип исследования часто очень дорогой и времязатратный, но у него есть огромное преимущество перед остальными: как раз этот метод может установить причинно-следственную связь.

Вы на самом деле наблюдаете развитие результата, вы можете увидеть, повлияла ли предполагаемая причина на ход вещей или нет. Например, увидеть, что люди сначала начали принимать Х, а потом у них появились проблемы с сердцем. Что важно, все еще необходимо учитывать искажающие факторы. Но если вы можете это делать, то у вас будет доказанный причинный анализ. Хоть и не такой мощный, как вы могли бы получить при рандомизированном контролируемом испытании.

А еще когортный анализ позволит вам просчитать риски, которые могут возникнуть при употреблении конкретного препарата. То есть риск сердечных заболеваний у тех, кто принимает Х и у тех, кто не принимает Х.

Рандомизированное контролируемое испытание (сильное)

РКИ — это золотой стандарт научных исследований. Это самые мощные эксперименты, они дают самые однозначные результаты. Это еще тот самый формат исследования, который представляет себе большинство людей.

Чтобы провести такое исследование, вам надо взять выборку, у которой будет меньше всего искажающих факторов — возраст, пол, этническая принадлежность, уровень благосостояния, здоровья и тд.

Затем случайным образом поделить их на две группы. Одну половину поместить в эксперимент, вторую оставить контрольной. Рандомизация очень важна, это главный залог мощности эксперимента. Во всех других моделях исследований вы не можете рандомно решить, кто получит лекарство, а кто нет. Это сильно ограничивает возможность обезопаситься от искажающих факторов. И усложняет задачу убедиться, что две группы равны во всех отношениях, кроме предмета нашего интереса. В РКИ как раз можно и необходимо рандомизировать, это дает вам сильный скачок в мощности.

Чтобы использовать рандомизацию, важно, чтобы у таких исследований был контроль плацебо. Это значит, что люди в группе, которую лечат, получат то лекарство, которое вы тестируете, а люди в контрольной группе — поддельное нейтральное лекарство, которое ничего не делает. В идеале, должно быть двойное слепое исследование. То есть, ни врачи, ни исследователи не должны знать, что это за таблетка. И кто в какой группе. Так можно исключить и эффект плацебо, и предубеждения исследователя.

Как раз эти 2 момента — плацебо и двойное слепое — это то, чего не хватает в других типах исследования. В исследование случай-контроль, например, люди знают, принимают они Х или нет, а это может повлиять на результат.

Если подумать, станет очевидно, почему этот тип исследования такой мощный. Потому что вы сначала выбираете тему исследования, и у вас есть не имеющая аналогов мощность, чтобы контролировать искажающие факторы, и вы можете рандомизировать факторы, которые не можете контролировать. А еще вы можете положиться на плацебо и исключить предубеждения исследователя, по крайней мере на этапе сбора данных. Поэтому это лучшее из всех исследований.

Тогда вопрос: если они такие классные, почему бы не использовать только их всегда? На это есть тьма причин, вот несколько.

Часто просто неэтично так делать. Например, исследовать новые прививки, потому что мы знаем, как они работают. В этом исследовании мы сознательно лишаем часть детей лечения, которое спасет им жизнь. Также неэтично исследовать на людях вещества, которые точно наносят вред здоровью. В этих случаях нам нужны другие исследования, которые не оказывают непосредственного влияния на пациентов.
Вторая причина — результат, который вы ищете, очень редко удается получить. Например, если вы предполагаете, что какой-то препарат окажет серьезное влияние на болезнь одного из 10000 человек, у вас будет проблема с тем, чтобы собрать нужного размера выборку. Тогда вам больше подойдет исследование случай-контроль.
Стоимость и количество затраченных усилий тоже важная причина. Эти исследования дорогие и требуют много времени. У исследователей обычно просто нет столько ресурсов. Во многих случаях есть доступ к медицинским картам, подходящим для исследований других форматов. Есть смысл как можно больше узнать из карт, а не экспериментировать на людях.

Систематические обзоры и мета-анализ (ооч сильные)

На самом верху пирамиды доказательств — они. Это не сами исследования, скорее, это обзоры и анализ уже проведенных экспериментов. Систематические обзоры шерстят литературу в поисках информации по нужной теме, затем собирают результаты многочисленных испытаний в один материал, который ставит под сомнение все, что мы знаем по теме.

Мета-анализ делает еще один шаг — комбинирует наборы данных из большого количества научных материалов по теме. И проводит статистический анализ всей информации.

Оба этих исследования дают очень мощные результаты, потому что они не полагаются только на одно исследование.

Пожалуй, это единственная и самая главная мысль, которую нужно не упускать из внимания, когда читаете научные статьи — остерегайтесь синдрома одного исследования.

Плохие статьи и статьи с неверными выводами время от времени проникают в печать, иногда тут даже нет вины авторов. Но нужно всегда сначала пробежать по списку литературы, а потом решать — доверять тому, что прочтете или нет. И есть ли смысл читать это вообще и ссылаться на это в ваших материалах.

Мета-анализы и обзоры делают за вас эту работу. Например, есть 19 статей, которые говорят, что Х не вызывает болезнь сердца, и 1 статья, которая говорит, что вызывает.

Некоторые СМИ и хайпожоры схватятся за эту единственную статью и раздуют сенсацию на пустом месте.

Ревью поможет избежать этой ошибки, даст более широкий контекст по всей ситуации, покажет другие результаты. А мета-анализ закопается во все 20 статей и сделает более корректный общий вывод.

Важное правило тестов: фигня на входе — фигня на выходе.

Убедитесь, что ревью перечисляет все критерии, которые у них были на входе и на выходе. Внимательно посмотрите, с какими данными они работали. Систематический обзор по кросс-секциональному анализу не будет достоверным и мощным. Его может легко побить парочка рандомизированных контролируемых тестов.

А вот мета-анализ рандомизированных контролируемых тестов будет супермощным.

Важно, чтобы вся эта аналитика не имела дела с низкокачественными исследованиями. Критерием отбора качественных исследований может быть размер выборки. Но и тут можно манипулировать, если для анализа отбирают только те исследования, которые подтверждают предвзятое мнение исследователя. Поэтому будьте внимательны.

Поэтому даже если вы нашли убедительным список тех материалов, на которых базируется анализ, важно просмотреть и список исключенных результатов исследований.

Пример. Вы находите метаанализ или ревью, в которых рассмотрели только рандомизированные контрольные тесты, которые тестили лекарство Х — это логичный критерий. Но есть только 5 таких результатов исследований и у них у всех маленькие выборки. Между тем существует куча случай-контроль и когортных исследований препарата Х на больших выборках, которые не соглашаются с выводами метаанализа или ревью. Такому ревью не стоит доверять.

Заключение

Автор постарался дать общий обзор некоторых самых распространенных типов научных исследований. И инфу о том, насколько они надежны. Выводы такие:

Всегда имейте в виду эту пирамиду, когда основываете свои материалы на результатах каких-то исследований.
Но, кроме того, и даже важнее того посмотреть на саму статью, чтобы убедиться, что в ней описано корректно проведенное исследование.
Оцените размер выборки и убедитесь, что у исследования есть достаточная мощность, чтобы найти значимые различия между его группами.
И, наверное, самое важное — всегда смотрите на всю доказательную базу, а не на одно или 2 исследования.

Для многих антинаучных или псевдонаучных тем, таких как гомеопатия, прививки и ГМО вы найдете статьи, которые доказывают, что это все работает. Но обычно у тех исследований маленькая выборка и слабый дизайн. И обычно существует куча более крупных и сильных исследований, которые пришли к противоположным выводам. Научитесь понимать, что перед вами статистический шум и опираться только на большие и достоверные исследования.

И в интернете станет меньше фейков)

______

Иллюстрация к посту: unsplash.com

Пирамида доказательств: каким исследованиям можно верить

Типы научных исследований и их достоверность

Мнения экспертов, письма в журнал (очень слабое доказательство)

Кейсы (очень слабое доказательство)

«После» не значит «вследствие»

Исследования на животных (слабое доказательство)

Исследования в лабораторных условиях (слабые)

Межсекторальное исследование (умеренно-слабое)

Исследование случай-контроль (умеренная)

Когортные исследования (умеренно-сильные)

Рандомизированное контролируемое испытание (сильное)

Систематические обзоры и мета-анализ (ооч сильные)

Заключение

Рекомендованные статьи

Зачем мне в горы

Школа редакторов обязывает

I ступень Школы редакторов оказалась про голову, а не про текст

1 комментарий

Добавить комментарий Отменить ответ