IT's MOre than a University
163,65
рейтинг
2 февраля в 10:25

Разработка → «Ловушки сознания»: Как исследователи обманывают себя



Люди удивительно хорошо умеют обманывать самих себя, поэтому исследователям часто не удается воспроизвести результаты проведенных экспериментов. Об этой достаточно крупной проблеме в науке говорить не принято.

Даже самый честный человек – мастер самообмана. Мы умеем быстро выделять аномальные результаты, однако часто принимаем на веру все, как нам кажется, «логичные» выводы. Таким образом, мы бессознательно уходим от реальности.

В 2015 году была предпринята попытка повторить результаты ста психологических исследований, однако сделать это удалось лишь в трех случаях из десяти.

В 2012 году ученые из биотехнологической фирмы Amgen в Таузенд-Оукс, Калифорния, сообщили, что им удалось воспроизвести результаты лишь шести исследований в области онкологии и гематологии из пятидесяти трёх.

«Возникновение подобных кризисных ситуаций – это наш шанс улучшить научный инструментарий», – говорит Роберт Маккоун, социолог из Стэнфорда. Такое уже случалось раньше.

Еще в середине ХХ века ученые обнаружили, что экспериментаторы и испытуемые часто бессознательно меняли свое поведение, чтобы «подогнать» результаты исследования под свои ожидания. Именно это открытие стало причиной появления двойного слепого метода исследования.

По этой причине исследователи придумывают самые разнообразные способы исключения ошибок при анализе данных: стратегии, которые включают сотрудничество с соперниками (противниками теории, к примеру) и анализ «поддельных» данных.

Проблема


Бытует мнение, что следует допускать в публикацию только исследования со статистически значимыми результатами, то есть результатами, p-значение которых равняется 0,05 или меньше. Сложности в первую очередь возникают при анализе больших наборов многомерных данных, где невероятно трудно отделить значимые данные от случайного «шума».

«С такими объемами данных не всегда справляются даже статистические методы, что уж говорить про человеческий мозг», – говорит Кит Баггерли, статистик Онкологического центра им. М.Д. Андерсона в Техасском университете.

Эндрю Кинг, специалист в области управления из Дартмутского колледжа в Ганновере, Нью-Гемпшир, говорит, что благодаря широкому распространению специализированного программного обеспечения, исследователям стало проще проверять огромные наборы данных (при этом им не обязательно полностью понимать суть используемых методов) и получать маленькие p-значения (которые могут оказаться бесполезными в рамках конкретного исследования).

«Здесь все как в спорте, – говорит Хэл Пашлер, психолог из Калифорнийского университета в Сан-Диего, – мы гонимся за лучшим результатом».

Ограниченность гипотез

Одной из ловушек, поджидающих на ранних стадиях исследования, является пренебрежение контраргументами и другими объяснениями, которые противоречат изначальной гипотезе. «Как правило, если человек хочет подтвердить свою точку зрения, то формулирует вопросы так, чтобы получить заведомо утвердительный ответ», – говорит Джонатан Барон, психолог из Пенсильванского университета в Филадельфии.

Такие ситуации не редкость в судах. В 1999 году в Британии женщина по имени Салли Кларк была признана виновной в убийстве двух своих сыновей-младенцев. Приговор был вынесен на основании статистических данных, согласно которым шанс смерти двух детей от синдрома внезапной детской смерти (СВДС) составлял всего 1 на 73 млн – этот факт был принят как изобличающее доказательство.

Математик Рэй Хилл позже подсчитал, что двойная смерть от СВДС происходит примерно в 1 семье из 297 000, в то время как двойное убийство детей родителями – примерно в 1 семье из 2,7 млн. Отношение 9 к 1 против убийства. В 2003 году приговор Салли Кларк был отменен на основании новых доказательств.

Ошибка техасского снайпера

Есть еще одна ловушка, в которую можно попасть в ходе анализа данных. Она объясняется в старом американском анекдоте про техасского снайпера, неумелого стрелка, который сперва стрелял в стену сарая и только потом рисовал мишень с центром вокруг крупнейшего скопления пулевых отверстий.

Психолог Ури Симонсон из Пенсильванского университета дает точное объяснение этой наивности в своем определении термина «р-hacking»: «Проведение манипуляций с информацией до тех пор, пока не будет достигнута статистическая значимость p < 0,05». В 2012 году исследование поведения более двух тысяч психологов США показало, насколько широко распространён р-hacking.

Половина испытуемых избирательно сообщила только о тех исследованиях, которые «удались»; 35% представили неожиданно полученные данные так, будто подобный исход предполагался с самого начала.

«Несимметричность» внимания

На этапе проверки данных встречается другая ловушка: мы не проверяем достоверность ожидаемых результатов и уделяем больше внимания «интуитивно-непонятным». Мы не осознаем, что ошибка может скрываться в другом месте.

Подобное поведение достаточно распространено. В 2004 году было проведено исследование того, как сотрудники трех ведущих молекулярно-биологических лабораторий проверяют результаты 165 различных экспериментов.

В 88% случаев, когда результат не соответствовал ожиданиям, ученые считали, что в ходе эксперимента были допущены ошибки, и даже не допускали мысли о неправильности теории. В то же время, «логичные результаты» практически не обсуждались.

Сказки просто так

В процессе анализа данные компонуются и интерпретируются, а исследователи часто начинают давать ненаучные теоретические обоснования, то есть рассказывать «сказки» (Just-So Stories) – это явление было названо в честь книги Редьярда Киплинга «Сказки просто так» («Just So Stories»), в которой даются причудливые объяснения обычным вещам (например, откуда у леопарда пятна).

Еще один соблазн для ученых – дать логическое обоснование тому, почему не был получен ожидаемый результат, то есть оправдаться. Мэтью Хенкинс, статистик из Королевского колледжа в Лондоне, собрал более 500 оригинальных фраз, которые исследователи использовали, дабы убедить читателей, что их незначимым результатам стоит уделить внимание (см. здесь).

Среди них можно выделить «балансирующий на грани уровня значимости (> 0,1)», «на самой границе значимости (р = 0,099)» и «результат не совсем значимый, но очень вероятный (> 0,05)».

Решения


Каждая из вышеописанных ловушек стимулирует процесс выявления потенциально важных научных зависимостей, однако здесь приходится учиться исключать ложные результаты и тупиковые гипотезы, специально замедлять темп исследований.

Есть одно решение – нужно возродить старую традицию и начать открыто учитывать все конкурирующие гипотезы, а также, если это возможно, придумывать эксперименты, которые бы их проверяли. Это позволит не замыкаться на какой-то одной теории.

Прозрачность

Еще одним решением возникшей проблемы стала открытая наука. Исследователи делятся своими методами, данными, программным кодом и результатами друг с другом, например через Центр открытой науки.

Еще более радикальная идея – введение «зарегистрированных отчетов», когда исследователи представляют свои планы исследования для рецензирования еще до начала эксперимента. Если план будет одобрен, то отчет о полученных результатах эксперимента (вне зависимости от их значимости) гарантированно публикуется.

Эта мера призвана снизить влияние исследователей и рецензентов на работу. Сегодня уже более 20 журналов предлагают или планируют предлагать возможность публикации таких отчетов.

Работа с соперниками

Для решения спорных вопросов отлично подходит еще один метод – можно пригласить академических соперников присоединиться к работе. Работая с конкурирующими гипотезами и теориями, соперники быстро выявляют логические ошибки и устраняют их.
Слепой метод анализа данных

Слепой метод анализа данных – это еще один способ избавиться от когнитивных искажений. Он пришел из области физики, но в других областях все еще малоизвестен. Идея заключается в том, что исследователи не знают, насколько они близки к желаемым результатам, поэтому с меньшей вероятностью повлияют на результаты эксперимента.

Один из способов реализации такого метода – это написание специальной программы, которая будет создавать альтернативные наборы данных, путем, например, добавления случайного шума или сдвига. Исследователи ни на одном из этапов не знают, с какими данными работают. Истина раскрывается лишь в самый последний момент, когда любая намеренная манипуляция с результатами анализа будет очевидна.

Ученые, поддерживающие этот метод, называют его лишней, но необходимой работой, которая поддерживает в исследователе уверенность в том, что он получит непредвзятые результаты. Поэтому метод анализа данных вслепую порой называют «интеллектуальной гигиеной».

Несмотря на то, что ученые во многом не отличаются от других людей и подвержены тем же слабостям, методы, которые сейчас внедряются для исключения «ошибок сознания» в науке показывают свою результативность. Интересно, что не последнее место среди этих методов занимают приемы, использующие программные продукты: как выясняется, они могут не только облегчить жизнь исследователю, но и в немалой степени гарантировать его непредвзятость.

P.S. Рекомендуем взглянуть на наш рассказ о разработке системы квантовой связи, а совсем недавно мы написали о том, как студенты становятся продвинутыми программистами.
Автор: @itmo
Университет ИТМО
рейтинг 163,65
IT's MOre than a University

Комментарии (30)

  • 0
    Ну так психология — лженаука. :)
    • +4
      Она использует доказательства и эксперименты, как и любая наука, причём иногда настолько замороченные по поводу деталей, что не каждому физику снилось. Ну, или может какому-нибудь второсортному физику.
      Из за отсутствия какой-либо детали эксперимента он может быть повторён заново.
      • 0
        Нет прибора — нет науки.
        • +1
          математика не наука?
          • +1
            Калькулятор.
    • +3
      Гэри Сэлдон очень опечален вашим заявлением.
  • +11
    О Я. И. Френкеле рассказывают, что якобы в ФТИ в 30-е годы его изловил в коридоре некий
    экспериментатор и показал полученную на опыте кривую. Подумав минуту, Я. И. дал объяснение хода этой
    кривой. Однако выяснилось, что кривая случайно была перевёрнута вверх ногами. Кривую водворили на место и,
    немного поразмыслив, Я. И. объяснил и это поведение кривой.

    Физики шутят:
    • +2
      Может, кривая была симметрична относительно начала координат :-)
  • +3
    Творения Элиезера Юдковского, по большей части, об этом.
    Если кто не читал: вот его цепочки о рациональности.
    И, непредвзятости ради, фанфик по Гарри Поттеру (что, если бы Гарри вырос в семье профессора).
    • +1
      У этого фанфика есть и перевод на русский — hpmor.ru
      • 0
        Да, спасибо, забыл упомянуть. У цепочек, кстати, тоже: lesswrong.ru.
  • +7
    В 1999 году в Британии женщина по имени Салли Кларк была признана виновной в убийстве двух своих сыновей-младенцев. Приговор был вынесен на основании статистических данных, согласно которым шанс смерти двух детей от синдрома внезапной детской смерти (СВДС) составлял всего 1 на 73 млн – этот факт был принят как изобличающее доказательство.


    Жесть. Смерть двух детей — ещё и посадили на 4 года.
  • +2
    Вспомнился эксперимент с крысой в лабиринте, которая должна найти еду, описанный в книге про Фейнмана.
    http://lib.ru/ANEKDOTY/FEINMAN/feinman.txt
    Искать по фразе «Но и в психологии не все эксперименты так плохи».
  • +1
    Вы упомянули о квантовой связи и мне сразу вспомнился Ричард Гилл, который не только занимается квантовой теорией информации, но и помогал оправдать медсестру осуждённую по «статистическим» соображениям.
  • +4
    image
    • 0
      Интересно, почему именно 0,05 это точка отсчета. При маленьких выборках 0,1 вполне можно использовать. И результаты «на границе значимости» тоже полезно анализировать. Просто все это нужно четко указывать в отчете.
  • +3
    Это всё происходит от того, что люди даже примерно не представляют как система по настоящему должна работать. В физике есть основопологающие принципы, которым более-менее подчиняются все известные системы. И эти принципы выражены в виде математических формул и операций, которые применить к результатам экспериментов для интерпретации.

    В медицине и психологии ничего такого нет. Никто даже примерно не представляет как это всё работает, никто не может отделить важные процессы от второстепенных. А так как никакой строгой смысловой интерпретации нет, то можно жонглировать данными как угодно и получать какой угодно результат. Это как изучать колебания шарика на пружинке, но вместо шарика у нас клетка с котом, которого можно кормить разной едой, включать любую музыку, светить лазером, менять температуру и вся лаборатория находится в кабине вездехода мчащегося по Сахаре через барханы. И потом построить корреляцию дозы вискаса с количеством мяуканей и искать там значимость.

    В физике, конечно, тоже был подобный период и небесная система Птоломея явный тому пример. И сейчас подобных «Птоломоеевских» интерпретаций в физике пруд пруди. Всегда наука идёт от запутанного к ясному, я уверен что с психологией и медициной тоже такое когда-то произойдет.
  • –4
    Какой-то однобокий взгляд. Можно же было описать причины, по которым получается так, а не иначе.
    Этих причин несколько. Наиболее «древняя» в том, что исторически сложилось так, что человек думает линейно, т.е. от простого к сложному. И все свои мысли об устройстве мира (а что такое наука, как не попытка понимания устройства мира) он рассматривает с этой точки зрения. То есть, один камень, два камня, куча камней, гора камней и т.д.
    На данный момент времени имеется более продуктивная идея — мир имеет «деревянную» структуру — т.е. объект имеет какое-либо свойство с возможным диапазоном изменения. После заполнения всего объема возможностей происходит переход на новый уровень, добавляется новое свойство. Происходит заполнение этого свойства с наследуемыми возможностями более низкого уровня. Число возможностей растет почти как факториал от номера уровня.
    Другая причина — человек получает информацию о мире через свои органы чувств (этакие датчики, считывающие данные об окружающем мире).
    Так вот интерпретация «показаний» датчиков человеческим разумом также возможно неверна. То есть, наблюдаемые процессы, в случае рассмотрения устройства мира в виде «дерева», тоже не будут соответствовать общепринятым.
    Еще одна причина, как ни странно это математика. Да-да, та самая «царица наук». Вернее не сама математика, а отношение к ней как к чему-то идеально правильному. На самом деле, математика — это инструмент. Как топор или гаечный ключ. Но ошибка в том, что математика симметрична, т.е. сложение — вычитание, умножение — деление и т.д. А мир (т.е. физика) несимметричен. Сила тяготения только притягивает, температура, объем и давление не могут быть отрицательными и т.д.
    Математика похожа на калейдоскоп — показывает множество изображений, но не говорит какое из них реально, а какое виртуально. И изучать мир при помощи «голой» математики неправильно. Обязательно в паре с логикой, причем основание счисления логики изменяется с номером уровня «деревянной» структуры.
    Если представить мир с точки математики, то предположим это будет шар. А реальный мир будет представлен веткой коралла, внутри этого шара. И пока мы не разберемся с тем, как все устроено, наука так и будет состоять из случайных открытий, сделанных путем перебора всех возможных состояний. И «обман», описанный в статье, не более чем рабочий процесс подобного метода «научного тыка».
    В общем, мы только-только начинаем изучение нашего мира и у нас еще все впереди.
    • +2
      И изучать мир при помощи «голой» математики неправильно.

      Квантовую физику давно изучают при помощи «голой» математики, не заморачиваясь с логикой. Нет, вы уж простите, возможно вы только-только начинаете изучение мира, и переход к математике, как языку всего у вас ещё не скоро, однако не распространяйте такой тип мышления на всех.

      Сила тяготения только притягивает, только вот вы, стоя на земле, не падаете — силе тяготения противостоит другая сила, уравновешивая её.

      температура, объем и давление не могут быть отрицательными и т.д.
      а масса и энергия могут, забавно. О чем мы говорим, если ученые уже получили анти-материю?

      Нет, говорить что математика это "только инструмент" — это и есть «однобокий взгляд»
      • 0
        Квантовую физику давно изучают при помощи «голой» математики,

        Квантовая механика основана на экспериментах, более того, в свое время она очень сильно повлияла на развитие некоторых областей математики, т.е. сначала была физика, а потом под нее "доразвили" математику.
        Математика для физики — я согласен — только инструмент. Но сама по себе она является одним из способов познания мира. И на нынешнем этапе развития человечества наиболее удобным и успешным методом, но не единственным.
  • +1
    Про склонность к подтверждению (confirmation bias) хорошая статья в Википедии с обзором причин и проявлений.
    Другие когнитивные искажения также заслуживают внимания.
  • +3
    С 1999 года где-то пару лет я занимался обширными психологическими тестированиями в интернете (проект iqrate). Люди отвечали на вопросы тестов, а система сама искала статистически значимые зависимости. Было оттестировано около 300 тысяч человек. В системе было около 5 000 параметров. Оказалось, что есть статистически значимые, но идейно странные зависимости, типа: ведущий газ — сексуальная ориентация. Таких зависимостей нашлось достаточно много. Естественно, что захотелось проверить обоснованность таких «открытий». Эти закономерности были выложены на сайте с просьбой к пользователям пройти тесты, связанные с этими «чудесами». Оказалось, что при дополнительном накоплении статистики закономерности исчезали.
    Суть в том, что если много чего мерить, то неизбежно возникнут псевдо-достоверные результаты. Критерий достоверности: 95% вероятность попадания исследуемой величины в некий доверительный интервал, означает, что в пяти случаях из ста попадание будет ошибочным.
    Современные исследования — это огромный генератор самых разнообразных измерений, поиск зависимостей всего со всем. Неизбежно будут возникать «странные» зависимости при соблюдении статистической значимости. Публикаторам научных работ стоит учитывать этот эффект и делать поправку на «количесто исследований».
    • +1
      Эти закономерности были выложены на сайте с просьбой к пользователям пройти тесты, связанные с этими «чудесами». Оказалось, что при дополнительном накоплении статистики закономерности исчезали.


      Возможно, из-за просьбы, направленной на конкретную зависимость эти тесты привлекали определенную группу людей, у которой такой зависимости не было? Например, если вы говорили: «друзья, по нашим тестам получается, что среди левшей больше геев, давайте перепроверим!», то возможно в последующих тестах с большим рвением участвовали левши-не геи.
  • +1
    Кроме упомянутой неприятности с фильтрованием результатов по статистической значимости есть и другая загвоздка: если результат статистически значим, то он скорее всего переоценён.

    Представим себе, что наш эксперимент измеряет величину настоящего эффекта на фоне шума. Если шум сложился с сигналом, результат с большей вероятностью перевалит через порог статистической значимости. Ужесточение порога при этом не поможет, а как раз наоборот — будет только хуже.

    Помогает только репликация, причём другой лабораторией и с размером выборки в два с половиной раза больше.
    • 0
      А если шум отнимется от сигнала, то наоборот. А учитывая, что в идеале мат.ожидание у шума нулевое, он не должен все время складываться с сигналом.
      • 0
        Если шум отнимается от сигнала, то меньше вероятность перевалить через порог статистической значимости и не попасть в публикацию. Матожидание у шума нулевое, но мы-то усредняем не по всем случаям, а только по тем, которые были опубликованы (то есть оказались статистически значимыми — далекими от нуля).
        • +1
          Опечатался — должно было быть «Если шум отнимается от сигнала, то меньше вероятность перевалить через порог статистической значимости и попасть в публикацию».

          Допустим, сигнал равен 1, шум может быть +1 или -1 с равной вероятностью, и у нас одно наблюдение. Если шум +1, мы намеряли 2 и опубликовали. Если шум -1, мы намеряли 0 и не опубликовали. Среднее по экспериментам 1, среднее по публикациям 2.
  • +2
    Найти истину сложно, и путь к ней тернист. Как искателям правды, вам следует всё подвергать критике, а не просто доверяться сочинениям древних. Вы должны ставить под сомнения и со всех сторон оценивать эти труды. Вы должны полагаться только на доказательства и результаты экспериментов, а не на слова любого человека, ведь каждый человек подвержен множеству слабостей.

    Как искатели правды, мы должны критиковать и во время своих поисков ставить под сомнения и собственные идеи, что бы не поддаться предвзятости или пренебрежению. Идите по этому пути, — и вам откроется истина.


    © Ибн аль-Хайсам, первый человек, установивший «правила науки» (научный метод).
  • +4
    Уважаемый «Университет ИТМО», добавьте ссылку на статью рерайт которой вы тут сделали. В противном случае это обыкновенный плагиат.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разработка