Pull to refresh

Comments 14

Можно и пример математического объяснения привести. Во многих случаях (и в ваших примерах тоже) рассматриваемые величины являются положительными, и поэтому их распределения часто ближе к пуассоновским p(x;k)=1/k!xke-x, чем к гауссовым p(x;x0,σ)=(2πσ)-1/2e-(x-x0)2/2σ2. А распределение суммы n пуассоновских распределений также является пуассоновским распределением c k'=n(k+1)-1, поэтому хвост e-x (вместо ожидаемого e-x2) никуда не исчезает, просто на фоне роста основного писка он становится всё менее и менее заметным.

Тоже показалось странным, что хоть статья и выражает опасения по поводу слепого применения центральной предельной теоремы, в ней упускается из виду критический недостаток подхода - попытка подогнать нормальное распределение к любым наборам данных с неотрицательными значениями.

Такое допущение может привести к ошибочным выводам, поскольку реальные данные часто имеют асимметричные и ненормальные распределения.

Очень важно выбирать соответствующие распределения, которые отвечают характеру данных.

Ожидал увидеть хотя бы попытку свести логнормальное распределение к нормальному, или использование сопряженных распределений типа бета-распределения, но увы.

Простите, я сейчас, наверное, глупый вопрос задам. Если сумма n величин с Пуасоновским распределением тоже имеет Пуасоновское распределение, то как быть с ЦПТ, которая говорит, что сумма стремится к нормальному распределению? Там какое-то условие не выполняется?

Там суть в том, что по мере увеличения k форма кривой стремится к гауссиане (с максимумом в точке x02=k), а вклад хвоста e-x уменьшается из-за множителя 1/k!, так что все условия выполняются, всё сходится, но нужны достаточно большие значения k.

сумма стремится к нормальному распределению

Условия: сумма

  • достаточно большого количества

  • слабо зависимых случайных величин,

  • имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада)

В задаче про файлы может не выполниться третье условие ("ни одно из слагаемых не доминирует"): отдельные файлы могут быть очень большими и вносить определяющий вклад в сумму.

Странные условия. Достаточно двух - а) распределение случайно и б) стационарно (не меняется для слагаемых и не зависит от предыстории). И всегда сумма сойдётся к гауссиане - превалирует там что-то или нет. Вопрос только насколько быстро - сколько слагаемых нужно.

Чем "тяжелее хвосты" в исходном распределении, тем хуже сходимость к нормальному по ЦПТ. При этом центр распределения, сходится значительно быстрее, а хвосты медленнее. (это очевидно даже по картинкам из статьи). Довольно известный эффект.

Осталось только понять как взвесить хвосты на малом объеме данных.

Очевидно, что никак, если данных совсем мало, и нет каких-то априорных моделей их возникновения. Если не совсем мало, очевидно, можно посчитать на коленке, эти хвосты в виде вылета за 4-6 сигм. Или привлечь старшие моменты распределения https://en.wikipedia.org/wiki/Kurtosis

Как некоторые говорят "нормального распределения в природе не бывает". И с этим можно согласиться. На самом деле очень трудно найти что-то в природе способное изменяться от минус бесконечности до плюс бесконечности с ненулевым (хоть и мизерным) шансом.

Но некоторые распределения похожи на него. И так как им удобно пользоваться (вся математика готова) его и применяют везде, где можно и где нельзя.

Всегда надо помнить, что многие распределения совсем не нормальные. И вообще никакие, а точнее - уникальные. А зачастую и не случайные (про это тоже нельзя забывать). Например, размер рабочих файлов на компьютере конкретного человека сильно зависит от характера его работы.

Случайность это про отсутствие детерминированности и не достаток информации, по крайней мере в модели. А не про то что, что-то случайное и это нельзя предсказать. Как раз наоборот, статистические модели нужны, чтобы предсказывать основываясь на неполной информации.

В случае с файлами на компьютере, вы можете к примеру просто поставить камеру которая будет фиксировать все действия(условно), и имея всю полноту информации, посчитать их количество, объем и точное распределение. Статистические модели и теорвер применяются, когда очевидно информация потеряна, либо ее не достаточно из-за сложности реальных явлений или принципиальных ограничений (квантово механические эффекты, да или даже банальный тепловой шум).

Согласен. Вообще, статья сводится к "Не любые данные имеют нормальное распределение".

Насколько помню, центральная предельная теорема работает только для суммы независимых случайных величин одного масштаба. Растягивать её на все возможные ситуации попросту некорректно.

Отличная статья, спасибо за ссылку и перевод!

Sign up to leave a comment.