войти зарегистрироваться

КраудсорсингВ капусте нашли аиста

Обнаружил мощный статистический потенциал «ВКонтакте» и получил ответ на давно интересующий вопрос. Дело в том, что среди моих друзей примерно половина родилась в декабре и меня это беспокоило.

Disclaimer:
1) на серьезное исследование не претендует;
2) мне есть чем заняться);
3) может не в тему, но не знаю куда, подскажите.



Важно: по данным на ноябрь 2007 — делал давно.

(Если кому лень пересчитывать — столбики расставлены в порядке месяцев рождения. То есть «Апрель» — «Январь», «Май» — «Февраль»)

Анализ
1. Во-первых, распределение неравномерно. И это, пожалуй, самый важный вывод. Разница между максимумом и минимумом — 20% от среднего. При таком объеме данных это никак нельзя объяснить случайностью.
2. Летом — больше, зимой — меньше. Апрель — пик.
Гипотезы:
1) Высказана идея о том, что реально это провал на зимних месяцах, а все остальное равномерно. Выпадает май, потому что «Кто в мае женится, всю жизнь мается». Эту же гипотезу подтверждает максимум в августе.
2) Вторая идея о том, что вообще есть два пика: один размазанный летний, второй — острый весенний. Причем он не в марте, потому что в марте у нас еще в основном холодно.
3. Есть еще подозрение, что апрельский пик — на самом деле артефакт «Контакта». Люди, которым лень выбирать месяц, выберут первый — то есть январь. Ну в общем дальше можете сами отнять нужное количество месяцев.

КраудсорсингВсему свое время

Disclaimer:
1) на серьезное исследование не претендует;
2) мне есть чем заняться);
3) может не в тему, но не знаю куда, подскажите.

Потратил некоторое время на исследование Вконтакта. Теперь смотрел статус и возраст людей.

Персональные блоги MySQL-дамп базы каталога DMOZ и другие интересные вещи

Наверное, многие знают, что самый знаменитый и самый авторитетный в мире каталог DMOZ.org (он же ODP или Open Directory Project) выкладывает полностью свою базу данных в открытый доступ в формате RDF (http://www.dmoz.org/help/getdata.html) с тем, чтобы люди могли свободно использовать эти данные на своих сайтах. Например, это бывает полезно для создателей нишевых каталогов, так они могут наполнить свои сайты первоначальной информацией.

Однако, народ очень часто парится с форматом RDF (это формат описания ресурсов, похожий на XML — xmlhack.ru/texts/06/rdf-quickintro/rdf-quickintro.html), пишет на разных языках разные парсеры для разных СУБД. И вот, оказывается, есть люди, которые эту проблему за всех решили. Добро пожаловать: на странице www.we-globe.net/WebLab/Download/DmozRdf2MySQL.html лежат готовые MySQL-дампы базы DMOZ за последние 3 месяца.

На этом же ресурсе есть и еще два любопытных раздела:
www.we-globe.net/WebLab/Dmoz/TotalStatistics.html — глобальная статистика DMOZ, включая данные по рубрикам, редакторам и т. д. (данные от 2008-06-07)
www.we-globe.net/WebLab/Hostnames.html — глобальная статистика по хостам и доменам (данные от 2008-05-15)

Выглядит все, правда, достаточно коряво, но зато информация весьма ценная.

Статистика в ITAkamai: отчёт о состоянии интернета

Крупнейший CDN-провайдер Akamai впервые опубликовал отчёт о состоянии интернета. В этом интересном документе затрагиваются разные темы, в том числе безопасность, сетевая инфраструктура интернета, скорость подключения, географическое распределение трафика, проникновение Сети в разных странах. Перечисляются все самые масштабные вирусные эпидемии, сетевые атаки и отключения инфраструктуры за I кв. 2008 года.

Вот некоторые факты:

Китай занимает первое место в мире по объёму вредоносного трафика, который включает в том числе DDoS-атаки. Среди лидеров — Тайвань и Венесуэла, а Россия отсутствует даже в первой десятке.
Около 30% всех атак нацелены на 135 порт, который предназначен для удалённого вызова процедур в Windows (см. таблицу справа).
В марте 2008 года более 10 000 веб-страниц на сотнях сайтов были инфицированы хакерами с целью выманить пароли для популярных онлайновых игр.
В первом квартале 2008 года интернет вырос на 329 млн уникальных IP-адресов. Теперь на каждые 20 жителей Земли приходится один IP-адрес.