войти зарегистрироваться

Peer-to-Peer whois

индекс
216,65

Из чего состоит мировой торрент-трафик?



Попытка оценки. Только факты.

Студент Принстона, Sauhard Sahi, провел небольшое исследование, с целью оценить, из какого рода данных состоит мировой торрент-трафик. Для этого он подключился к сети Mainline DHT, основному DHT, используемом Bitorrent, uTorrent, Transmission и др. (Azureus/Vuze использует по умолчанию иную DHT-систему, но существует плагин, позволяющий ему использовать и Mainline DHT), и получил данные и фрагменты из 1021 случайно выбранного торрента, находящегося в раздаче.

При этом, следует отметить, можно утверждать только то, что раздача данного файла находится среди активных, но нельзя сказать о масштабах ее популярности, и количестве раздающих или скачивающих. Кроме того, не проводилось полное скачивание, а получался только характерный фрагмент позволяющий сложить представление об этом файле или содержимом торрента, если торрент содержал множество файлов.
Также стоит отметить, что подключение к DHT позволило провести анализ без привязки к специфике какого-то конкретного трекера, однако, по-видимому, исключило из исследования какой-то процент торрентов и клиентов, не использующих DHT в принципе (такие есть еще?).

Проведенный анализ дал следующие результаты:
Из рассмотренной группы по типам файлов, файлы разделились следующим образом:
46% — кинофильмы и видошоу (без порно)
14% — игры и софт
14% — порно (видео и фото)
10% — музыка
1% — книги и руководства
1% — картинки
14% — не удалось классифицировать

Кинофильмы и видеошоу
В основном представлены файлами AVI, и рядом других типов, таких как RMVB (RealVideo), MPEG, raw DVD (DVD-рипы), и различные многотомные RAR-архивы с таким содержимым. Любопытно, что в этом сегменте, отчетливо виден перевес в сторону фильмов, вышедших недавно.
Из этих случайно выбранных фильмов и видео 60% были на английском языке, 8% на испанском, 7% на русском, 5% на польском, 5% на японском, 4% на китайском, 4% определить язык не удалось, 3% на французском, 1% на итальянском, другие разные языки — 2%.

Игры и софт
В этой категории не было отмечено какого-то доминирующего типа файлов. Основные типы файлов в этом сегменте были образы ISO, многотомные архивы RAR, и файлы EXE (исполняемые файлы Windows). Игры были для различных платформ, таких как XBOX360, Nintendo Wii, Windows PC. 74% игр и ПО были на английском языке, 12% на японском, 5% на испанском, 4% на китайском, 2% на польском, и по 1% на русском и французском.

Порно
В этой категории доминирующий формат также AVI, что сходно с показателями категории «Кинофильмы», однако значительно больше файлов в формате MPEG и WMV. Также большинство порновидео в торрентах представлено в виде полного файла, сэмпла 1-5 минут, и постера в JPG.
Порновидео трудно было датировать, поэтому возникло предположение, что, в отличие от тенденции, выявленной в группе «кинофильмы», где явственно выражен перекос в сторону новых фильмов, в разделе порнофильмов они более равномерно распределены по «шкале времени».
Мы нашли, что 53% порнофильмов были на английском, 16% на китайском, 15% на японском, 6% на русском, 3% на немецком, 2% на французском, 2% классифицировать не удалось, остальные языки, такие как итальянский, хинди, испанский не более 1% каждый.

Музыка
Основной, доминирующий тип файлов в этой категории MP3, но некоторые альбомы встретились в WMA, а также в виде образов ISO и в многотомных архивах RAR. Также наблюдается устойчивый перекос в сторону новинок, хотя и не столь ярко выраженный, как для кинофильмов, возможно потому, что сидеры продолжат их раздачу, даже когда раздаваемая музыка и не такая новая, поэтому эти файлы и сохраняются в DHT.
По языкам эта категория распределяется так: 78% английский, 6% русский, 4% испанский, 2% японский, 2% китайский, остальные, более редкие языки не более 1% каждый.

Книги и руководства
Книги и руководства занимают явно выраженное меньшинство. Удалось классифицировать всего 15 торрентов такого рода. 13 на английском, 1 на французском, 1 на русском. Кроме этого встретились наборы плакатов национального парка, коллекция картинок с автомобилями BMW (оба на английском) и японский комикс.

Отношения с авторскими правами
Наша последняя классификация делает попытку разобраться с тем, каков процент торрентов является нарушающим авторские права.
Мы классифицировали как не нарушающие авторские права объекты, в трех следующих категориях: находящиеся в public domain, свободно доступные из легитимных источников, или user-generated.
Исходя из этой класификации все из 476 торрентов категории «кинофильмы и видеошоу» мы нашли нарушающими авторские права. Мы нашли, что семь из 148 торрентов категории «игры и софт» выглядели как не нарушающие авторские права (в их числе два дистрибутива Linux, один аддон-пак для игры, а также бесплатный софт и бета-версии). В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка, и мы отнесли его к ненарушающим авторские права. Все 98 торрентов с музыкой являлись раздачей нарушающей авторские права. Два из 15 файлов, раздававшихся как «книг и руководства» выглядели как не нарушающие права.

В итоге, авторы нашли, что примерно 10 раздач из общего числа в 1021 торрент могли считаться совершенно не нарушающими авторские права, что составляет примерно 1%.
Этот результат следует оценивать с осторожностью, так как авторы могли пропустить какие-то файлы, а также имещиеся у авторов сэмплы (по выбранной методике мы не выкачивали файл целиком) могли сложить неверное впечатление об отношениях материала с авторскими правами. Однако, из сложившихся в результате исследования данных следует сделать вывод, что на сегодняшний день сеть Bittorrent, в подавляющем большинстве случаев, используется почти исключительно для передачи незаконно копируемого контента, нарушающего авторские права создателей и владельцев.

Оригинальный текст сообщения на английском языке, опубликован в блоге Princeton's Center for Information Technology сотрудником центра, являвшимся начруком проводившего исследование студента.

комментарии (119)

  • интересная статистика, особенно надо отметить 8% фильмов на испанском и 12% игр на японском.
    • Ну игры-то понятно, в Японии огромный внутренний рынок игр по всякой манге.
      Лично я ожидал более высоких показателей по порно. :)
    • Думаю, статистика была бы иной и более точной, если бы материалы выбирались не случайным образом, а по какой-то системе.
      • Уверен, что если выбирать по системе «только порно», то результаты бы качественно подтвердили бы мнение российского Президента об интернете;)
        Но, думаю, задача стояла не такая ;)
      • Э-э-э… Вообще-то есть даже такое понятие — хорошо рандомизированная выборка. А если исходные данные для выборки подготавливать «по какой-то системе», то можно добиться любых желаемых результатов.
        • А ещё есть такая наука статистика, так вот статистические исследования предполагают грамотную выборку, а не случайный набор данных.

          «Любые желаемые результаты» — это технология выборов президента, а никак не исследований :)

          К слову, о «хорошо рандомизированной выборке» в статье не было ни слова.
    • надо отметить 3% порно на немецком!
  • Ну не думаю, что результат в 1% кого-то удивит на самом деле, вряд ли кто-то ждал другого :-}

    Что удивило:
    Фильмы:
    1. 7% фильмов на русском это понятно откуда. Не так много стран делают дубляж (с полной подменой голоса). Но 5% польского это много. Или они тоже дублируют прокат?
    2. В первый раз вижу формат RMVB. Возможно это какие-то правда что шоу в Америке гонят в таком формате.

    Игры и софт:
    Снова много поляков. Ну то есть это известный факт, что Восточная Европа, как это расплывчато называется, дает чуть ли не 70% всего европейского p2p-траффика, вот теперь понятно откуда оно.

    Ну и сильнее всего, разумеется, удивило порно, в особенности 3% дас ист фантастиша :)
    Немецкая порноиндустрия практически умерла.
    «6%» знающих что происходит на «рынке» не удивят совершенно :-/
    1% хинди поразил сильнее 3% немецкого. Оно вообще есть? Или это «переводы»? 8)
    И, да, «большинство порновидео в торрентах представлено в виде полного файла, сэмпла 1-5 минут, и постера в JPG» — удивило. Никогда не видел. Прям культурно как ;) Какие-то трейдерские или контентные раздачи? Вряд ли бы они тогда в DHT шли.

    Музыка:
    6% руской музыки и второе место в мировом трафике это… неожиданно.
    • Оно вообще есть?

      Говорят Есть :)
    • Польская википедия тоже очень большая, как ни странно.
    • RMVB — формат популярный в Азии, в частности, в Китае.
      Хорошим качеством он, как правило, не отличается.
    • Вот вам и «пятьдесят процентов порноматериалов»…
      • Это зависит. Например в eDonkey сейчас их и все 90%
      • Порно уже не то! :)
      • Может они среди 46% кинофильмов не смогли распознать порно? Мало ли, бывалые ребята.
  • вот про кого пословица «Он и порно в инете не сыщет»
  • Интересное исследование,
    которое показывает нам результаты, из-за которых бесятся riaa и подобные.
    Но также оно показывает, что видеоинформация сейчас наиболее влиятельна.
    • конечно, забавной показалась строка об исследовании 145 фильмов с выявлением одного любительского..)
      • и то пади ведьма из блэр: Р
        • 145 _порно_ фильмов.
          • я про тот _один любительский_
    • Влиятельна на, что?
      На генерирование трафика? Да.
      1 символ переданный в формате видео генерирует трафика несопоставимо больше, чем в в формате аудио или текстовом.
  • Всего 1021 торрент? А учитывая 14% «неизвестных», всего 878 торрентов? Он делал это руками или просто поленился оставить компьютер на ночь? Да, и найти RMVB еще нужно было суметь…

  • Выборка слишком маленькая
    • Хотя наверное он посчитал, сколько там нужно по теории вероятности, исходя из примерного количества типов данных.
    • Да, не слишкм большая. Но, может быть, кто-то попробует повторить в расширенном варианте, методика понятная и несложная.
      • Имеет смысл делать выборку каждый час в течение суток, в зависимости от времени суток, качаемый контингент и контент разнится чуть менее чем полностью.
        • *качающий контингент
    • Конечно, маленькая, но ведь все отсматривали в ручную, судя по этой фразе:
      «В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка»

      Тяжелая работа!
  • Мы нашли, что 53% порнофильмов были на английском, 16% на китайском, 15% на японском, 6% на русском, 3% на немецком, 2% на французском, 2% классифицировать не удалось, остальные языки, такие как итальянский, хинди, испанский не более 1% каждый.

    При просмотре порно зрителю так важен язык… :)
    • Странно что всего 2% классифицировать не удалось :))
      • Там были только междометия, увы. ;)
        • это было порно для немых: Р
  • раскрыть комментарий
    • Creative Commons license
    • Если не считать «хоум порн» то оно всегда таким было. Только не «лицензионным» а защищенным авторскими правами. Или вы считаете, что порноактеры снимаются в таких фильмах из любви к искуству? ;)
  • 80% интернета это порно(с) Медведев
    • Internet made for PORN
    • «80% это торренты» будет вернее. Из которого легален 1%.
    • вроде как «половина интернета — это порноматериалы» ©Путин — или это две разные цитаты? ;)
      • медвед просто забыл как в оригинале было и придумал свою :)
  • Да кто ж качает, когда есть всем известные прекрасные сайты? :)
  • rar рулит интернетом
    • И кстати, это стыдно при наличии более свободных форматов (того же 7-Zip, например).
      • Да это вообще стыдно, какой смысл бить фильм раром на куски, чтоб его потом после скачивания собирать?
        • Уже триста раз эту тему затрагивали здесь. Таковы правила сцены.
          • Можно посмотреть на эти правила? Я бы плюнул в того, кто их написал.
          • А можно тогда ещё раз? А то я как-то совсем не могу найти смысла жать фильм раром и рубить на кусочки.
      • Почему стыдно? Люди выбирают то, что удобнее.
        • их вынуждают ресурсы типа рапидшары, им это не удобно ни разу
          • Зачем пользоваться рапидшарой вообще?
            • а чем пользоваться для выкладывания файлов в интернет? яндекс-диском? у него нет такого ограничения на размер но зато скорость на уровне народ-ру
          • Я говорю о _юзабилити_ WinRAR'а, по сравнению с 7-Zip'ом, например.
            • Не блещите модными словами, когда не понимаете из смысла, пожалуйста.
              Какое юзабилити может быть у двух командлайновых утилит архивации?
              • win rar это как раз не консольная утилита, а оконный менеджер архивов
              • Ваш мозг съела консоль :(
                • между прочим консоль не ест мозг, а развивает, а такое вот юзабилити да, съедает мозг на корню, так что человек не в состоянии использовать за частую более удобную и продуманную программу/систему после использования прошлой. это я не только про винрар, а про все вобще.
                  • Динозавры, как вы, вымирают… и слава богам…
                    Пользователю надо «пользоваться», а не «развивать мозг» вашей консолью, или конфиг файлами. Когда вы это поймете?
                    • если ты чего-то не понимаешь это только твоя проблема, я не говорю что нужно все делать в консоле, я говорю, что есть вещи, которые в консоле сделать в 100 раз быстрее и проще чем в гуе. нужно только включить мозг, не надолго, на пару секунд и потом наслаждаться быстрым и красивым результатом, а не ковырять 100500 файлов мышкой, чтобы сотворить с ними простейшую херню. Люди, которые не любят пользоваться мозгом превращаются в имбецилов. Когда вы это поймете?
                      • А зачем ковырять 100500 файлов мышкой? Для группового переименования, например, есть прекраснейшая функция в Total Commander'е. Всё доступно, нормальный графический интерфейс, все опции как на ладони, а не в мануалах где-то…
                        Вы говорите, включить мозг на пару секунд. А откуда пользователю, например, художнику, узнать о всех возможных командах, консольных утилитах, директивах перенаправления и т.п.? И вы думаете, что художник будет писать скрипты и тройные командные строки с авком и вц? Попробуйте заставить написать нечто подобное свою женщину, если она у вас есть…
                        • не надо передергивать, масса профессиональных пользователей photoshop используют в ежедневной работе imagemagick. не нужно знать все возможные команды, нужно просто знать возможности. у того же фотошопа миллион возможностей о которых можно узнать только из мануалов и не при чем тут интерфейс. и вобще при чем тут художник, вот веб-дизайнер будет писать скрипты для того же imagemagick и научится работать в командной строке если он не имбицил, потому что это удобно и экономит массу времени при рутинной работе. и женщину свою я научил ресайзить любое кол-во фоток для вконтакта используя Ctrl-V и Enter в командной строке. если ты не знаешь как это твои трудности, командный интерфейс удобен, просто для каждой задачи нужен свой инструмент
                          • Вы послушайте себя! Что значит «и вобще при чем тут художник, вот веб-дизайнер...»? Веб-дизайнер тоже программист по сути. Не выворачивайте из себя коня в вакууме. Пользователям это не надо.
                            • Что не надо-то? Каким пользователям не надо? Черные экранчики это для динозавров… детский сад. Просто привыкли все к винде, в которой некоторые вещи через жопу сделаны и все теперь только через жопу, потому что подумать и сделать подругому это нужно мозг напрячь, что-то новое попробовать. Терминал это зло потому, что там ничего не понятно, просто верх аргументации.
        • Не понимаю, в этой ветке -тся и -ться вообще не разу не были использованы. Извините, не удержался :)
      • варезники будут заморачиваться на свободность формата? мицгол, ты?
  • Грустно, что раздаётся в основном свежак.

    В том числе поэтому лично я больше люблю ed2k и Kad.
    • Скорее, не раздаётся, а скачивается. Вполне естественно, что свежак людям интереснее.
      • Раздается. Об этом написано в тексте. В DHT можно определить только активность раздачи, а не популярность ее. С этой точки зрения авторская раздача бит-панк-гараж-группы «Дотком и Пузыри» из одного сидера и двух личеров, и раздача Avatar.FULL.BD-RiP.UnCuT.blah-blah будут представлены одинково, и от того и от другого будут лежать инфохэши.
  • 1021 торрент? У меня суммарно скачано больше.

    Что наука статистика говорит про такое маленькое число?
    • что при «правильно» сделанной маленкой выборке — можно получить любые желаемые результаты. irony
      • Ну эта выборка заявлена как случайная.
    • В целом подобные выборки репрезентативны
      Беглая выборка при огромном кол-ве — 0,5к — 30к объектов.
      Достаточная — 1-5% от общего числа.
  • >>В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка, и мы отнесли его к ненарушающим авторские права.
    Интересно, неужели они просмотрели все?)
    • Ага, не перематывая.
    • А вы говорите статистика скушная штука.
    • Вы невниматльно читаете. Там написано.
      Скачивался фрагмент.
  • Немцы сдают позиции :)
    • Да, меня это тоже удивило. Видимо большая погрешность выборки ;)
      • Это не погрешность, это действительно так. Легендарная немецкая порноиндустрия практически перестала существовать, все переехало в Венгрию/Чехию/Россию.
        Думаю, что эти 3% это всякие «исторические» ;) фильмы.
    • Ну дык, все идет по спирали. Вон, в 45-м проиграли и теперь что-то тут не так. :)
  • В категории «порно» один из 145 фильмов

    Нормально ребята отсмотрели «материала» для проведения исследования :-)
  • сделан вывод что 99% торрентов пиратские?

    ну прям Христофор Колумб!
  • Интересно, как они в DHT сеть подключились и как смогли получить .torrent файлы.
  • > В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка, и мы отнесли его к ненарушающим авторские права.

    То есть, все 145 фильмов таки были внимательно просмотрены…
  • Подводят базу под нападки на сам протокол обмена. Трекера душить задолбаются, так потребуют от провайдеров душить протокол.
    • согласен. очевидно только для этого и было сделано исследование. ну и конечно же выпендриться самой студентке перед держателями авторских прав. бороться против зла с красивым флагом все горазды…
      • Удивительно и необычно для Хабра, что никто еще не упомянул «пиар Принстона» и «рекламу битторрента» :-}
    • Нет. Как сказано в самом начале — это просто факты, ничего больше.
      • Как категорично…
        Сейчас — это факты, а через неделю — доказательная база уголовного (совсем не обязательно, конечно, что уголовного) дела.
  • могли бы уже и округлить до 1024, а вобще это настолько ничтожная часть всего что качают… что данное исследование нельзя признавать объективным (даже если это и отображает действительность)…
    • Ну пока нет других результатов, эти — лучшие.

      Принимается вариант критики: «Вот я тут провел свое исследование (методика описана тут, результаты опубликованы там), и у меня получилось иначе»
      Не принимается вариант: «А мне кажется что все на самом деле совсем не так, потому что я так щитаю»
  • Странно, что он не смог определить процент новых фильмов в категории порно. Раз указал, что постеры почти у всех есть. На постерах, я думаю, год стоит.
  • «Из чего состоит мировой торрент-трафик?»
    Как раз-таки траффик, думаю, распределен по-другому (еще больше в сторону игр и фильмов, а у книг нет шанса и на 0,1%...). В статье то упор на то, что смотрят на доступные файлы, а не на сгенерированный ими траффик.
    • Спасибо за замечание, это действительно так.
      Но менять уже не буду заголовок, пусть уж так будет :)
    • Причём на статистику влияет и объём файла. Средний размер фильма на порядок больше среднего размера книги, вот фрагментов фильмов и намного больше.
  • > Все 98 торрентов с музыкой являлись раздачей нарушающей авторские права.
    Там точно не было бесплатной музыки? Последнее время многие исполнители начали сами раздавать свои произведения.
    • Угу.
      torrents.ru/forum/viewtopic.php?t=1927856
      За 7 месяцев 111 скачиваний, в настоящее время 19 сидов, 1 лич. :-|
      • Ну непопулярные же ребята, на ласт.фм у них почти нет слушателей. Когда мы считаем таких, нужно понимать, что их тысячи и десятки тысяч.
        Если же смотреть на известных артистов, то у них вполне себе дофига скачиваний. Правда на торентс-ру они не очень-то представлены. Nine Inch Nails -The Slip и Ghosts I–IV, Radiohead — In Rainbows, Tequilajazzz — Журнал Живого (на торентах есть флаковая версия, которая почему-то довольно популярна: torrents.ru/forum/viewtopic.php?t=1947578 ).

        Я к тому, что не стоит писать, что 100% пиратки. Написали бы 99%, было бы похоже на правду.
        • А не надо «похоже на правду», надо «правду». Правда состоит в том, что они скачали N фрагментов, и все N принадлежали копирайтной музыке.
          Вот доказательства.
          Возможно вы скачаете и вам попадется другая, и тогда вы проведете собственное исследование, и в нем приведете свои данные. А вариант «мне кажется тут должно быть что-то, ты не видишь суслика, а он — есть» — это не исследование, это разговор на лавочке. И именно от этого хотелось бы уйти к реальным данным.
  • интересно, как определялось какой язык в фильмах (-порно)?
    =)
    • Ну порнофильмы бывают даже и с сюжетом. Приходит, например водопроводчик… или, скажем, телемастер… ;)
  • >> Мы нашли, что 53% порнофильмов были на английском, 16% на китайском, 15% на японском, 6% на русском, 3% на немецком, 2% на французском, 2% классифицировать не удалось, остальные языки, такие как итальянский, хинди, испанский не более 1% каждый.

    Бедные :( Представляете столько порнухи посмотреть! Вероятно их вторые половинки не в восторге от таких исследований :-)
    • Почему вы априори полагаете, что «вторые половинки не в восторге»? ;)
      • Потому что их первые половинки выдохлись еще на работе.
        • От хорошего порно ничуть не выдохнешься, я уж не говорю о том, что правильные половинки и сами ничуть не прочь присоединиться. ;)
          • Не смешивайте личную жизнь и работу :-)
  • Ту же самую картину я наблюдаю у себя на винчестере с данными.
    • Может ваш винт из корня и расшарен? ;)
  • Не стоит делать далеко идущих выводов из такой маленькой выборки.
    (Тут есть изучающие/знающие матстатистику, чтобы оценить погрешность?)
    Это примерно как просмотреть 1021 случайную фотографию из минилаба и сделать вывод о всех фотографиях человечества.

    Но тема интересная :-)
  • просмотреть 145 порнороликов — это титанический труд…
  • с музыкой да, дело швах. особенно с flac/ape и проч. :(((
  • мне одному кажется что выборка по 1000 торрентам не может являться основой для такого исследования? 1к торрентов это даже не капля, это 0,001 капли ежедневно скаченных торрентов, а то и меньше на пару порядков. 10к я бы еще может и понял, 100к уже адекватно было бы, 1m реальная тема, но 1к это просто ниачем.
  • меня удивил столь низкий процент по порно. И вот почему. Когда фишишь инет с тарелки — все подряд, то процентов 90 — оказывается порнухой…
    • В разных местах — по разному. Вот, например, в eDonkey/Kad нынче почти исключительно порнуха, а раньше, году в 2004-2005 я оттуда ведь музыку всякую умную качал, например.
      Так что от места — зависит. Видимо в торрентах порно действительн меньше.
Только авторизованные пользователи могут оставлять комментарии. Авторизуйтесь, пожалуйста.