Попытка оценки. Только факты.
Студент Принстона, Sauhard Sahi, провел небольшое исследование, с целью оценить, из какого рода данных состоит мировой торрент-трафик. Для этого он подключился к сети
Mainline DHT, основному
DHT, используемом Bitorrent, uTorrent, Transmission и др. (Azureus/Vuze использует по умолчанию иную DHT-систему, но существует плагин, позволяющий ему использовать и Mainline DHT), и получил данные и фрагменты из 1021 случайно выбранного торрента, находящегося в раздаче.
При этом, следует отметить, можно утверждать только то, что раздача данного файла находится среди активных, но нельзя сказать о масштабах ее популярности, и количестве раздающих или скачивающих. Кроме того, не проводилось полное скачивание, а получался только характерный фрагмент позволяющий сложить представление об этом файле или содержимом торрента, если торрент содержал множество файлов.
Также стоит отметить, что подключение к DHT позволило провести анализ без привязки к специфике какого-то конкретного трекера, однако, по-видимому, исключило из исследования какой-то процент торрентов и клиентов, не использующих DHT в принципе (такие есть еще?).
Проведенный анализ дал следующие результаты:
Из рассмотренной группы по типам файлов, файлы разделились следующим образом:
46% — кинофильмы и видошоу (без порно)
14% — игры и софт
14% — порно (видео и фото)
10% — музыка
1% — книги и руководства
1% — картинки
14% — не удалось классифицировать
Кинофильмы и видеошоу
В основном представлены файлами AVI, и рядом других типов, таких как RMVB (RealVideo), MPEG, raw DVD (DVD-рипы), и различные многотомные RAR-архивы с таким содержимым. Любопытно, что в этом сегменте, отчетливо виден перевес в сторону фильмов, вышедших недавно.
Из этих случайно выбранных фильмов и видео 60% были на английском языке, 8% на испанском, 7% на русском, 5% на польском, 5% на японском, 4% на китайском, 4% определить язык не удалось, 3% на французском, 1% на итальянском, другие разные языки — 2%.
Игры и софт
В этой категории не было отмечено какого-то доминирующего типа файлов. Основные типы файлов в этом сегменте были образы ISO, многотомные архивы RAR, и файлы EXE (исполняемые файлы Windows). Игры были для различных платформ, таких как XBOX360, Nintendo Wii, Windows PC. 74% игр и ПО были на английском языке, 12% на японском, 5% на испанском, 4% на китайском, 2% на польском, и по 1% на русском и французском.
Порно
В этой категории доминирующий формат также AVI, что сходно с показателями категории «Кинофильмы», однако значительно больше файлов в формате MPEG и WMV. Также большинство порновидео в торрентах представлено в виде полного файла, сэмпла 1-5 минут, и постера в JPG.
Порновидео трудно было датировать, поэтому возникло предположение, что, в отличие от тенденции, выявленной в группе «кинофильмы», где явственно выражен перекос в сторону новых фильмов, в разделе порнофильмов они более равномерно распределены по «шкале времени».
Мы нашли, что 53% порнофильмов были на английском, 16% на китайском, 15% на японском, 6% на русском, 3% на немецком, 2% на французском, 2% классифицировать не удалось, остальные языки, такие как итальянский, хинди, испанский не более 1% каждый.
Музыка
Основной, доминирующий тип файлов в этой категории MP3, но некоторые альбомы встретились в WMA, а также в виде образов ISO и в многотомных архивах RAR. Также наблюдается устойчивый перекос в сторону новинок, хотя и не столь ярко выраженный, как для кинофильмов, возможно потому, что сидеры продолжат их раздачу, даже когда раздаваемая музыка и не такая новая, поэтому эти файлы и сохраняются в DHT.
По языкам эта категория распределяется так: 78% английский, 6% русский, 4% испанский, 2% японский, 2% китайский, остальные, более редкие языки не более 1% каждый.
Книги и руководства
Книги и руководства занимают явно выраженное меньшинство. Удалось классифицировать всего 15 торрентов такого рода. 13 на английском, 1 на французском, 1 на русском. Кроме этого встретились наборы плакатов национального парка, коллекция картинок с автомобилями BMW (оба на английском) и японский комикс.
Отношения с авторскими правами
Наша последняя классификация делает попытку разобраться с тем, каков процент торрентов является нарушающим авторские права.
Мы классифицировали как не нарушающие авторские права объекты, в трех следующих категориях: находящиеся в public domain, свободно доступные из легитимных источников, или user-generated.
Исходя из этой класификации все из 476 торрентов категории «кинофильмы и видеошоу» мы нашли нарушающими авторские права. Мы нашли, что семь из 148 торрентов категории «игры и софт» выглядели как не нарушающие авторские права (в их числе два дистрибутива Linux, один аддон-пак для игры, а также бесплатный софт и бета-версии). В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка, и мы отнесли его к ненарушающим авторские права. Все 98 торрентов с музыкой являлись раздачей нарушающей авторские права. Два из 15 файлов, раздававшихся как «книг и руководства» выглядели как не нарушающие права.
В итоге, авторы нашли, что примерно 10 раздач из общего числа в 1021 торрент могли считаться совершенно не нарушающими авторские права, что составляет примерно 1%.
Этот результат следует оценивать с осторожностью, так как авторы могли пропустить какие-то файлы, а также имещиеся у авторов сэмплы (по выбранной методике мы не выкачивали файл целиком) могли сложить неверное впечатление об отношениях материала с авторскими правами. Однако, из сложившихся в результате исследования данных следует сделать вывод, что на сегодняшний день сеть Bittorrent, в подавляющем большинстве случаев, используется почти исключительно для передачи незаконно копируемого контента, нарушающего авторские права создателей и владельцев.
Оригинальный текст сообщения на английском языке, опубликован
в блоге Princeton's Center for Information Technology сотрудником центра, являвшимся начруком проводившего исследование студента.
комментарии (119)
Лично я ожидал более высоких показателей по порно. :)
torrentfreak.com/top-10-most-pirated-movies-on-bittorrent-100201/
Но, думаю, задача стояла не такая ;)
«Любые желаемые результаты» — это технология выборов президента, а никак не исследований :)
К слову, о «хорошо рандомизированной выборке» в статье не было ни слова.
Что удивило:
Фильмы:
1. 7% фильмов на русском это понятно откуда. Не так много стран делают дубляж (с полной подменой голоса). Но 5% польского это много. Или они тоже дублируют прокат?
2. В первый раз вижу формат RMVB. Возможно это какие-то правда что шоу в Америке гонят в таком формате.
Игры и софт:
Снова много поляков. Ну то есть это известный факт, что Восточная Европа, как это расплывчато называется, дает чуть ли не 70% всего европейского p2p-траффика, вот теперь понятно откуда оно.
Ну и сильнее всего, разумеется, удивило порно, в особенности 3% дас ист фантастиша :)
Немецкая порноиндустрия практически умерла.
«6%» знающих что происходит на «рынке» не удивят совершенно :-/
1% хинди поразил сильнее 3% немецкого. Оно вообще есть? Или это «переводы»? 8)
И, да, «большинство порновидео в торрентах представлено в виде полного файла, сэмпла 1-5 минут, и постера в JPG» — удивило. Никогда не видел. Прям культурно как ;) Какие-то трейдерские или контентные раздачи? Вряд ли бы они тогда в DHT шли.
Музыка:
6% руской музыки и второе место в мировом трафике это… неожиданно.
Говорят Есть :)
Хорошим качеством он, как правило, не отличается.
которое показывает нам результаты, из-за которых бесятся riaa и подобные.
Но также оно показывает, что видеоинформация сейчас наиболее влиятельна.
На генерирование трафика? Да.
1 символ переданный в формате видео генерирует трафика несопоставимо больше, чем в в формате аудио или текстовом.
«В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка»
Тяжелая работа!
При просмотре порно зрителю так важен язык… :)
Какое юзабилити может быть у двух командлайновых утилит архивации?
Пользователю надо «пользоваться», а не «развивать мозг» вашей консолью, или конфиг файлами. Когда вы это поймете?
Вы говорите, включить мозг на пару секунд. А откуда пользователю, например, художнику, узнать о всех возможных командах, консольных утилитах, директивах перенаправления и т.п.? И вы думаете, что художник будет писать скрипты и тройные командные строки с авком и вц? Попробуйте заставить написать нечто подобное свою женщину, если она у вас есть…
В том числе поэтому лично я больше люблю ed2k и Kad.
Что наука статистика говорит про такое маленькое число?
Беглая выборка при огромном кол-ве — 0,5к — 30к объектов.
Достаточная — 1-5% от общего числа.
Интересно, неужели они просмотрели все?)
Скачивался фрагмент.
Думаю, что эти 3% это всякие «исторические» ;) фильмы.
Нормально ребята отсмотрели «материала» для проведения исследования :-)
ну прям Христофор Колумб!
То есть, все 145 фильмов таки были внимательно просмотрены…
Сейчас — это факты, а через неделю — доказательная база уголовного (совсем не обязательно, конечно, что уголовного) дела.
Принимается вариант критики: «Вот я тут провел свое исследование (методика описана тут, результаты опубликованы там), и у меня получилось иначе»
Не принимается вариант: «А мне кажется что все на самом деле совсем не так, потому что я так щитаю»
Как раз-таки траффик, думаю, распределен по-другому (еще больше в сторону игр и фильмов, а у книг нет шанса и на 0,1%...). В статье то упор на то, что смотрят на доступные файлы, а не на сгенерированный ими траффик.
Но менять уже не буду заголовок, пусть уж так будет :)
Там точно не было бесплатной музыки? Последнее время многие исполнители начали сами раздавать свои произведения.
torrents.ru/forum/viewtopic.php?t=1927856
За 7 месяцев 111 скачиваний, в настоящее время 19 сидов, 1 лич. :-|
Если же смотреть на известных артистов, то у них вполне себе дофига скачиваний. Правда на торентс-ру они не очень-то представлены. Nine Inch Nails -The Slip и Ghosts I–IV, Radiohead — In Rainbows, Tequilajazzz — Журнал Живого (на торентах есть флаковая версия, которая почему-то довольно популярна: torrents.ru/forum/viewtopic.php?t=1947578 ).
Я к тому, что не стоит писать, что 100% пиратки. Написали бы 99%, было бы похоже на правду.
Вот доказательства.
Возможно вы скачаете и вам попадется другая, и тогда вы проведете собственное исследование, и в нем приведете свои данные. А вариант «мне кажется тут должно быть что-то, ты не видишь суслика, а он — есть» — это не исследование, это разговор на лавочке. И именно от этого хотелось бы уйти к реальным данным.
=)
Бедные :( Представляете столько порнухи посмотреть! Вероятно их вторые половинки не в восторге от таких исследований :-)
(Тут есть изучающие/знающие матстатистику, чтобы оценить погрешность?)
Это примерно как просмотреть 1021 случайную фотографию из минилаба и сделать вывод о всех фотографиях человечества.
Но тема интересная :-)
Так что от места — зависит. Видимо в торрентах порно действительн меньше.