Peer-to-Peer

индекс
242,10

Из чего состоит мировой торрент-трафик?



Попытка оценки. Только факты.

Студент Принстона, Sauhard Sahi, провел небольшое исследование, с целью оценить, из какого рода данных состоит мировой торрент-трафик. Для этого он подключился к сети Mainline DHT, основному DHT, используемом Bitorrent, uTorrent, Transmission и др. (Azureus/Vuze использует по умолчанию иную DHT-систему, но существует плагин, позволяющий ему использовать и Mainline DHT), и получил данные и фрагменты из 1021 случайно выбранного торрента, находящегося в раздаче.

При этом, следует отметить, можно утверждать только то, что раздача данного файла находится среди активных, но нельзя сказать о масштабах ее популярности, и количестве раздающих или скачивающих. Кроме того, не проводилось полное скачивание, а получался только характерный фрагмент позволяющий сложить представление об этом файле или содержимом торрента, если торрент содержал множество файлов.
Также стоит отметить, что подключение к DHT позволило провести анализ без привязки к специфике какого-то конкретного трекера, однако, по-видимому, исключило из исследования какой-то процент торрентов и клиентов, не использующих DHT в принципе (такие есть еще?).

Проведенный анализ дал следующие результаты:
Из рассмотренной группы по типам файлов, файлы разделились следующим образом:
46% — кинофильмы и видошоу (без порно)
14% — игры и софт
14% — порно (видео и фото)
10% — музыка
1% — книги и руководства
1% — картинки
14% — не удалось классифицировать

Кинофильмы и видеошоу
В основном представлены файлами AVI, и рядом других типов, таких как RMVB (RealVideo), MPEG, raw DVD (DVD-рипы), и различные многотомные RAR-архивы с таким содержимым. Любопытно, что в этом сегменте, отчетливо виден перевес в сторону фильмов, вышедших недавно.
Из этих случайно выбранных фильмов и видео 60% были на английском языке, 8% на испанском, 7% на русском, 5% на польском, 5% на японском, 4% на китайском, 4% определить язык не удалось, 3% на французском, 1% на итальянском, другие разные языки — 2%.

Игры и софт
В этой категории не было отмечено какого-то доминирующего типа файлов. Основные типы файлов в этом сегменте были образы ISO, многотомные архивы RAR, и файлы EXE (исполняемые файлы Windows). Игры были для различных платформ, таких как XBOX360, Nintendo Wii, Windows PC. 74% игр и ПО были на английском языке, 12% на японском, 5% на испанском, 4% на китайском, 2% на польском, и по 1% на русском и французском.

Порно
В этой категории доминирующий формат также AVI, что сходно с показателями категории «Кинофильмы», однако значительно больше файлов в формате MPEG и WMV. Также большинство порновидео в торрентах представлено в виде полного файла, сэмпла 1-5 минут, и постера в JPG.
Порновидео трудно было датировать, поэтому возникло предположение, что, в отличие от тенденции, выявленной в группе «кинофильмы», где явственно выражен перекос в сторону новых фильмов, в разделе порнофильмов они более равномерно распределены по «шкале времени».
Мы нашли, что 53% порнофильмов были на английском, 16% на китайском, 15% на японском, 6% на русском, 3% на немецком, 2% на французском, 2% классифицировать не удалось, остальные языки, такие как итальянский, хинди, испанский не более 1% каждый.

Музыка
Основной, доминирующий тип файлов в этой категории MP3, но некоторые альбомы встретились в WMA, а также в виде образов ISO и в многотомных архивах RAR. Также наблюдается устойчивый перекос в сторону новинок, хотя и не столь ярко выраженный, как для кинофильмов, возможно потому, что сидеры продолжат их раздачу, даже когда раздаваемая музыка и не такая новая, поэтому эти файлы и сохраняются в DHT.
По языкам эта категория распределяется так: 78% английский, 6% русский, 4% испанский, 2% японский, 2% китайский, остальные, более редкие языки не более 1% каждый.

Книги и руководства
Книги и руководства занимают явно выраженное меньшинство. Удалось классифицировать всего 15 торрентов такого рода. 13 на английском, 1 на французском, 1 на русском. Кроме этого встретились наборы плакатов национального парка, коллекция картинок с автомобилями BMW (оба на английском) и японский комикс.

Отношения с авторскими правами
Наша последняя классификация делает попытку разобраться с тем, каков процент торрентов является нарушающим авторские права.
Мы классифицировали как не нарушающие авторские права объекты, в трех следующих категориях: находящиеся в public domain, свободно доступные из легитимных источников, или user-generated.
Исходя из этой класификации все из 476 торрентов категории «кинофильмы и видеошоу» мы нашли нарушающими авторские права. Мы нашли, что семь из 148 торрентов категории «игры и софт» выглядели как не нарушающие авторские права (в их числе два дистрибутива Linux, один аддон-пак для игры, а также бесплатный софт и бета-версии). В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка, и мы отнесли его к ненарушающим авторские права. Все 98 торрентов с музыкой являлись раздачей нарушающей авторские права. Два из 15 файлов, раздававшихся как «книг и руководства» выглядели как не нарушающие права.

В итоге, авторы нашли, что примерно 10 раздач из общего числа в 1021 торрент могли считаться совершенно не нарушающими авторские права, что составляет примерно 1%.
Этот результат следует оценивать с осторожностью, так как авторы могли пропустить какие-то файлы, а также имещиеся у авторов сэмплы (по выбранной методике мы не выкачивали файл целиком) могли сложить неверное впечатление об отношениях материала с авторскими правами. Однако, из сложившихся в результате исследования данных следует сделать вывод, что на сегодняшний день сеть Bittorrent, в подавляющем большинстве случаев, используется почти исключительно для передачи незаконно копируемого контента, нарушающего авторские права создателей и владельцев.

Оригинальный текст сообщения на английском языке, опубликован в блоге Princeton's Center for Information Technology сотрудником центра, являвшимся начруком проводившего исследование студента.
+80
2 февраля 2010, 22:03
12

комментарии (119)

0
hohams #
интересная статистика, особенно надо отметить 8% фильмов на испанском и 12% игр на японском.
+12
track #
Ну игры-то понятно, в Японии огромный внутренний рынок игр по всякой манге.
Лично я ожидал более высоких показателей по порно. :)
–11
modernstyle #
а я ожидал Аватар в лидерах скачиваний :)
0
exeq #
Согласно вот этой статистики он всего-лишь на 6м месте среди фильмов:
torrentfreak.com/top-10-most-pirated-movies-on-bittorrent-100201/
0
hohams #
да немецкое порно пролилось :)
–1
Mystex #
Думаю, статистика была бы иной и более точной, если бы материалы выбирались не случайным образом, а по какой-то системе.
+1
romx #
Уверен, что если выбирать по системе «только порно», то результаты бы качественно подтвердили бы мнение российского Президента об интернете;)
Но, думаю, задача стояла не такая ;)
0
eugenius_nsk #
Э-э-э… Вообще-то есть даже такое понятие — хорошо рандомизированная выборка. А если исходные данные для выборки подготавливать «по какой-то системе», то можно добиться любых желаемых результатов.
–1
Mystex #
А ещё есть такая наука статистика, так вот статистические исследования предполагают грамотную выборку, а не случайный набор данных.

«Любые желаемые результаты» — это технология выборов президента, а никак не исследований :)

К слову, о «хорошо рандомизированной выборке» в статье не было ни слова.
+1
duhovnik #
надо отметить 3% порно на немецком!
+9
romx #
Ну не думаю, что результат в 1% кого-то удивит на самом деле, вряд ли кто-то ждал другого :-}

Что удивило:
Фильмы:
1. 7% фильмов на русском это понятно откуда. Не так много стран делают дубляж (с полной подменой голоса). Но 5% польского это много. Или они тоже дублируют прокат?
2. В первый раз вижу формат RMVB. Возможно это какие-то правда что шоу в Америке гонят в таком формате.

Игры и софт:
Снова много поляков. Ну то есть это известный факт, что Восточная Европа, как это расплывчато называется, дает чуть ли не 70% всего европейского p2p-траффика, вот теперь понятно откуда оно.

Ну и сильнее всего, разумеется, удивило порно, в особенности 3% дас ист фантастиша :)
Немецкая порноиндустрия практически умерла.
«6%» знающих что происходит на «рынке» не удивят совершенно :-/
1% хинди поразил сильнее 3% немецкого. Оно вообще есть? Или это «переводы»? 8)
И, да, «большинство порновидео в торрентах представлено в виде полного файла, сэмпла 1-5 минут, и постера в JPG» — удивило. Никогда не видел. Прям культурно как ;) Какие-то трейдерские или контентные раздачи? Вряд ли бы они тогда в DHT шли.

Музыка:
6% руской музыки и второе место в мировом трафике это… неожиданно.
+3
track #
Оно вообще есть?

Говорят Есть :)
+1
yvanko #
Польская википедия тоже очень большая, как ни странно.
+2
SerJook #
RMVB — формат популярный в Азии, в частности, в Китае.
Хорошим качеством он, как правило, не отличается.
0
malicious #
Вот вам и «пятьдесят процентов порноматериалов»…
+1
romx #
Это зависит. Например в eDonkey сейчас их и все 90%
0
Mystex #
Порно уже не то! :)
0
Zevaka #
Может они среди 46% кинофильмов не смогли распознать порно? Мало ли, бывалые ребята.
НЛО прилетело и опубликовало эту надпись здесь
0
serafims #
Интересное исследование,
которое показывает нам результаты, из-за которых бесятся riaa и подобные.
Но также оно показывает, что видеоинформация сейчас наиболее влиятельна.
+8
serafims #
конечно, забавной показалась строка об исследовании 145 фильмов с выявлением одного любительского..)
+1
vittore #
и то пади ведьма из блэр: Р
0
romx #
145 _порно_ фильмов.
0
vittore #
я про тот _один любительский_
0
kuvirkot #
Влиятельна на, что?
На генерирование трафика? Да.
1 символ переданный в формате видео генерирует трафика несопоставимо больше, чем в в формате аудио или текстовом.
0
vk2 #
Всего 1021 торрент? А учитывая 14% «неизвестных», всего 878 торрентов? Он делал это руками или просто поленился оставить компьютер на ночь? Да, и найти RMVB еще нужно было суметь…

+12
namata #
Выборка слишком маленькая
0
namata #
Хотя наверное он посчитал, сколько там нужно по теории вероятности, исходя из примерного количества типов данных.
0
track #
Да, не слишкм большая. Но, может быть, кто-то попробует повторить в расширенном варианте, методика понятная и несложная.
0
darkfrei #
Имеет смысл делать выборку каждый час в течение суток, в зависимости от времени суток, качаемый контингент и контент разнится чуть менее чем полностью.
0
darkfrei #
*качающий контингент
+1
theschmidts #
Конечно, маленькая, но ведь все отсматривали в ручную, судя по этой фразе:
«В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка»

Тяжелая работа!
+11
TreyLav #
Мы нашли, что 53% порнофильмов были на английском, 16% на китайском, 15% на японском, 6% на русском, 3% на немецком, 2% на французском, 2% классифицировать не удалось, остальные языки, такие как итальянский, хинди, испанский не более 1% каждый.

При просмотре порно зрителю так важен язык… :)
+3
Daemon_Hell #
Странно что всего 2% классифицировать не удалось :))
+6
TreyLav #
Там были только междометия, увы. ;)
0
vittore #
это было порно для немых: Р
–9
mave #
я чо та пропустил и порно стало лицензионным? О_о
+4
csound #
Creative Commons license
+13
romx #
Если не считать «хоум порн» то оно всегда таким было. Только не «лицензионным» а защищенным авторскими правами. Или вы считаете, что порноактеры снимаются в таких фильмах из любви к искуству? ;)
+1
DanielDefo #
80% интернета это порно(с) Медведев
+1
Nesp #
Internet made for PORN
+1
romx #
«80% это торренты» будет вернее. Из которого легален 1%.
+2
mt2 #
вроде как «половина интернета — это порноматериалы» ©Путин — или это две разные цитаты? ;)
+2
andoriyu #
медвед просто забыл как в оригинале было и придумал свою :)
+1
kovpas #
Да кто ж качает, когда есть всем известные прекрасные сайты? :)
0
romka777 #
rar рулит интернетом
–2
Mithgol #
И кстати, это стыдно при наличии более свободных форматов (того же 7-Zip, например).
+3
netoneko #
Да это вообще стыдно, какой смысл бить фильм раром на куски, чтоб его потом после скачивания собирать?
0
nrdcp #
Уже триста раз эту тему затрагивали здесь. Таковы правила сцены.
+2
netoneko #
Можно посмотреть на эти правила? Я бы плюнул в того, кто их написал.
+1
Exaktus #
Так уж сложилось.
0
xiaose #
А можно тогда ещё раз? А то я как-то совсем не могу найти смысла жать фильм раром и рубить на кусочки.
0
nrdcp #
Например, здесь для XviD
НЛО прилетело и опубликовало эту надпись здесь
0
theurs #
их вынуждают ресурсы типа рапидшары, им это не удобно ни разу
0
netoneko #
Зачем пользоваться рапидшарой вообще?
0
theurs #
а чем пользоваться для выкладывания файлов в интернет? яндекс-диском? у него нет такого ограничения на размер но зато скорость на уровне народ-ру
НЛО прилетело и опубликовало эту надпись здесь
0
romx #
Не блещите модными словами, когда не понимаете из смысла, пожалуйста.
Какое юзабилити может быть у двух командлайновых утилит архивации?
0
GEMOzloBIN #
win rar это как раз не консольная утилита, а оконный менеджер архивов
НЛО прилетело и опубликовало эту надпись здесь
0
bezgubov #
между прочим консоль не ест мозг, а развивает, а такое вот юзабилити да, съедает мозг на корню, так что человек не в состоянии использовать за частую более удобную и продуманную программу/систему после использования прошлой. это я не только про винрар, а про все вобще.
НЛО прилетело и опубликовало эту надпись здесь
0
bezgubov #
если ты чего-то не понимаешь это только твоя проблема, я не говорю что нужно все делать в консоле, я говорю, что есть вещи, которые в консоле сделать в 100 раз быстрее и проще чем в гуе. нужно только включить мозг, не надолго, на пару секунд и потом наслаждаться быстрым и красивым результатом, а не ковырять 100500 файлов мышкой, чтобы сотворить с ними простейшую херню. Люди, которые не любят пользоваться мозгом превращаются в имбецилов. Когда вы это поймете?
НЛО прилетело и опубликовало эту надпись здесь
0
bezgubov #
не надо передергивать, масса профессиональных пользователей photoshop используют в ежедневной работе imagemagick. не нужно знать все возможные команды, нужно просто знать возможности. у того же фотошопа миллион возможностей о которых можно узнать только из мануалов и не при чем тут интерфейс. и вобще при чем тут художник, вот веб-дизайнер будет писать скрипты для того же imagemagick и научится работать в командной строке если он не имбицил, потому что это удобно и экономит массу времени при рутинной работе. и женщину свою я научил ресайзить любое кол-во фоток для вконтакта используя Ctrl-V и Enter в командной строке. если ты не знаешь как это твои трудности, командный интерфейс удобен, просто для каждой задачи нужен свой инструмент
НЛО прилетело и опубликовало эту надпись здесь
0
bezgubov #
Что не надо-то? Каким пользователям не надо? Черные экранчики это для динозавров… детский сад. Просто привыкли все к винде, в которой некоторые вещи через жопу сделаны и все теперь только через жопу, потому что подумать и сделать подругому это нужно мозг напрячь, что-то новое попробовать. Терминал это зло потому, что там ничего не понятно, просто верх аргументации.
0
yvanko #
Не понимаю, в этой ветке -тся и -ться вообще не разу не были использованы. Извините, не удержался :)
0
vladon #
варезники будут заморачиваться на свободность формата? мицгол, ты?
–1
Mithgol #
Грустно, что раздаётся в основном свежак.

В том числе поэтому лично я больше люблю ed2k и Kad.
0
XaLBa #
Скорее, не раздаётся, а скачивается. Вполне естественно, что свежак людям интереснее.
0
track #
Раздается. Об этом написано в тексте. В DHT можно определить только активность раздачи, а не популярность ее. С этой точки зрения авторская раздача бит-панк-гараж-группы «Дотком и Пузыри» из одного сидера и двух личеров, и раздача Avatar.FULL.BD-RiP.UnCuT.blah-blah будут представлены одинково, и от того и от другого будут лежать инфохэши.
+1
CeyT #
1021 торрент? У меня суммарно скачано больше.

Что наука статистика говорит про такое маленькое число?
0
slookin #
что при «правильно» сделанной маленкой выборке — можно получить любые желаемые результаты. irony
0
eugenius_nsk #
Ну эта выборка заявлена как случайная.
0
Odes #
В целом подобные выборки репрезентативны
Беглая выборка при огромном кол-ве — 0,5к — 30к объектов.
Достаточная — 1-5% от общего числа.
0
Houston #
>>В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка, и мы отнесли его к ненарушающим авторские права.
Интересно, неужели они просмотрели все?)
0
darkfrei #
Ага, не перематывая.
+2
Odes #
А вы говорите статистика скушная штука.
0
track #
Вы невниматльно читаете. Там написано.
Скачивался фрагмент.
+1
Vladimirych #
Немцы сдают позиции :)
0
bitfroster #
Да, меня это тоже удивило. Видимо большая погрешность выборки ;)
+1
track #
Это не погрешность, это действительно так. Легендарная немецкая порноиндустрия практически перестала существовать, все переехало в Венгрию/Чехию/Россию.
Думаю, что эти 3% это всякие «исторические» ;) фильмы.
0
xiaose #
Ну дык, все идет по спирали. Вон, в 45-м проиграли и теперь что-то тут не так. :)
0
Sapercheg #
В категории «порно» один из 145 фильмов

Нормально ребята отсмотрели «материала» для проведения исследования :-)
+1
botnet #
сделан вывод что 99% торрентов пиратские?

ну прям Христофор Колумб!
0
a5b #
Интересно, как они в DHT сеть подключились и как смогли получить .torrent файлы.
+2
xintrea #
> В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка, и мы отнесли его к ненарушающим авторские права.

То есть, все 145 фильмов таки были внимательно просмотрены…
+2
Colobock #
Подводят базу под нападки на сам протокол обмена. Трекера душить задолбаются, так потребуют от провайдеров душить протокол.
–1
GoshaTobolsky #
согласен. очевидно только для этого и было сделано исследование. ну и конечно же выпендриться самой студентке перед держателями авторских прав. бороться против зла с красивым флагом все горазды…
+1
romx #
Удивительно и необычно для Хабра, что никто еще не упомянул «пиар Принстона» и «рекламу битторрента» :-}
0
track #
Нет. Как сказано в самом начале — это просто факты, ничего больше.
0
Colobock #
Как категорично…
Сейчас — это факты, а через неделю — доказательная база уголовного (совсем не обязательно, конечно, что уголовного) дела.
0
raspezdal #
могли бы уже и округлить до 1024, а вобще это настолько ничтожная часть всего что качают… что данное исследование нельзя признавать объективным (даже если это и отображает действительность)…
+1
track #
Ну пока нет других результатов, эти — лучшие.

Принимается вариант критики: «Вот я тут провел свое исследование (методика описана тут, результаты опубликованы там), и у меня получилось иначе»
Не принимается вариант: «А мне кажется что все на самом деле совсем не так, потому что я так щитаю»
0
Slon7 #
Странно, что он не смог определить процент новых фильмов в категории порно. Раз указал, что постеры почти у всех есть. На постерах, я думаю, год стоит.
+1
Zevaka #
«Из чего состоит мировой торрент-трафик?»
Как раз-таки траффик, думаю, распределен по-другому (еще больше в сторону игр и фильмов, а у книг нет шанса и на 0,1%...). В статье то упор на то, что смотрят на доступные файлы, а не на сгенерированный ими траффик.
0
track #
Спасибо за замечание, это действительно так.
Но менять уже не буду заголовок, пусть уж так будет :)
0
NoN #
Причём на статистику влияет и объём файла. Средний размер фильма на порядок больше среднего размера книги, вот фрагментов фильмов и намного больше.
–1
NoN #
> Все 98 торрентов с музыкой являлись раздачей нарушающей авторские права.
Там точно не было бесплатной музыки? Последнее время многие исполнители начали сами раздавать свои произведения.
0
romx #
Угу.
torrents.ru/forum/viewtopic.php?t=1927856
За 7 месяцев 111 скачиваний, в настоящее время 19 сидов, 1 лич. :-|
0
NoN #
Ну непопулярные же ребята, на ласт.фм у них почти нет слушателей. Когда мы считаем таких, нужно понимать, что их тысячи и десятки тысяч.
Если же смотреть на известных артистов, то у них вполне себе дофига скачиваний. Правда на торентс-ру они не очень-то представлены. Nine Inch Nails -The Slip и Ghosts I–IV, Radiohead — In Rainbows, Tequilajazzz — Журнал Живого (на торентах есть флаковая версия, которая почему-то довольно популярна: torrents.ru/forum/viewtopic.php?t=1947578 ).

Я к тому, что не стоит писать, что 100% пиратки. Написали бы 99%, было бы похоже на правду.
0
romx #
А не надо «похоже на правду», надо «правду». Правда состоит в том, что они скачали N фрагментов, и все N принадлежали копирайтной музыке.
Вот доказательства.
Возможно вы скачаете и вам попадется другая, и тогда вы проведете собственное исследование, и в нем приведете свои данные. А вариант «мне кажется тут должно быть что-то, ты не видишь суслика, а он — есть» — это не исследование, это разговор на лавочке. И именно от этого хотелось бы уйти к реальным данным.
0
FirsofMaxim #
интересно, как определялось какой язык в фильмах (-порно)?
=)
+1
romx #
Ну порнофильмы бывают даже и с сюжетом. Приходит, например водопроводчик… или, скажем, телемастер… ;)
0
Obi #
>> Мы нашли, что 53% порнофильмов были на английском, 16% на китайском, 15% на японском, 6% на русском, 3% на немецком, 2% на французском, 2% классифицировать не удалось, остальные языки, такие как итальянский, хинди, испанский не более 1% каждый.

Бедные :( Представляете столько порнухи посмотреть! Вероятно их вторые половинки не в восторге от таких исследований :-)
0
romx #
Почему вы априори полагаете, что «вторые половинки не в восторге»? ;)
+1
Obi #
Потому что их первые половинки выдохлись еще на работе.
+1
romx #
От хорошего порно ничуть не выдохнешься, я уж не говорю о том, что правильные половинки и сами ничуть не прочь присоединиться. ;)
0
Obi #
Не смешивайте личную жизнь и работу :-)
0
amIwho #
Ту же самую картину я наблюдаю у себя на винчестере с данными.
0
romx #
Может ваш винт из корня и расшарен? ;)
0
rubyrabbit #
Не стоит делать далеко идущих выводов из такой маленькой выборки.
(Тут есть изучающие/знающие матстатистику, чтобы оценить погрешность?)
Это примерно как просмотреть 1021 случайную фотографию из минилаба и сделать вывод о всех фотографиях человечества.

Но тема интересная :-)
0
p777 #
просмотреть 145 порнороликов — это титанический труд…
0
aim #
с музыкой да, дело швах. особенно с flac/ape и проч. :(((
0
bezgubov #
мне одному кажется что выборка по 1000 торрентам не может являться основой для такого исследования? 1к торрентов это даже не капля, это 0,001 капли ежедневно скаченных торрентов, а то и меньше на пару порядков. 10к я бы еще может и понял, 100к уже адекватно было бы, 1m реальная тема, но 1к это просто ниачем.
0
intnzy #
меня удивил столь низкий процент по порно. И вот почему. Когда фишишь инет с тарелки — все подряд, то процентов 90 — оказывается порнухой…
0
romx #
В разных местах — по разному. Вот, например, в eDonkey/Kad нынче почти исключительно порнуха, а раньше, году в 2004-2005 я оттуда ведь музыку всякую умную качал, например.
Так что от места — зависит. Видимо в торрентах порно действительн меньше.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.