Пользователь
0,0
рейтинг
27 сентября 2013 в 14:39

Разработка → Спасем крупнейшую медиатеку в рунете. Вся база rutracker у Вас на компьютере

image

В контексте последних законов, событий и тенденций как никогда очевидна ценность рутрекера как базы данных различного контента, а не как конкретного ресурса. К сожалению все мои призывы к администрации рутрекера предоставить общедоступный, полный, удобный дамп их базы наткнулся на полное непонимание с их стороны. Выкладывать нечто, что они называют зашифрованной «базой» — я не считаю решением проблемы по причинам, изложенным в вышеприведенных ветках обсуждения и продублированным ниже.

К сожалению, решить проблему своими силами у меня не хватило ни времени, ни, будем откровенны, знаний. Но, к счастью, мои слова возымели действие на людей, которые и тем и другим обладают. В итоге эти люди организовались и сообща сделали то, о чём так долго говорили большевики о чем я писал, а именно с помощью скриптов обошли рутрекер, сдампили все описания раздач с хешами, распарсили их и скомпоновали в удобную для употребления базу. В дополнение к этому так же была написана «морда»: программа для удобной работы с базой конечных пользователей, не знающих с какого конца держат grep. К сожалению, аккаунта на хабре никто из этой команды не имеет (если не считать read-only), в песочнице статья могла бы потеряться, поэтому меня выбрали как рупор для данной площадки. Я, честно говоря, раздумывал совсем недолго и только над тем, как правильнее все сделать. Если будут какие-то вопросы — задавайте мне в комментах, я либо отвечу сам, либо переадресую разработчикам. Технические тексты от первого лица, но я имею к ним косвенное отношение, они оставлены в таком виде для простоты восприятия.

Прежде, чем перейти к технической части и ссылкам, хотел бы добавить, что весь смысл этой затеи в том, чтобы как можно больше людей сохранили эту базу к себе. Поэтому очень Вас прошу, скачать данные по ссылкам ниже (желательно использовать торрент) и оставаться на раздаче как можно дольше. Скорее всего в будущем база будет обновляться, но этот момент еще не продуман до конца.



Описание формата хранения базы раздач

Число раздач в базе: 1411636

Имеется два места хранения: таблица и база описаний.

В таблице хранится номер раздачи на рутрекере, название раздачи, приблизительный размер в байтах, число сидов, число пиров, хеш в формате base32, число скачиваний и дата обновления раздачи. Размер раздачи приблизительный, так как он был получен парсингом строк вида «2.05 GB». К сожалению, не было найдено способа узнать точный размер из исходного кода страницы раздачи. Название раздачи закодировано в UTF-8, чтобы на системах, где стандартной является эта кодировка, файл можно было смотреть less'ом без дополнительных манипуляций. Хеш раздачи в base32, чтобы занимало меньше места. В графической программе для просмотра базы есть возможность переключения отображения хеша (в том числе, в magnet-ссылках) на HEX. Разделитель полей: TAB. Все пробельные символы в именах раздач заменялись на пробелы. Все HTML-конструкции в названиях заменялись на соответствующие символы юникода, это ещё одна из причин, почему от cp1251 отказались в пользу UTF-8. Дата кодируется в формате: «16-Jul-11 06:23». Английские названия месяцев выбраны, чтоб было меньше заморочек с парсингом.
Пример:
4085734 [x86] Ubuntu 12.04 Classic Remix        1170378588      206     3       Y4R4DX74NPXBKU6NECLJLV2N733F2NBW        20911   06-Jun-12 13:02


База описаний представляет собой коллекцию tar.gz-файлов, в каждом из которых лежат раздачи с шагом номера 1000. gzip выбран из-за скорости и неприхотливости к объему оперативной памяти. Архивные файлы сгруппированы по 100 штук в папки. Описание раздачи с номером 1234567 лежит в файле 012/01234.tar.gz/01234567 в кодировке UTF-8.

Программа

Исходники. Лицензия GNU GPL v2. Присылайте пулл-реквесты.

Программа написана на языке C++ с использованием библиотек Qt и kdelibs (для работы с архивами). Главная часть программы это таблица, в которой отображаются раздачи (используется QTableWidget). Сверху имеется поле для ввода поисковой фразы. Поиск (чтение файла с таблицей и отбор подходящих строк) происходит в отдельном потоке выполнения (thread), результаты порциями отправляются в основной поток, добавляющий новые строки в таблицу. Для передачи результатов между потоками используется соединение типа Qt::QueuedConnection. Когда файл дочитан до конца или отобрано необходимое число результатов, то в основной поток отправляется сообщение о том, что поиск завершен. После этого таблица пересортировывается. Прервать поиск можно кнопкой Стоп, расположенной сверху во время поиска.

Файл с таблицей может быть сжат в gzip, bzip2 или lzma/xz (под windows, к сожалению, последний вариант не поддерживается в нашей сборке). Файл распаковывается и просматривается на лету, без полной распаковки и создания временных файлов. Это реализовано при помощи класса KFilterDev из библиотеки kdelibs. Было выяснено, что gzip и xz дают намного лучшую скорость распаковки, чем bzip2, поэтому от последнего отказались при выборе формата, в котором база будет распространяться. Gzip показал скорость, в разы большую xz, и присутствовал на windows в используемом варианте библиотеки kdelibs. Поэтому выбор пал на gzip, несмотря на проигрыш в сжатии в полтора раза. Пользователь может распаковать таблицу самостоятельно или использовать соответствующую опцию меню, чтобы хранить на диске таблицу без сжатия. Кстати, не факт, что это приведет к ускорению поиска, так как больший объекм данных будет считываться с жесткого диска при поиске, а чтение с жесткого диска может быть медленнее, чем распаковка gzip.

Рассмотрим таблицу. Думаю, значение столбцов не нужно объяснять. По всем столбцам можно сортировать, а по умолчанию результаты отсортированы по количеству загрузок. Для реализации сортировки пришлось наследоваться от QTableWidgetItem и определять операцию сравнения.

Если дважды щелкнуть по любой ячейке, значение в ней выделяется и становится пригодным для копирования.

Для просмотра описания раздачи — щелкните левой кнопкой мышки в любое поле, кроме номера раздачи и хеша. Описание будет отображено снизу (при помощи QWebView).
Для загрузки страницы с раздачей и отображения её снизу, щелкните по номеру раздачи. Для копирования URL раздачи, щелкните по её номеру правой кнопкой мыши.
Сделать так, чтобы при нажатии правой кнопки мыши в ячейке с номером и хешом раздачи появлялось контекстное меню с пунктом «Скопировать ссылку», не удалось. Может быть, кто-нибудь из читателей знает, как можно этого добиться от QTableView. Впрочем, можно оставить как есть, так как нажать правую кнопку мыши быстрее, чем выбирать пункт из контекстного меню.

Реализация перехвата событий мыши на ячейках выполнена путем наследования от QItemDelegate и определения editorEvent. Получение описания из соответствующего tar.gz реализовано средствами класса KTar из библиотеки kdelibs.

Программой можно пользоваться, не располагая базой описаний раздач, тогда просмотреть описание можно будет только через сайт, нажав по номеру раздачи.

Настройки программа хранит в файле dump_viewer.ini, расположенном в папке с программой.
Инструкции для сборки программы для ОС Debian GNU/Linux и ОС Windows находятся в файле INSTALL.

В ходе разработки программы забавный казус вышел с парсингом дат. Формат даты «16-Jul-11 06:23» нестандартный, но он был оставлен, потому что довольно краткий, читаемый и похож на тот, который использует rutracker в своей выдаче. Оказалось, что QDateTime::fromString ожидает локализованные обозначения месяцев (Янв вместо Jan в русскоязычном окружении). Поэтому пришлось написать костыль, конвертирующий текстовые обозначения месяцев в числовые (Jan -> 01).

Зачем мы это сделали?

База была подготовлена, чтобы облегчить доступ пользователей к раздачам в случае проблем с доступностью сайта трекера. Например, когда выводится сообщение «форум временно отключен». Кроме того, эта раздача пригодится, если трекер будет внесен в список заблокированных сайтов. Не хочется, чтобы был даже мельчайший шанс того, что всё, что мы тут вместе сделали за эти годы, потерялось по прихоти чиновников или из-за поломки сервера, к примеру. Пока жива данная раздача, все раздачи трекера тоже живы. Вероятно, раз в месяц нужно будет обновлять эту раздачу.

rutracker же написал, что шифрованная раздача у них на трекере лучше!
Ответ: (подробнее тут и тут)
а) У нас есть описания раздач. Часто сложно бывает выбрать, например, BDRip, не глядя в описание. Ужимается база всех описаний до ~2 гигабайт. Можно было ужать сильнее, но решили не экономить в ущерб скорости работы «морды». (На самом деле есть еще несколько мыслей по оптимизации, но пока решили, что лучшее враг хорошего. Однако ж идеи и коммиты привествуются!)
б) Даже если группа людей, которая знает пароль, распределена по всему миру — это конечная группа людей, которую можно вычислить и обладая нужными ресурсами купить или запугать.
в) Администрация рутрекера и лично intellect бесспорно бесконечно честные люди, но пока я сам не увижу, что в раздаче именно база рутрекера, а не зашифрованный белый шум — я никому не поверю. Уж извините.
г) Нет проблемы фейковых сайтов и поддельных магнитных ссылок. Базу может сделать не только администрация (наша база тому пример), так что шифрованность базы на рутрекере не спасает. А валидность хешей в базе проверяется либо по контрольным суммам (с GPG-подписью), либо банальным сравнением с самим рутрекером (если он все еще доступен).
д) Для того, чтобы в базе были актуальные раздачи — базу банально надо обновлять. Чем чаще, тем лучше. И если администрация рутрекера действительно заботится о том, чтоб пользователи получали актуальную информацию, надеюсь они не будут чинить препятствий в обновлении нашей базы. А то и помогут, чем черт не шутит.

Дальнейшие планы

Следующий логичный шаг — сделать генератор HTML[PHP]-сайта, дублирующего функциональность программы и базы. После этого мы хотим замахнуться на статическую реализацию всех частей сайта, то есть чистый HTML/CSS/JS, без PHP или подобной серверной логики. Это позволит заливать сайт практически на любой хостинг, в том числе бесплатный, что сделает в принципе невозможным искоренение данной базы из сети. На тему реализации поиска на JavaScript уже есть идеи (к примеру, сделать индекс раздач по словам, разбить его на отдельные файлы, балансируя между средним размером одного файла и общим числом файлов). Можно добавить и полноценную реализацию поиска на стороне сервера. К сожалению толковых веб-разработчиков у нас нет, ищутся желающие.

Проделать подобное для других трекеров. Для пиратской бухты уже сделали. Когда база данных рутрекера будет дочищена, можно перейти к другим отечественным и иностранным трекерам. Можно подумать, как все базы объединить в одну (видимо, по файлу на трекер, чтобы было удобно выбирать нужные трекеры при скачивании).

Распределенное обновление базы раздач. Разумеется, нужно периодически обновлять базу: добавляются новые раздачи, обновляются старые. А почему бы не переложить задачу обновления на пользователей? Само собой, тех, кто на это согласится. Во-первых, наши каналы не резиновые, чтобы самим постоянно дампить трекер(ы). Во-вторых, трекеры нескольких пауков могут и обнаружить с последующим баном и, возможно, разбирательством. а если пауков будет 100, то каждый из них будет забирать новые раздачи слишком медленно, чтобы это можно было обнаружить. Для пользователя это будет выглядеть как пункт в программе «Принять участие в обновлении базы» и ввод данных для входа в свой аккаунт. Дальше программа всё сделает сама. Найденные свежие раздачи и изменения в старых будут отправляться в центр, который после их проверки будет добавлять данные в общую базу.
Кстати, интересная задачка по теории вероятности: если N раздач наугад качают M независимых пауков со скоростью X раздач в сутки, то через какое время (ожидаемое) они выкачают долю Y всех раздач?

Ссылки и контакты

bitbucket (исходники и база раздач без описаний)
mega.co.nz (только база описаний, распаковать основной tar в папку с программой)

Торренты (все в одном):
i2p (в процессе заливки и индексации)
Магнитная ссылка
magnet:?xt=urn:btih:KY33A26BTGUNAE2D3YWET3UYYGFPP4QU&dn=release&tr=http%3a%2f%2fannounce.opensharing.org%3a2710%2fannounce&tr=udp%3a%2f%2ftracker.publicbt.com%3a80%2fannounce&tr=udp%3a%2f%2ftracker.openbittorrent.com%3a80

opensharing
rutracker

sha256-хеши всех файлов раздачи: sha256.txt
актуальный sha256.txt и sha256.txt.asc можно взять в торренте и тут.
GPG fingerprint: C567 227F 6D75 014E CDC0 FE7B E0F9 25D1 E020 95A4
e-mail: sir.ratnik@yandex.ru
Jabber: sir.ratnik@ya.ru
Jabber-конференция: torrents-database@conference.jabber.no
OTR fingerprint: 7503B021 02E30FEA 88861B43 7AB21676 35704DBA
GPG-key
-----BEGIN PGP PUBLIC KEY BLOCK-----
Version: GnuPG v1.4.12 (GNU/Linux)

mQINBFJEN4IBEAD0CPv+nS/cmY3RUfVgFfjTWNHCUg/PVXZwz0bcEdS9MxfG4Orq
4bn80EHBWX0d9lfe2l6sKPLWb52OxLFTwqGvOqcII8DHI502PMupGfTB00FU1/rt
BY5xHCQMYseUZQfM7M5egbVLh6dzh+koWU4Syl0xfMVh87HVahs6ZaDPvfpk478A
mR063bKroHIm2wtJwiTnJgjlI53C+0dg0dqalfMnXEI7OFBorvmi3tR1Xvw551LF
/uWZ6OhoO/KHHuqLtaiWFN1Mw9zYZAsEFV6OXomt9QXsg7VYDlQoWGFxjdBfuk5E
PyfUZu4EwsKuaJbffUoglTKpj2ecT2mU9G51l2ZMqJm+JQZYeAkczwrN0iz+7Syg
hEdYFL8Pd3Rsq6ttwDzoSXw3uqWnyfosB8FXAHq2M4vhip8HR+tK7isDhAuoB2Mt
lLFxqBVy3W4pRHYMH6h3cNsRS676pt6CGxfisdh3sMtykSNZDDPAYUwloP32QA/U
ugArWB3cVVW2o47qZVt/HReU53N7Tq/s+g9WaokU+qE65Q549M9vE1xhgf5ivGEz
xS2KS35PxJ9spizHCE3OSUWP2bHDE+O+qTeX3v9hYPJREExwQwor+r8sheX2kMst
UV3GC+DFQT9X11eG1rMVB+U/0l+Dri0EFmbyNLmE3vGpuuLnSeFkDj+xZwARAQAB
tCFNci4gUmF0bmlrIDxzaXIucmF0bmlrQHlhbmRleC5ydT6JAjgEEwECACIFAlJE
N4ICGwMGCwkIBwMCBhUIAgkKCwQWAgMBAh4BAheAAAoJEOD5JdHgIJWkliAP/3ZQ
77pGYWKr12JY6QKE8hw4L3lj7qjLra8PWFiSwVkbJe3Vrb2oGG/+n3YsTNt7bdKY
PyG7lfVraMcekdEzuJevSt/Cp2NXwcHGyE3405KaymG+kyv3e7lWmXSFS5Nzo3ta
TQ9M+MLspVwxaT3jcW+nCbnml5TkvhSPEmOIe6gTlfXgRhngE6zvsxB1I0bxixEa
u0+SOHVBrlzBPVOXbQyli99/vsYAuf9xIhJtv2ySYYlZRXOYhj+eyYEu878Z87J1
jxTsYfoG3pMZ10rWWbh0rtCvHTeZjzb8G0gswyNlwPqVuU+nW6CQL8gb0kGUBtBR
pQkei02zY1RoE+cB3tddtZYb7hJzSyZD8Gvbwr03xJeYldwbOg9KIYvIvsrB3GP9
BhGAf+wEaZX56yFMmP6snqBUuJ3hdYqXswpnZB1Dt7y9CzdsANpETcys5ika2typ
vfpbxI27Ace1SOsoFRmFXzwaKCvKWoR4vfaU7YxDYJ7fbin07vdIEY+d0FozHHRT
o1Zr1DHmV5fYFA1iAn14IXwPaIocxTtjAOY55q9p9xFygUPKnFlVEX3mSIL9+FJy
IQfqvWNvw4Z+PwNaNpFfWS5XAXrxiV0TJHXcmW8e6d12z9MEyRpUlndLPE37Q6iB
WAj3QKNM3gR/M/BNZ8d+52V5kxZXtj5zi/O+fuGLuQINBFJEN4IBEAC5PyxaDHRA
DMUn5fuZnQZyJP37yiR5x4us6th6dBQFthpZQ8uso+x1YI9namQYxOZRPBr5IIpo
qmAmTVoskoTIGlMJ43IwuFO/fqxzba44cUahLyEWwQ8Q6L8JsU3KACdDRW1cfM8+
9E0kLfXHxpY57tQmRpqczvXfF88G58309fnVd8HVPFg3Hp1DwB7sXoCO0NiyRc6i
o0r8WNQ3TJABQd76nw79aWDcIox1ayff8DBbzQI+Azefd+s1SaOlUrH568IaatFA
daGhXPHz2qhfnlPVbqK7HUWoNKBd3O4XGjogc8k/9e4RlpBbinPzZMSr0AcPU65I
dMAizyh6UrluTmfK99ujxOloC0KJIYann26OPdCdHcj6YsdhiBpuxE03L7NmsBNP
QIOXva09WkD7vdoWRdRtLRAd/WzChmr0P7gTFLQqEmY+dq7nec2U70zoYtnhgB77
Csu6UYK04oVMX/ytHSJWDyr7IdrTOYRFAawX4ppyNxspT7mrK0Fv5qcoDenieSuP
X4klLnueIQQZbAfFGZE2Q+oq8Zm6v+pPHQ53zHYokY1M7kY/O4XhLiHwhMyUflPp
vXp2gdypYNc7p/eXne+hpEPcn9gzJcpJnqT6SzoAOxGOvnazGf9LlygJXQkAYeGa
ezWQKN5cOJe5S/0OpPWKhJtggl9RWSWNywARAQABiQIfBBgBAgAJBQJSRDeCAhsM
AAoJEOD5JdHgIJWkBNYP/jI8eLjFJl/5P8BTtV0dzODGu3492RAAlo6Ia6XBhTCg
lVJKs97TaJLQU0g8NrP2JWaMUVoDnvWldHDYBP0XF7iJqzjvxInY21joFEI2FBVY
uBibtZiPhRXX2wxAUrJCpzoWRZuoOPAucN24kESOt8QkRYvJu402WzE8n70+Bhhd
kKHEvVPHwn+beNJo06dzRENuhS5Qc3lnr3rWyozFZzeZnHwqzztCvx1vM8bwWq+r
Vq/HeA+BjAGN/E7iK02xp/2lpp/DT06pe2je1cdCDXO41w8lgUad4WsYhoPVZ7BA
TTyRqMVYIL69XkljgrUHRp9Dqj8ID6kl2u9L6oi4C4VQYTcgoUPXQuiebz5D/Fxi
fbox3VshqG+jk3tJaiiavO/TcENvmgqpMsvcvjfN/CEUz/H0/c7idreRUTKc/0Cg
KrUG0JOq3rinyfdQ69B/rIwAHCLErL6DgT0MLhH0H+s1dC2nWjZBbj8cn6VvVQTj
Fe0VLG3Rg5E8UPGTevaegN2gY5EPcgB6GKZIWn1Saoa7FEY/m5gVK0UMwB6wfnVC
MMLppPWvn6Ej76QZTPUYGZHnvKogEkQTa+PCVgJWDEcTADEoqF5S7wR/JJXshSwd
QofqYT1XrdI07u50bYv5X11H7yWfIdUhzYOGCm0hrZmzos+bMbMry2Y6v4KxFsib
=Peeh
-----END PGP PUBLIC KEY BLOCK-----


P.S. Хотелось бы выразить благодарность команде LAVteam за техническую поддержку.
UPD: Так же большое спасибо init0 за инвайт для непосредственного представителя команды разработчиков — ratnik0. Вы не однофамильцы, кстати? ;)
UPD2: Если у кого-то под виндой программа требует ssleay32.dll, то Вам поможет установка библиотек openssl.
UPD3: Создали джаббер-конференцию для координации сочувствующих и обсуждения дальнейших планов: torrents-database@conference.jabber.no
UPD4: Кто голосовал за дамп порнолаба? Нужна Ваша помощь — ждем в конференции.
UPD5: rutor удалил раздачу без объяснения причин.
@J_o_k_e_R
карма
48,5
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Спецпроект

Самое читаемое Разработка

Комментарии (257)

  • +12
    Классное дело!
    Приеду домой — скачаю и поставлю на раздачу.
    • +4
      Кстати, еще по ситуации с Либрусеком думал о неком универсальном каталоге торрентов… По аналогии с библиотечным. Т/е карточка (файл) содержащая описание, магнет-ссылку и некий уникальный код сродни библиотечному классификатору.

      Потом просто мозга не хватило додумать до конца (или просто мысль была глупая)

      • +1
        Этим рутрекер и занимается.
        • +1
          Интересно, есть ли смысл интегрировать данные действия для поддержания актуальной распределённой базы в известный торрент-клиент (менеджер закачек)? Чтобы юзеры тупо включали одной опцией? Ещё интересно: это легально?

          К сожалению, клиент пока не кроссплатформенный, а только для винды. Но он почти опенсорсный, поэтому если есть желающие внести в свой вклад, пишите.
  • +9
    Прекрасно. А вытащены ли хэши заблокированных правоторговцами раздач?
    • +5
      Нет, конечно. Использовались только публично доступные простому пользователю данные. Зато ни одна из существующих раздач не пропадет.
      • +11
        Хы! Можно договориться, что будете дампить например в последнее воскресенье каждого месяца в полночь по Москве. Чтобы народ вечером побольше накидывал «сомнительных для правообладателей» раздач :)
        • +3
          еще мы инкрементно, чтобы можно было держать всегда актуальную раздачу.
          • +4
            Обновления однозначно будут инкрементными. Точнее final.txt.gz может быть и будет новый, а толстую базу с описаниями мы поэтому и раздаем отдельно, чтоб скачивать можно было только обновленные части.
      • +1
        Наверно, вопрос в том, выкачиваются ли непроверенные раздачи (в последствии закрытые правообладателями). Спасибо за работу, очень круто.
  • +22
    Здорово!
    распределенный торрент-трекер распределенных данных
  • +8
    А ведь можно сделать полностью независимую базу с p2p обновлением и возможностью добавления контента пользователями. :)
    Т.е. некий распределенный аналог базы трекера.
    • +11
      Присылайте пулл-реквесты.
      • +2
        Может BitTorrent Sync?
        • +1
          closed source.
          • +3
            Я имел ввиду, что нужно обратить внимание на механизм обновления содержимого.
    • 0
      eDonkey?..
      • +2
        Только если систему скачивания и рейтинга этой системы изменить, а то там можно один файл было скачивать год-полтора.
  • +5
    Еще бы как-то сделать так, чтобы все раздачи в I2P запустить на всякий случай.
  • +39
    Рутрекер очень прибыльный бизнес, а вы предлагаете им сдать главный актив. Конечно они против.
    • +26
      Ну rutracker тут упорно нас пытается убедить, что дело не в «крутении баннеров».
      • +2
        Уже пусть не беспокоятся. Их же спасать пришли1
        • +3
          Я не слышал, чтобы они звали на помощь.
          • +5
            Проблема в том, что есть нехилая вероятность, что когда они будут звать на помощь, будет уже поздно.

            — Может вызвать подкрепление?
            — Еще рано.
            Через пару минут:
            — Может вызвать подкрепление?
            — Еще рано.
            Через пару минут:
            — Может все-таки вызвать подкрепление?
            — Уже поздно
            (из к/ф «На Дерибасовской хорошая погода»)
            • +1
              «Спасение» тех, кто о помощи не просил, все же называется как-то по другому, не так-ли?
              • 0
                «Спасают» же не рутрекер, а их базу… Хотя, спасение чужих ценностей тоже имеет разные названия…
                • +1
                  Вы имеете ввиду «экспроприацию экспроприаторов», я полагаю? ;)
                  • 0
                    Предотвращение аннигиляции
                    • +3
                      Для аннигиляции, как говорит нам физика, необходим антирутрекер равной массы.
                      • +3
                        Роскомнадзор, видимо, пока имеет недостаточную массу, но надолго ли?..
      • +4
        Этому же самому хотят нас убедить многочисленные копирасты
      • +7
        А там есть баннеры? Не знал.
        • +8
          ADBlock заботится о нас
        • 0
          17 банеров, 20 млн. просмотров главной страницы в день. Это не меньше 1 млн. рублей выручки в месяц. Хороший приятный доходик…
          • +1
            думается мне, вы их здорово недооцениваете
            • 0
              Это по нижней границе оценка, по факту там конечно же куда больше.
              • +1
                Конечно по нижней, но чтобы гарантированно «не придрались», что я завышаю доходы. Но даже при этой цифре — это вполне себе живой и прибыльный бизнес. И довольно наивным выглядит предложение «отдать» этот бизнес общественности. Ну и возникают резонные сомнения в «бесскорыстной борьбе с цифровым неравенством».
                • 0
                  Не уверен что 'борьба' которая берет деньги не понятно откуда будет более бескорыстна.
                  Банально но факт — самые ярые борцы не едят радугу и, простите, не испражняются бабочками.

                  Не знаю какой процент их деятельности 'борьба' но без какой либо финансовой базы, думается мне, все равно сделать ничего нельзя.
          • +2
            обожаем мы чужие деньги считать.
            запустите свой трекер — и гребите бабло лопатой — все так просто =)
            • +2
              Речь же не про это, а про то, что некоторые считают, что владельцы rutracker перкраснодушные бессеребренники, с единственнной целью — радение за свободу информации с интернете. Нет, чуваки просто оседлали хорошую трубу с деньгами, и совершенно не намерены ей ни с кем делиться.
          • 0
            Если вы способны продать это за столько — идите к нам рекламным агентом. На процент кототорый устроит вас.
            Если вам кажется, то, как говорят в таких случаях — креститься надо.
    • 0
      Извиняюсь, но просветите нас, пожалуйста, насчет их годовой выручки, выраженной хотя-бы в активах в виде особняков и дорогих машин… Я не думал, что баннеры столько приносят. Что же они мне столько не приносят? Может я выбрал не ту рекламную компанию?
      • 0
        А какая посещаемость у ваших ресурсов, на которых крутятся баннеры?
        • 0
          Ну у меня около 5000 в день. Ставил разные системы, PPA вообще ничего не приносили (кликали много, но никаких действий не совершали), всякие попандеры и кликандеры приносили около 20 руб в день, если повесить все сразу. Но рекламы стало так много, что даже посещалка стала падать :/ Классические тизеры приносили тоже около 20 руб. Хватает только на хостинг.

          В общем, если брать доход с баннеров даже 30 руб., и посещаемость Рутрекера, ну скажем, как у меня, но помноженную на 100, то у них получится порядка 3000 р. в день. На виллы все равно не хватает)))
          • 0
            посещаемость Рутрекера, ну скажем, как у меня, но помноженную на 100

            Зачем цифры с потолка, у них там счетчик внизу есть, если не ошибаюсь, то под 15М просмотров в сутки, а это 15М/5000*20 руб = 60кРуб в день, 1,8 млн руб в месяц.
            В добавок там есть не «тизерная» реклама.
  • +44
    Ну всё — завтра новостные сайты разразятся заголовками: у пиратов спиратили их базы данных и выложили в открытый доступ, несмотря на их противодействие!
  • +12
    Вот это вы молодцы!
    На самом деле вы весьма с неожиданной (и очень правильной!) стороны подошли к созданию Распределенного Интернета (да, именно так, ни больше ни меньше). Ведь если эту программу объединить с самим торрент-клиентом, то можно научиться обмениваться базой распределенно, минуя какие-либо центры. И качать торренты можно было бы прямо из программы. И комментировать их — прямо тут же (а отсюда один шаг до распределенного форума или даже социальной сети).
    А огромная база торрентов — это то, что привлечет массы простых пользователей. То, чего так не хватает всяческим i2p.

    • +55
      Суть в том, что именно централизация и наличие модерации — главная фишка рутрекера. Очень хорошие правила оформления раздач. В случае с распределённой базой получится помойка типа eD2k.
      • +5
        Модерация раздач, в принципе, может быть социальной и саморегулируемой.
        • 0
          А она сейчас какая? Социальная и саморегулируемая и есть. Т.е вы лично можете прочитав правила «как стать модератором» тоже стать модераторам, модерировать раздачи и учавствовать в написании правил «как стать модератором» для тех кто тоже хочет стать модератором.
          Также, став модератором вы можете прочитать правила «как стать админом»…
          • +1
            Я думаю, имелась в виду децентрализованная модерация, при которой каждый мог бы «голосовать» за или против раздачи, возможен вес голоса в зависимости от количества отданного, к примеру. Раздачи сортировались бы в выдаче согласно оценкам пользователей. На хабре много раз обсуждали, как это правильно сделать. Что важно, ни у кого технически не должно быть возможности повлиять на результаты «голосования» и ни одна раздача не была бы удалена полностью.

            Хочу провести аналогию. Сравните обычный банк и bitcoin. В первом случае власти могут лишить человека его денег, во втором случае это невозможно и есть возможности для дальнейшего усложнения, например шифрование кошелька и использование bitcoin через прокси. Разница между нынешней системой модерации rutracker и желаемым вариантом такая же: на rutracker могут нагрянуть копирастеры (аналог властей в случае с банком из примера выше), а с распределенной системой голосования они ничего сделать не смогут. Кроме того, голосование никогда не сможет уничтожить раздачу, оно упустит её в самый конец выдачи. Поэтому различные маргиналы, хотя и будут висеть в конце списка, но не будут удалены по крайней мере.
      • +1
        >Очень хорошие правила оформления раздач.
        Не знаю, как в остальных разделах дела обстоят, но музыкальный раздел рутрекера — помойка с букетом левых форматов, битыми тегами и фактическим отсутствием стандартов оформления.
        Если под оформлением раздачи иметь в виду сообщение натрекере форума — там да, там всё красиво, обложечка приложена и списочек к ней. А вот сама музыка на трекер попадает в каком угодно виде — например, с того же осла и взятая. В итоге при выборе между приведением в порядок музыкальной коллекции, скачанной с рутрекера, и скачиванием её заново с what.cd второй вариант оказывается куда более простым, несмотря на все сложности поддержания рейтинга на закрытых трекерах.
        И пока правила устанавливаются и их соблюдение контролируется людьми, выдающими фразы вроде «а я всё равно все альбомы записываю на диски, поэтому мне приятней, что всё одним файлом, и, раз диск один, то и файл должен быть один», порядка в музыкальных разделах рутрекера нет и не будет.
        • +4
          музыкальный раздел рутрекера — помойка с букетом левых форматов, битыми тегами и фактическим отсутствием стандартов оформления.


          Друг! Я прослезился, жму руку, говорю Вам БОЛЬШОЕ спасибо! Как же они меня задрали своими идиотскими недоправилами, который высосаны хз откуда при этом не регламентируют то, что надо. За раздачу музыки в образах в наше время цифровых плееров надо принудительно обрекать уродов, которые это придумали на прослушивание целого альбома склееного в mp3 96k, причем, ествествено без cue.
          И если за зарубежной музыкой можно давно уже спокойно ходить на вату, то российскую музыку приходится качать и дорабатывать напильником, наждачкой и рубанком прежде, чем придет во вменяемый вид.
          • 0
            Некогда там было правило, запрещающее раздавать архивы.
    • +9
      Ведь если эту программу объединить с самим торрент-клиентом, то можно научиться обмениваться базой распределенно, минуя какие-либо центры. И качать торренты можно было бы прямо из программы.

      Чем-то мне напомнило это e-mule. Там был реализован поиск прямо из программы. И там было много видео файлов, с названиями фильмов, мультфильмов, а на самом деле эти файлы были порно видео. На трэкерах есть модераторы которые проверяют соответствие описания тому, что там лежит и не допускают появления таких ситуаций.
      • +1
        Можно сделать взаимодействие и модерацию такую-же как и на сайте, просто обмениваться данными не через http.
        Проблема одна, всем пользователям прийдется ставить новый софт, вместо браузера.
        • 0
          Ну некоторые браузеры уже сейчас p2p поддерживают. И число таких браузеров будет расти. Так что можно обойтись уже и без установки нового софта.
          • 0
            А что за технология? некоторые браузеры — типа стандартного ФФ и Хрома или типа Firefox for tor, переделанные?
            • 0
              • 0
                От блокировки ресурса таким образом спастись не выйдет. Все равно, должен быть какой-то центральный хост с скриптами, на который нужно зайти пользователю. Хотя, конечно, можно просто эти скрипты распространять как и программу (в виде локального файла, который открывается браузером), но мне такой подход чем-то не нравится. Возможно тем, что скрипты будут править все кто не лень на свой лад, в программе все-же сложнее поковыряться. Хотя это такой-себе аргумент.
                • 0
                  Можно просто подсети сканировать и на github сбрасывать
                  А скрипты — плагин к браузеру же. Можно прям на imdb сидеров и магнеты отображать :)
                  • 0
                    github забанят (веб, по крайней мере).
                    • 0
                      Кишка тонка, кеш гугла до сих пор никто не забанил, а там экстремизма хоть отбавляй, не то, что цифры какие-то
                      • 0
                        Чего тонка? тут все зависит от интереса. Перекрыть кэш гугла, кстати, просто и особо возмущений это не вызовет. Особенно если перекрывать конкретные ссылки. Просто не надо было пока никому. Но нельзя считать, что так будет всегда.

                        github закроют очень быстро, там выкладывать подобную информацию. Сделать это намного проще, чем с кэшем (технически).
                        • 0
                          Невозможно конкретные ссылки, https
                          Гитхаб тоже опасно закрывать. Неизвестно ещё к чему приведёт ярко выраженная ненависть айтишников
                          • 0
                            Когда невозможно конкретные ссылки, обычно что делают, напомните?
                            • 0
                              Расстреливают всю деревню
                              • 0
                                Верно, github грохнут целиком.
                                • +1
                                  Ответ айтишников мира не заставит себя ждать
                • 0
                  Заблокировать ресурс, хостящий такой скрипт, — это как заблокировать сайт загрузки uTorrent. А если это и сделают, то будет написано расширение для браузеров, включающее этот скрипт.
                  • 0
                    Нет, не тоже самое. utorrent это просто программа, ей что угодно можно качать. А скрипт этот приводит к генерации сраницы с определенным контентом. Если контент пиратский, страница со скриптом пойдет в бан. В принципе, для пользователя это так и выглядит, зашел на страницу, получил сайт с торрентами. Детали доставки это уже нюансы.
                    • 0
                      Я думаю, скрипт, выполняющий роль клиента, будет хоститься отдельно от контента. Контент будет хоститься в самой сети, в которой будет возможен поиск по названию раздачи, чтобы опять не назначать эту задачу трекерам, делая их уязвимым звеном. И заодно встроить обязательное проксирование минимум через 1 участника сети и обязательное шифрование, чтобы копирастеры не могли приставать к сидам. Будет падение производительности сети в 2 раза, но расходы копирастеров на борьбу с такой сетью вырастут намного больше и борьба с файлообменом прекратится.
                      • 0
                        Забанят хост, где лежит скрипт. Так, что простые пользователи не смогут получить к нему доступ. «информационный посредник».

                        По сути, это ничем не отличается от того, чтобы завести сайт с торрентами на каком-то секретном сервере и проксировать его через какой-то другой «публичный» хост. Публичный хост забанят, а секретный сервер никто и искать не будет.

                        Если делать, то уже без центральных точек, тем более, работающих по http протоколу.
      • +3
        Все правильно. В идеале, пользователи сами должны модерировать раздачи. Разные пользователи долдны иметь разный «ранг», который можно также назвать коэффициентом доверия.
        Два предельных случая: отсутствие модерации и помойка — когда все пользователи равны.
        Жесткая модерация — сиутация когда у простых пользователей ранг 0, а у модераторов ∞.
        Конечно, приятнее когда порядок, т.е. ситуация, близкая к жесткой модерации (но не совсем жесткая).
        Даже здесь на Хабре используется подобная система (правда, упрощенная). Если бы «рейтинг» пользователя учитывался при оценивании им статей (т.е. вместо "+1" и "-1" было бы "+1 * exp(Rating/C)" и "-1 * exp(Rating/C)", то было бы интереснее:)
  • +2
    Прекрасно! Давно пора было сдампить его.
  • +1
    Когда-то давно делал парсер еще для торрентс.ру…
    Изображения с раздач на данный момент сохраняются?
    В удобном виде, думаю, администрация так просто не отдаст)
    Слишком много ценного контента в одном месте! Даже после теоретического прикрытия рутреккера не будет смысла выкладывать пароль… можно свою базу запустить на новом хосте. Но, надеюсь, я ошибаюсь)
    В любом случае пока нету официального полного дампа без всяких паролей нужно парсить своими силами…
    • +2
      Изображения с раздач на данный момент сохраняются?


      Нет. Только текст. Изображения бы в разы увеличили объем базы.
      • +2
        Хотелось бы и картинки… дополнением к основной базе
        Лишних пару десятков гигов под такое дело редкий айтишник пожалеет)
      • +2
        А ссылки на них? ссылки можно потом отдельно скачать (распределенно) и отдельной раздачей оформить.
        • +1
          Ссылки естественно есть в описаниях. Описания — это целиком html всей раздачи.
          • 0
            Ага, это лучше уже. Жаль, что там, наверное, половина мертвых, на всяких фотохостингах.

            Хотя, для видео скрины не так критичны, их нарезать можно автоматом, если очень прям нужно. Для игр взять из публичных источников. С софтом, сложнее, конечно…
  • +25
    /me взял попкорн и ждет
  • +5
    Неплохо было бы ещё дампить название раздела откуда берётся раздача для каталогизации.
    • +3
      Полностью согласен. Думаю сделаем в следующих версиях.
  • +51
    Я давно пользуюсь своей софтиной, которая каталогизирует рутрекеровскую базу аудиокниг. Естественно с древовидным представлением по жанрам, авторам и другими плюшками. При обновлении парсит рутрекер, вытаскивает описание книг, первую страницу с отзывами и т.д. и складывает в локальную БД. После этого можно лопатить каталог, искать интересные книги. Когда книга найдена — кнопка «Скачать», которая скачивает торрент-файл и автоматически скармливает его uTorrent, так, чтобы раздача попала в нужную папку на диске (с деревом папок по авторам и жанрам).
    Всё не хватает сил выпустить статью на хабр.
    • +24
      Коммент плюсую не просто так, а с надеждой увидеть программу и статью о неё здесь :)
      • +4
        Попробую выделить время. Уж больно код там старый и страшный, чтобы без подготовки кому-либо показывать.
        Ах да, чуть не забыл. Там еще и демоверсия платного DevExpress.WinForms используется — уж очень пригодились фичи по многофакторной фильтрации списка. И, соответственно, для паблика придётся переходить на какие-нибудь бесплатные компоненты.
    • 0
      Вау, пожалуйста, найдите силы и покажите это чудо хабру. Это же восхитительно!
      • +3
        Вчера начал лопатить код. Уже переписал парсер, сейчас пишу новый GUI. Статья будет — думаю на следующей неделе.
        Правда там довольно много кода и технологий, поэтому пока не знаю какой именно кусок включить в статью — парсер, Entity Framework, GUI на WPF… Всё сразу — слишком много для статьи.
        • +2
          Скорее, для начала обзор использования нужен, и ссылка на исходники. А там — что спросят чаще и интереснее.
  • +5
    К сожалению, очень много контента администрация уже успела удалить.

    А так идея сдампить трекер в свете глобального будущего удаления музыки конечно хорошая.
  • +6
    Еще можно сделать раздачу средствами bittorrent sync, будет проще с обновлением.
    • +4
      Мы не используем closed-source software. Вы можете выкачивать через магнит и зеркалировать.
  • +46
    Комментарий про порнолаб.
    • +25
      Принято :-D
    • +12
      Особенно хентай и манга разделы. У меня плохое предчувствие насчет них.
      Админы пл всегда бежали впереди паровоза и еще в прошлом ноябре удалили оттуда несколько сотен раздач, даже без всяких запросов со стороны роскомнадзора.
    • 0
      На порнолабе, к сожалению, нет магнет ссылок.
      • +19
        Значит придется выкачивать торрент-файлы, обрабатывать их, получая хеши для магнитов. Я уже говорил, что приветствуются пулл-реквесты? ;)
  • +9
    Это топик Добра! Пока одни зеленые полюсы)))
    • +17
      Так мы же не копирасты — мы бескорыстно делимся добром ;)
  • +3
    Народ, кто разбирается в теме, объясните мне пожалуйста вот какой момент: читал на вики про работу торрент-трекеров и понял, что ключевым в его работе всегда остается сам сервер трекера. Т.е., если у торрент-клиентов из-за блокировок по ip не будет доступа к трекеру, то толку в обладании нужной magnet-ссылки — ноль. Одно дело если просто закроют веб-морду, другое, если зажмут доступ к серверу — держать это хозяйство будет не прибыльно, база пополняться не будет и трекер умрет сам собой. Такие мысли пришли ко мне, когда я собирался начать парсить rutor. Объясните, пожалуйста, где я не прав?
    • +5
      Есть еще DHT — это когда клиенты обмениваются между собой hash — данных, треккер в таких обменах не нужен и блокировки не страшны.
      • +5
        Есть еще Peer Exchange, который помогает искать пиров в дополнение к DHT без участия трекера.
      • +2
        Про это я тоже читал, единственное, из вики не понятно, связь между magnet-ссылкой и DHT
        Вот на примере рутора: magnet:?xt=urn:btih: длинный_хеш_записи&dn=rutor.org&tr=udp://bt.rutor.org:2710&tr=http://retracker.local/announce
        Будет ли хоть какой-то смысл в ней, если адреса после tr= окажутся недоступными клиенту?
        • +1
          Пока есть сиды, по магнет ссылке можно будет присоединиться к раздаче, трекер не нужен.

          Это при условии, что раздача открытая, но и при частной раздаче тоже есть варианты.
          • +1
            Как мой клиент узнает сидов в лицо, если нет трекера? Допустим, вы в своем utorrent открыли эту ссылку, и я открыл. Откуда мой клиент узнает где сид? Откуда он узнает, что вы тоже начали качать?

            Вот принцип работы bit-torrent сети: «Перед началом скачивания клиент подсоединяется к трекеру по адресу, указанному в торрент-файле, сообщает ему свой адрес и хеш-сумму торрент-файла, на что в ответ клиент получает адреса других клиентов, скачивающих или раздающих этот же файл. Далее клиент периодически информирует трекер о ходе процесса и получает обновлённый список адресов.» (с) вики

            Получается, только от трекера я могу получить список сидеров. Нет доступа к трекеру — нет списка сидов — нет закачки.
            • +1
              Почитайте на википедии про работу протокола DHT.
              Трекер там не нужен.
            • +4
              Ну вики же. Вы не правы.

              Каждый узел хранит таблицу маршрутизации, содержащую контактную информацию о многих «ближайших» к нему узлах, и о нескольких более далёких. «Близость» двух узлов вычисляется из «сходства» их ID, и не имеет никакого отношения к их географической близости.

              Когда узел хочет найти пиров для раздачи, он сравнивает infohash этой раздачи с ID известных ему узлов, и затем посылает запрос тому узлу, чей ID наиболее похож на этот infohash. Тот узел возвращает ему адрес узла, чей ID ещё ближе к infohash торрента.

              Тогда наш узел посылает запрос тому новому узлу, и получает от него адрес следующего узла, чей ID ещё более похож на infohash торрента.

              Таким образом, запросы от клиентов, участвующих в раздаче торрента с определённым infohash, постепенно стекаются к узлам, чьи ID наиболее похожи на этот infohash. Эти узлы помнят предыдущие запросы, и всем следующим запрашивающим узлам вернут адреса предыдущих пиров с той же раздачи.
            • +1
              Если есть другие закачки — клиент будет опрашивать их участников.
        • 0
          Да, при недоступности серверов *твой* клиент будет «рассылать» по доступным клиентам тот самый «длинный_хеш_записи», и если у кого-то будет информация о нём — то она появится и у *твоего* клиента. Под информацией понимаю список файлов в торренте, из размеры и прочую мета-информацию.
          • 0
            Откуда мой клиент возьмет список других клиентов, если нет доступа к трекеру? Я лично замечал, что в дни когда падал порнолаб (да, все мы там качаем, нечего стесняться :-) не было никаких раздач/закачек в клиенте.
            • –1
              DHT? Не, не слышал.
        • +2
          Трекеры только ускоряют поиски пиров. Для DHT они не необходимы.
          • +4
            Не совсем так.

            Текущая реализация DHT в протоколе Bitorrent (которая, к слову, реализуется как расширение у нему bittorrent.org/beps/bep_0005.html) содержит только статическую информацию начальной конфигурации (таблица маршрутизации) для нового узла. Это значит, что если Вы пытаесь использовать trackerless torrent в котором все узлы уже недоступны, то Вы окажитесь отрезаным от сети.

            Поэтому на данном этапе совсем отказаться от централизованных трекеров невозможно.

            На мой взгляд проблема назрела и ее решение уже на подходе. В светлом будущем необходимость в крупных трекерах таких как The Pirate Bay или rutracker отпадет.

            А пока законодатели будут обдумывать очередной законопроект по борьбе с торрент-трекерами, пиринговые сети шагнут на новую ступень развития. В том плане всякие запрещающие законопроекты даже полезны так как они способствуют прогрессу. Ну а он на стороне простых Интернет пользователей.
            • 0
              Ключевое слово: bootstrapping. Если у вас уже есть хоть один пир с dht (например, из других раздач или через utorrent который «подсасывает» их откуда-то со своих серверов) — у вас работают все раздачи по dht (если, конечно, есть источники).
            • 0
              На самом деле, если эти «законопроекты» отсекут от пиратов 95% их нынешних клиентов, то они свою задачу будут рассматривать выполненной. Потому что между вариантом «разобраться с i2p» и «пойти купить за 65 рублей» обычный пользователь интернета абсолютно точно выберет второе. А гоняться за оставшимися несколькими десятками тысяч на весь мир (крайне оптимистичная оценка) по торам, итупи, и всяким прочим яйцеголовым выдумкам, не имеет особого практического смысла.
              • 0
                Что значит разобраться с i2p? В чём проблема упаковать клиент в однокнопочную программку?
                • +2
                  Вы забываете, что аудитория интернета (называющая системный блок «процессором» и ищущая «сериалы скачать бесплатно» в Яндексе, а потом лечащаяся от винлокеров), и аудитория, допустим, Хабра, это разные множества, а часто даже и весьма слабо пересекающиеся. Находясь здесь, в нашей уютной тусовочке, вы пребываете в иллюзии, что «нас — много, мы — сила!», на самом деле, на самом деле эта «сила» весьма немногочисленна, и составляет в лучшем случае несколько процентов от общего числа пользователей интернета.
                  • 0
                    И что дальше? Вы хотите сказать, что немногочисленная тусовочка программистов не сообразит сделать простую морду для i2p клиента? Массы торрент-клиентами научились пользоваться? Научились. И скажу по секрету — не в восторге от этого. Массы можно привлечь удобным платным сервисом, а те, кто ищут где скачать бесплатно по своим причинам — освоят и i2p и чёрта в ступе.
                  • 0
                    > аудитория интернета (называющая системный блок «процессором» и ищущая «сериалы скачать бесплатно» в Яндексе, а потом лечащаяся от винлокеров)
                    Если они ищут сериалы в Яндексе, а не на Рутрекере — они не являются аудиторией Рутрекера, и даже если Рутрекер будет заблокирован, они этого не заметят. Так что речь не о них.
                    • 0
                      Я искренне надеюсь, что вы понимаете, что речь идет не о том где, что и как искать.
                      • 0
                        > Я искренне надеюсь, что вы понимаете, что речь идет не о том где, что и как искать.
                        О чём же идёт речь в топике про Рутрекер, в данной конкретной ветке про i2p? А в это время аудитория Флибусты разобралась с i2p.
                        • 0
                          В данной конкретной ветке речь идет совсем не про i2p

                          PS: раз уж зашла речь: Я аудитория Флибусты, и никаким i2p, кстати, не пользуюсь.
                          • 0
                            > В данной конкретной ветке речь идет совсем не про i2p
                            Вы привели в пример пользователей, которые ищут сериалы в Яндексе — так? Так. Они уже сейчас не пользуются торрентами. Те, кто торрентами пользуются, с ними вполне разобрались, значит разберутся и с установкой i2p, она нисколько не сложнее, но потенциально сулит вкусные плюшки — возможность раздавать и качать то, что правообладатели сейчас блокируют (кстати говоря немцы активно пользуются ею).

                            > Я аудитория Флибусты, и никаким i2p, кстати, не пользуюсь.
                            Раз вы аудитория, то вы в курсе того, как прошёл сентябрь.
            • +3
              Mainline DHT очень просто фильтровать, используя DPI. Всё дело в bencoding. И Beeline уже без запросов Роскомнадзора тренируется его блокировать.
              Есть ещё AzDHT в Vuze, этот посложнее фильтровать.
        • 0
          Торрент-клиент получает хэш раздачи и начинает искать сидов по этому хэшу, рассылая сообщения get_peers(хэш) по DHT-сети.
        • +1
          Будет. DHT строит свою сеть по поиску пиров. Вот сейчас ради интереса зашёл на раздачу слабопопулярную взял хэш и сделал ссылку без указания трекеров только хэш. Результат, на непопулярной раздаче (1 сид на самом рутрекере) прошло где то 15 минут прежде чем началась закачка. Для популярно закачки (270 сидов) практически мгновенно.
          Но насколько я понял обоим технологиям нужно чтобы у тебя уже были несколько рабочих торентов.
          • +1
            В юторренте вшито два адреса для бутстрапа, так что рабочие торренты там необязательны.
            • +1
              Ну я в целом применительно к технологии. Кстати что за адреса, интересно их заблочить и протестить что будет без них?
              • +1
                Нормально все будет, просто возьмет адреса, сохраненные между сессиями, или с рабочих торрентов. Если же просто чистый клиент запустить, то не будет ничего, так как некуда подключаться.
        • +5
          Отвечу на практическом примере:

          Минимальная ссылка это magnet:?xt=urn:btih:HASH
          Этого уже вполне достаточно как для скачивания, так и для публикации собственных раздач.
          Я несколько лет хранил и выкладывал у себя большие архивы фотографий с велопробегов. При этом к большой нагрузке качальщиков был не готов (поскольку хостится всё в домашнем роутере RT-N16). Поэтому парой скриптов для папки с фотографиями сперва генерился индекс с превьюшками, а фотки в оригинальном размере шарились через магнет.
          С помощью transmission (в cli-варианте) для расшаривания любого файла нужно всего две команды:

          transmission-create -o "/tmp/torrent.torrent" "нужный_файл"
          transmission-remote "localhost" -w "путь_к_папке_где_нужный_файл/" -a "/tmp/torrent.torrent"
          


          Первая команда создаёт торрент. Вторая подключается к работающему локально (localhost) демону (transmission-daemon) и ставит только что созданный торрент на раздачу. Можно добавить ещё и третью команду — удаление созданного торрент-файла (покуда с момента установки на раздачу им начирает рулить демон, и сам локальный файл больше не нужен)

          Нужный хэш при необходимости вытаскивается из торрента (если в cli — с помощью transmission-show) и дописывается в конец строчки «magnet:?xt=urn:btih:», полученная ссылка (например, magnet:?xt=urn:btih:fb26eaa6180af006cc502837ad48d655c5e27561) отдаётся страждущим — и всё!

          Вот весь скрипт, который запускался для этого на роутере: pastebin.com/HxDA0pEq
  • +6
    (ждем реакции администрации)

    Очень интересно, что ответят.
    Хорошее дело сделали.
    • +10
      Поблагодарят за помощь, конечно. И будут всячески помогать поддерживать базу в актуальном состоянии.
  • +11
    Жесть подстава для рутрекера, конечно.
    Сейчас появится сотни, а то и тысячи новых трекеров, ибо база данных торрентов в свободном доступе

    Но, база супер! Уже качаю.
    В целом, у меня тоже проект посвященный торрентам. Если что — готов всячески помогать в данном начинании.
    • +2
      Хм, кому я так насолил то? :)
    • 0
      Вы невнимательно читали пост. Я уже написал почему Вы не правы.
      • 0
        Перечитал ещё раз. Честно говоря, не понял, в чем именно я не прав?
        • +1
          Эти данные итак всегда были в свободном доступе.
          • +7
            Одно дело данные в свободном доступе
            Другое дело — готовая база данных.
            Это разные вещи. Посмотрите на форумах, продают спарсенные базы разных порталов, которые итак «в свободном доступе».
            • –7
              В чем разница расскажите, пожалуйста. То что кто-то что-то продает — не аргумент. Продают подобные вещи в основном для тех, кто не может сделать базу сам. Но такие и сайт по базе сами поднять не смогут. Те же, кто смогут поднять сайт по базе — могут и сами сделать базу, не покупая.
              • +1
                Продают — как раз аргумент. Если кто-то готов платить за информацию, значит эта информация нужна.
                • 0
                  Прочитайте, пожалуйста, не только первую строчку коммента, на который Вы отвечаете.
                  • +2
                    С чего вы взяли, что ваши тексты не читают?
                    Я очень внимательно все читаю.
                    • +1
                      Потому что по Вашему комменту складывается впечатление, что Вы прочитали только первую строчку. В качестве возражения на него, могу только повторить вероятно не прочитанный Вами кусок:

                      Продают подобные вещи в основном для тех, кто не может сделать базу сам. Но такие и сайт по базе сами поднять не смогут. Те же, кто смогут поднять сайт по базе — могут и сами сделать базу, не покупая.
                      • +2
                        Да причем тут — смогут или не смогут? Чтобы спарсить рутрекер нужен программист, который напишет парсер, сервер с нормальным каналом, прокси, поддержка и тому подобное. Эта работа стоит денег.
                        Чтобы запустить сайт с готовой базой — надо иметь всего-лишь саму базу (которая стоит намного дешевле стоимости работы) + небольшой конвертер для того, чтобы засунуть контент из готовой базы в готовый сайт.
                        • 0
                          Эта работа стоит денег.


                          То есть ничего невозможного. Были бы деньги. А так как перед Вами люди, сделавшие это просто забесплатно, то вполне можно предположить, что сделать это за деньги стоит относительно немного.
                          Кстати, канал совсем не нужен тут. Нужным только внешние IP.
                          • +2
                            Не по существу Вашего спора, а по аргументу ". А так как перед Вами люди, сделавшие это просто забесплатно, то вполне можно предположить, что сделать это за деньги стоит относительно немного." — это неверное утверждение. То, что специалист, знающий способы, может легко сделать бесплатно — человек, способы не знающий может лишь пытаться купить у тех многих, кто возможно знает подходы, и готов взяться за определённую цену. Попыток может оказаться много, времени много — пока находящиеся малознающие сделают с грехом пополам, или пока найдётся кто-то знающий, который запросит за заказную разработку тоже не мало. И денег здесь, как правило, тратится очень прилично!
        • +2
          Тот кто может по этой базе развернуть поддельный сайт точно так же может сделать дамп самостоятельно. Мы ничего не взламывали и среди нас нет администраторов или модераторов. Мы просто взяли то, что было и так доступно и придали ему удобную для децентрализации форму.
          • +2
            Так речи нету, о том, что кто-то что взламывал.
            Может я перечитал www.searchengines.ru/, но там постоянно продают базы разных порталов, на основе которых делают новые сайты.

            В этом нет ничего плохого. Это не в упрек было сказано.
    • –1
      Ценность рутрекера в CEO оптимизации и бренде. Люди знают куда ходить, поисковики хорошо ранжируют. Множество других сайтов и до этого парсили рутрекер и остальных, сама по себе база имеет мало ценности, если она уже есть у намного более раскрученного ресурса.
      • 0
        Правильно. Только ценность эта не для посетителей, а для самого рутрекера. Они с этого какие-никакие плюшки имеют. Потому они и не горят желанием отадавать свою базу данных кому не попадя и создавять собственными руками множество конкурентов.
        • 0
          Нет, это ценность для людей. А вот уже с людей трекер и имеет плюшки.

          У рутрекера есть зеркала (кто-то его парсил и запускал свое). Предположим, их запустят еще несколько десятков. Вроде бы содержимое тоже.
          Но если рутрекер неожиданно закроют, то большая часть его аудитории от этого потеряет. Они просто не будут знать, куда идти и будут видеть в выдаче Гугла незнакомые сайты. Да, со временем, аудитория эти зеркала найдет, но часть людей переключится на другие ресурсы, а остальные разбредутся по разным зеркалам. В итоге, вместо одного большого сообщества получится множество мелких. В данном случае, это сильно притормозит развитие, ведь единого места, куда стекается весь контент, уже не будет. Что-то выложат там, что-то тут. По сути, будет ничем не лучше просто маленьких трекеров. Ну за исключением большой стартовой базы. Но с новым контентом будет беда.
          • 0
            Если рутрекер закроют, то будет как в прошлый раз — новый домен будет известен всем за сутки.
            Тут даже СМИ не надо — у рутрекера есть база пользователей, так что достаточно разослать письма.

            А вот если «закроют» администрацию рутрекера, тогда уже сложнее.
            • 0
              Новый домен рутрекера — да, потому что это бренд. А если нового не будет (владельцы решат не продолжать вести этот проект), то узнавать будет нечего. Будет десятки непоняных зеркал и все. Прорекламируют скорее просто их конкурентов и туда стечется аудитория.
              Бренд это очень важно;)
              • 0
                врятли владельцы откажутся от бизнеса который им хорошие деньги приносит. купил новый домен и зарабатывай дальше
                • 0
                  Обстоятельства разные бывают. Но вообще я о гипотетической ситуации
    • +1
      Спарсить эту базу — дело одних выходных.
      Так что ничего не случилось, чего раньше не могло произойти. Если б кто-то хотел заморочиться и выложить копию рутрекера, выложил бы.
      А кстати, я вспомнил — я ж видел копии. Находятся через гугль попытки скопировать.
      Вот только для этого нужны серьёзные ресурсы — дорогой хостинг и т.п. Чтоб зарабатывать на этом деньги, надо сначала вложить.
  • +2
    Хвала и честь борцам за свободу. Качаю.
  • +5
    Этсамое, используйте pigz вместо gzip, он многопоточный и дает большой выигрыш в скорости на многоядерных системах.
    • 0
      Под винду реализации есть?
      • +2
        Да, вот последняя версия.
        А вот бенчмарк, если интересно
        Итого, pigz где-то в 6 раз быстрее, нежели gzip.
        • +1
          Еще выгоднее использовать lzma, не случайно им Linux ядро сжато
          • 0
            Ну тогда уж xz, ну или многопоточный его вариант pxz. Но он явно медленнее gzip, хотя и сжимает гораздо лучше.
            • +2
              Фишка в том что lzma разжимает гораздо быстрее чем сжимает. потому его в линуксе и пользуют-лучше при билде ядра 2 минутки подождать зато потом он миллионы раз за 10 сек распакутеся
              • +2
                Вы об одном и том же говорите. xz — это lzma2.
          • 0
            Пробовали. Смотрите раздел «Программа». Отказались, так как сильно медленнее, конское потребление оперативы и багнутая реализация в kdelibs под windows.
            • 0
              я использовал реализацию из 7-zip, работает как зверь
              • 0
                алгоритм один и тот же: lzma2
  • +15
    Вот будет прикол если сюда придет rutracker и скажет что этой раздачей нарушены его авторские права на его контент сайта)
    • +3
      Думаю, что не я один ожидаю хоть какой-нибудь реакции от rutracker :)
      • 0
        а какая у него может быть реакция? Раздачи не его а людей которые их создают. Рутракер это только бизнес по сбору этих раздач и заработках на рекламе, все.
  • +5
    Конвертируем final.txt в json

    #!/bin/bash

    echo '[' >> list.json
    while read row; do
    IFS=$'t' read -ra cols <<< "$row"
    echo '{i:"'${cols[0]}'",t:"'${cols[1]}'",b:"'${cols[2]}'",s:"'${cols[3]}'",l:"'${cols[4]}'",h:"'${cols[5]}'",d:"'${cols[6]}'",u:"'${cols[7]}'"},' >> list.json
    done < "final.txt"
    echo ']' >> list.json
    • +6
      понеслось, да?
    • 0
      talismanium делает замечание:
      Похоже ты пропустил двойные кавычки вокруг имен переменных
      да и двойные кавычки в названии не проэскейпены

      Ещё от меня — нужно прибить последнюю запятую в массиве, иначе ie будет ругаться, но не придумал как это сделать простым методом на bash
  • 0
    Так я чё-то не понял, на рутрекер базу залили? Или её уже правообладатели порезали???
    • 0
      Нет еще. Заливальщики отдыхают. Плюс есть подозрение, что ее администрация удалит. В общем ждем комментариев rutracker.
      • +1
        Удалено по просьбе правообладателя. Это будет очень смешно, да.
  • 0
    зеркало
    sha256.txt.asc, sha256.txt, dump_viewer.tar.gz, final.txt.gz @ l.bitcasa.com/QCY8KNte

    если у кого есть прямая ссылка на «mega.co.nz (только база описаний, распаковать основной tar в папку с программой)», то ее тоже могу отзеркалить
  • +8
    Под макос кто-нить сварганит готовую оболочку для работы с базой? :)
  • 0
    Странный подход к проблеме. А что мешает развернуть трекер в торе? Или, я уверен можно, найти готовый. Народ задолбается обновлять дампы трекера
    • 0
      Трекеры есть, если не в торе, то в i2p. Вопрос именно в базе раздач и магнитах к ним. Собственно основное преимущество рутрекере перед всеми остальными.
  • +1
    Запустил wget «спасать» habrahabr
  • 0
    Уже картельный сговор имеет место быть:

    Поэтому очень вовремя побеспокоились. В то время как TPB сама по этому пути идёт, некоторые трекеры перевирают идею.
    • +1
      Тут я не могу не согласиться, делать раздачу из многих тысяч мелких файлов вместо архива — просто неуважение к пользователям.

      По-хорошему надо вообще сделать текстовую базу с удобным поиском, как это сделал J_o_k_e_R.
      • +1
        Ой, зашел по ссылке и увидел что это она и есть.
    • +2
      .tar позволяет и 1 файл иметь, и при обновлении старая часть (с округлением до размера куска) не будет перекачиваться.
  • +42
    Поздравляю с полезным делом!

    Позволю расставить точки над i чтоб не было недопонимания относительно нашей позиции. (а она не совсем такая, как вы ее здесь преподносите)

    1) Коллекторов торрентов нынче если не тысячи то сотни уж точно. Причем с развитой системой поиска, с подтягиванием скриншотов и описаний, которые прут со всех трекеров, с рутрекера особенно (там наиболее валидные данные). Есть и обычные клоны рутрекера, с полной копией всего что на на форуме. Так что в этом смысле ничего нового, очередной велосипед, правда, спасибо что open source.

    2) Мы только приветствуем что любой технически грамотный человек может сделать себе копию всех хешей и описаний раздач. Если это кому то нужно — пожалуйста, даже наверно полезно, хотя смысла особого тоже в этом нет, т.к все полтора миллиона раздач вам вряд ли нужны.

    3) Мы были против специального и намеренного распространения этой базы от своего имени, потому что текстовый файл никак не защищен от изменений. И скачав у нас, можно заменить хеши и выложить на своем сайте. Нет, безусловно вы это можете выкладывать эту базу в онлайн, и те кто вам доверяют — пусть качают, но это НЕ ОФИЦИАЛЬНАЯ БАЗА и в случае чего — претензий к нам никаких.

    4) По этим же причинам никто не мешает вам или кому то еще сделать раздачу с вашей базой рутрекера на самом рутрекере :)

    5) Сиды и пиры в таблице — абсолютно лишнее. Во первых эта величина сильно кореллирующая с московским временем, а во вторых трекер видит не все пиры (из за DHT).
    • +3
      Хорошая позиция. Но ведь можно было и по тихому выложить не официально? :)
      • +20
        Можно, но зачем? Поймите, аудитория хабра и рутрекера — это очень разные аудитории, хотя одна включает в себя другую. Хабраобществу интересны любые лайфхаки, да и просто особенности работы сетевых сервисов, а обычному человеку сей громадный текстовый файл мало что даст, кроме неудобств, связанных с магнет-ссылками, отсуствием описания и картинок.

        Кстати, о броском заголовке. «Спасти» базу хешсумм — это вовсе еще не значит спасти раздачи. При живом трекере сотни тысяч раздач умирают от недостатка сидеров. Это на несколько порядков больше чем закрывают правообладатели (!).

        Поэтому, вместо дешевого популизма, авторы лучше бы призадумались о механизмах автоматической поддержки нуждающихся в этом раздач. Т.е в идеале, прийти к такой системе, когда любая, однажды начатая раздача, будет поддерживатся бесконечно долгое время без участия человеческого фактора. Так например торрент-клиент кроме прямо указанных ему раздач, может поддерживать некоторое количество анонимных, не скачивая их целиком, но вместе с другими клиентами сохраняя их в целостности.

        Это, кстати, кроме проблемы «мертвых раздач» заодно решит все проблемы с раздачами, закрытыми правообладателями, т.к они как и все другие будут всегда доступны.

        Вот чем надо заниматся, а не странички с хтмл кодом парсить!
        • +1
          Поэтому, вместо дешевого популизма, авторы лучше бы призадумались о механизмах автоматической поддержки нуждающихся в этом раздач.


          Вот прям сразу как сделаете API для удобного экспорта всей базы и забаните все CHA аккаунты, перестав закрывать раздачи. Вот тогда сразу. И люди к Вам потянутся те, которые свалили на другие трекеры из-за Вашей борьбы за бабло, а не за пользователей.
        • +5
          Так делайте! Вы ведь на это деньги зарабатываете. Арендуйте несколько дедиков с анлимитными каналами, поставьте туда торрент-демоны и вперед.
        • 0
          Хорошие раздачи как раз не умирают от недостатка сидов, хорошие раздачи прикрывают правообладатели и их как раз и надо спасать
        • +1
          >Поэтому, вместо дешевого популизма, авторы лучше бы призадумались о механизмах автоматической поддержки нуждающихся в этом раздач
          кстати вы то почему об этом не задумались? это вам в первую очередь выгодно. Легко поприкать и понукать некоммерческий open source проект. Раз это так вам важно-полный вперед?
    • +11
      Спасибо. Прям как будто подменили человека, сидящего за Вашим аккаунтом после нашего дешевого популизма. Хорошо, что Ваши комментарии, на которые я ссылаюсь, все могут посмотреть.

      1) Я пропущу этот пункт, просто диаметрально противоположный тому, что писалось от Вашего аккаунта раньше.
      2) Дайте грамотным людям API или набор дампов аля википедия, Уже не раз просили,
      3) Да Вы просто прикалываетесь какждый раз, когда делаете вид, что не знаете про хешсуммы и gpg-подпись. Посмотрите как сделано в нашей раздаче. Мы даем возможность людям всегда быть уверенными, что то, что они качают — это действительно то, что выложили мы. Если б sha256sum.txt Лежал на rutracker.org — это давало бы люлям возможность убедиться, что текстовый файл, является именно тем, что выложили Вы. Даже если они его на диске в подвортне купили. Так сценгруппы вообще-то живут со времен BBS'ок.
      4) Спасибо Вам большое. Раздача естественно будет создана из-под левого акка через тор. А Ваши слова сейчас дали нам зеленый свет, например, на opensharing.
      • +6
        Я устал уже вам обьяснять, что аудитория рутрекера — обычные люди, которы при слове хеш-сумма и bgp-подпись впадают в ступор.
        Ну неужели непонятно, что среднестатистическому юзеру очень сложно, практически невозможно постичь эти профессиональные методы контроля целостности информации? Ему нужна программа под виндовс с одной большой кнопкой «скачать», а не сырцы на гитхабе.

        И вот еще что: cреди грамотных людей процент людей с нечистой совестью ничуть не меньше среднего по стране. Ну сделаем мы API. Ну потешит тысяча — другая техногиков свое самолюбие. Ну появится еще десяток клонов форума, где у юзеров крадут пароли, а вместо торрентов подсовывают вирусы. Упростим жизнь правообладателям, которым через API сильно проще будет забирать базу, чем искать что удалить (иногда вручную) по форуму. Зачем это все?

        • +4
          Я устал уже вам обьяснять, что аудитория рутрекера — обычные люди, которы при слове хеш-сумма и bgp-подпись впадают в ступор.
          Ну неужели непонятно, что среднестатистическому юзеру очень сложно, практически невозможно постичь эти профессиональные методы контроля целостности информации? Ему нужна программа под виндовс с одной большой кнопкой «скачать», а не сырцы на гитхабе.


          То есть Ваше же заявление «текстовый файл никак не защищен от изменений» — признаем ложью и демагогией? Так как защитить все-таки можно, правда не все это умеют?

          И вот еще что: cреди грамотных людей процент людей с нечистой совестью ничуть не меньше среднего по стране. Ну сделаем мы API. Ну потешит тысяча — другая техногиков свое самолюбие.


          Эта тысяча-другая техногиков сделает резервную копию созданной ими же медиатеки. Вот первейшая цель. Заодно выведет сам рутрекер из-под прицела правообладателей.

          Ну появится еще десяток клонов форума, где у юзеров крадут пароли, а вместо торрентов подсовывают вирусы.


          Как Вы сами писали их уже «если не тысячи, то сотни». Так что API никак не это не повлияет. А дампить вашу базу будет удобнее тем, кто преследует цель сохранить раздачи.

          Упростим жизнь правообладателям, которым через API сильно проще будет забирать базу, чем искать что удалить (иногда вручную) по форуму.


          Да-да. Может просто перестать давать им возможности удалять раздачи? Ну или если Вам все-таки неймется — удаляйте непосредственно с форума рутрекера, раздавая их через API.
          • 0
            А мне одному кажется, что Рутрекер боится, что у них спиратят базу? И поэтому осложняют копирование? Прикооольно )
          • 0
            То есть Ваше же заявление «текстовый файл никак не защищен от изменений» — признаем ложью и демагогией? Так как защитить все-таки можно, правда не все это умеют?


            Ложь и демагогия то что вы кричите что спасли крупнейшую медиатеку в рунете. Хотя всего навсего сделали вы то что делали сотни людей до вас — обошли роботом все раздачи и стащили их хеш суммы в текстовый файл.

            А для спасения медиатеки рутрекера нужно парочку защищенных датацентов с дисковыми массивами в разных концах планеты.

            Эта тысяча-другая техногиков сделает резервную копию созданной ими же медиатеки. Вот первейшая цель. Заодно выведет сам рутрекер из-под прицела правообладателей.


            Извините но это полная глупость. Без самих раздач контрольные суммы вам не помогут никак. Они нужны только для того чтобы:

            а) скачать что-то в той ситуации если нет под рукой трекера в узкотехническом смысле. (что маловероятно, т.к открытый трекер поднять — не проблема, но может пригодиться в той ситуации, если вдруг будет повальная охота за трекерами)

            б) не плодить дублей при создании раздач заного.

            в) осуществлять реверсивный поиск — по хешу можно найти описание раздач.

            Еще раз повторю: без физически доступного где-либо в сети неизменненного ни на байт комплекта файлов раздачи — его хеш-сумма — набор бесполезных цифр. Тогда любые попытки скачать раздачу заведомо обречены на провал. В противном случае есть верятность получить данные, хеш сумму которых вы знаете, и эта вероятность пропорциональна «популярности» раздачи в сети.

            Да-да. Может просто перестать давать им возможности удалять раздачи? Ну или если Вам все-таки неймется — удаляйте непосредственно с форума рутрекера, раздавая их через API.


            Спасибо за очередной ценный совет.
            Учитывая ваш нездоровый интерес к прибыли Рутрекера предлагаю вам самим открыть трекер на котором правообладатели не будут удалять ничего. Я более чем уверен что он станет мегапопулярным менее чем за полгода, и вы сможете крутить баннеры и неплохо зарабатывать.

            Более того, мы готовы бесплатно рекламировать такой трекер в том случае если его ассортимент не будет пересекатся с нашим.

            • 0
              А для спасения медиатеки рутрекера нужно парочку защищенных датацентов с дисковыми массивами в разных концах планеты.

              Чем больше будет отдельных узлов, тем будет надежнее. Поэтому лучше много малых сидбоксов, чем мало больших (размером с целый датацентр, к примеру). И чтобы админило их несколько людей, которые не знают реальных имен друг друга.

              Кстати, не раз замечал, что мои раздачи выкачивают боты (судя по user agent) из разных уголков Земли. Раздачу с базой рутрекера, к примеру, уже парочка выкачала. Видимо, кто-то уже делает бекапы раздач. Боюсь, что только популярных. А надо делать бекапы редких раздач в первую очередь. Популярные раздачи не пропадут, если только кое-кто их не удалит.

              Вы не могли бы дать сидбоксы или средства для их приобретения? Это и будет подстраховка. Можно вручную настроить сидбоксы или купить готовые (цены). Пример: 50 гигабайт, 6 раздач, неограниченный трафик, $50 в год. Хороший вариант, но число раздач маловато. Думаю, это далеко не самый дешевый вариант. Если будут сидбоксы или деньги для их покупки, то желающие спасать редкие раздачи найдутся.

              Вы готовы выделить средства?
              • –1
                Я может слегка не в тему, но для чего спасать не популярные раздачи? Мне кажется они естественным путем «умирают» от потери интереса со стороны пользователей и это нормально. На смену им приходят другие (ну или не приходят).
                • +3
                  Стоит ли спасать и что именно — сложный вопрос. Гибель редких раздач — это беда torrent в целом. Конечно, это не касается новинок кино и музыки. Чем более редкая раздача, тем сложнее её скачать через торрент — получается зависимость с прямой обратной связью. Вполне достойные раздачи уникального контента могут пропадать. В первую очередь в зону риска попадают старые авторские раздачи, автор которых неактивен. Бывает, находишь раздачу какой-нибудь интересной книги или старой игры, а скачать не можешь.
                  • 0
                    Это я понимаю, но ведь если оценить по некоторой шкале, полезность той или иной раздачи, не для отдельного взятого человека, а я человечества в целом, то «мертвая» раздача просто сама заслужила себе такую судьбу.

                    Возможно стоит спасать не абсолютно все созданные раздачи, а те, которые к которым не обращались N дней или даже лет. Зачем хранить (и тратить ресурсы) то, что никому не нужно?
                    • 0
                      я хотел сказать «не» стоит спасать)
                    • 0
                      Розетский камень никому не был нужен сотни лет
                      • 0
                        Этот камень представляет интерес для нас, а не для тех, кем он сделан. Не думаю, что умершие раздачи повлияют на сохранение человеческих знаний в целом. По крайней мере, я предлагаю не черное и белое. А давать таким раздачам шанс в несколько лет (например).
                        • 0
                          Long tail, если такая штука. То, что в конце хвоста, действительно может быть не нужно никому в тех масштабах что то, что в начале. Однако, это относительная, а не абсолютная ценность. Абсолютной, действительно, никто не знает.
    • +1
      > в случае чего — претензий к нам никаких
      а сейчас в случае чего можно отправлять претензии ?!
  • +2
    К сожалению, не было найдено способа узнать точный размер из исходного кода страницы раздачи.

    Под кнопкой «Скачать .torrent» имеется кнопка «список файлов», в этом списке представлены все файлы с точным размером до байта.
    • +1
      Для этого нужно делать ещё один запрос страницы, т.к. эти данные подгружаются аяксом только по нажатию на кнопку (POST-запрос на адрес rutracker.org/forum/viewtorrent.php с передачей параметра t=id_темы_форума; естественно, нужно быть аутентифицированным на форуме, т.е. помимо прочего передавать установленные после логина куки). Видимо, автор программы (точнее, те, кто делал парсинг трекера) посчитал, что увеличение количества запросов в 2 раза не стоит того. Ну, или какие-то другие причины.

      При очередном обновлении базы можно актуализировать эту информацию, т.к. собирать данные о размере можно и отдельно, благо id оставлены те же, судя по скриншоту.
  • 0
    Ставить OpenSSL Light необязательно — можно просто положить в папку с программой 2 файла из ее состава — ssleay32.dll и libeay32.dll
  • 0
    Есть ли возможность скачать интересующий «торрент» без обращения к рутрекеру?
    • 0
      Да. Для этого магнитные ссылки и используются.
  • 0
    фичареквест есть.
    запустил dump_viever, набрал в поле «название включает» текст, нажал enter. запустился и идёт поиск. тем временем набрал в том же поле другой текст для поиска, нажал enter — и ничего.
    добавьте пожалуйста для такого случая какое-нибудь действие, хотя бы модальное окно с текстом «поиск уже идёт» и вариантами «отменить предыдущий поиск и начать новый» и «продолжать процесс поиска, заданный ранее».
    заранее спасибо.
    • 0
      Во время поиска на месте кнопки «Найти» отображается «Стоп». Во время поиска программа не реагирует на кнопку Enter в поле названия раздачи. Можно вместо этого прерывать старый поиск и начинать новый или делать окно ввода названия неактивным во время поиска.
      • +1
        «Во время поиска программа не реагирует на кнопку Enter в поле названия раздачи» — вот именно об этом и речь. я глубоко убеждён, что станет лучше, если она начнёт реагировать на «enter» во время поиска. умудряется же она в конце-концов каким-то образом реагировать во время поиска на нажатие кнопки «стоп»… =)
        • +1
          Исправлено. Бинарник для линукса. Бинарник под винду потом.
          • 0
            круть. =) спасибки.
  • +2
    Обновил архив с бинарниками на bitbucket.org/ratnik/dump_viewer/downloads
    Приложил к архиву ssleay32.dll, libeay32.dll и libssl32.dll.

    init0, спасибо за инвайт!
  • 0
    dbanet собрал программу для поиска под мак (бинарник). Из-за проблем с kdelibs не поддерживается отображение описаний раздач и работа с сжатым final.txt. Над чтением сжатых файлов идет работа.

    Данный файл мной никак не проверялся, используйте на свой страх и риск!
    • 0
      Поправка: не под мак, а под OS/2.
    • 0
      Может быть вам воспользоваться чем-то вроде libarchive?
  • 0
    dump_viewer.exe — Ошибка приложения
    Ошибка при запуске приложения (0xc000007b).
    Для выхода из приложения нажмите кнопку «ОК».
    Windows 7 x64
    • 0
      • 0
        Не помогло :(
      • 0
        dump_viewer.exe зависит от kdecore.dll, msvcr100.dll, qtcore4.dll, qtgui4.dll, qtwebkit4.dll.
        Похоже для запуска нужно ставить еще Qt и kdelibs.
        • 0
          DLL-файлы Qt и kdelibs и их зависимости включены в архив с бинарниками и в раздачи на трекерах. Если Вы запускаете программу из папки с DLL-файлами, то дополнительный софт ставить не требуется.
  • 0
    Залито на rutracker.
    • +2
      Буду делать базу торренты из твоих торрентов и раздавать на торрентах.
  • +2
    Если будут какие-то вопросы


    Да, есть пара вопросов.

    1. Почему базу Рутрекера нужно «спасать»? Ей сейчас реально что-то угрожает?

    2. Если вдруг Рутрекер снова захотят закрыть, вы считаете, они не позаботились о сохранности базы на этот случай? Не умеют делать бэкапы?

    3. База, которая не актуализируется, бесполезна, это очевидно. С задачей каталогизации и актуализации базы контента Рутрекер справляется неплохо. Вы так не считаете? Зачем тратить силы на создание какой-то альтернативы, вместо того, чтобы помогать самому Рутрекеру поддерживать то, что есть?

    Пока ваша затея похожа на «скачать весь интернет». Прикольно, но пользы чуть. На TPB, помню, пару лет назад выкладывали такой «торрент всех торрентов», на Хабре даже писали об этом. Думаете, многие его скачали?
    • +3
      Спасибо за вопросы! Я частично повторю то, что писал J_o_k_e_R

      1. Нужно. Лично я это понял, когда внезапно не нашел там любимых раздач, которые до этого висели и никому не мешали.

      Как долго собираются потакать копирастерам? Если будет выбор между блокировкой сайта или удалением 10% раздач, кто знает, что выберут админы рутрекера. Не факт, что после удаления раздач получится вытрясти хотя бы их хеши. А если верховная власть объявит войну не только хентаю, но и аниме вообще? На чьей стороне тогда будет руководство трекера? Ни продвинутым, ни простым пользователям не придёт в голову скачивать с завирусованных сайтов то, что лежит на рутрекере.

      2. Не уверен, так как бекап они зашифровали.

      А вдруг там действительно белый шум? Открытое решение для такого важного бекапа лучше подходит. Лучше бы не шифровали, а подписали электронной подписью, чтобы можно было отличить поддельную таблицу от подлинной. Да и кто бы стал качать поддельную, если бы подлинная была официально выложена на самом рутрекере?

      Сейчас наша база выложена у них, посмотрим за дальнейшей судьбой раздачи. Статус официальной она не получит, как было сказано выше rutracker.

      После поломки один популярный вики-сайт восстанавливали из кеша гугла, потому что админы не умели делать бекапы. Надо подстраховать эту возможность в отношении рутрекера.

      3. Актуализация планируется (раздел «Дальнейшие планы»).

      Пост про аналогичную раздачу всей пиратской бухты. Не знаю, сколько именно людей скачали, но в данный момент на раздаче 78 сидов и это без учета DHT, как я понимаю. Если всё хорошо пойдет, их раздачу тоже обновим.
  • –1
    Товарищи, ну а кто, простите, мешает выложить на абузоустойчивый сервер с гигабитным каналом?
    • 0
      никто не мешает — положите, добавьте к раздаче
  • 0
    эта затея имела бы смысл, если бы был удобный клиент к базе — гибкий и быстрый поиск, автоматические апдейты, новинки разделов, возможность подгрузки дополнительной информации с рутрекера (сиды, каменты) и отправки — т.е. запостить камент, добавить в избранное и тп, интеграция с имдб и др сервисами.
  • –1
    1 зачем база шифрованная? рутрекер пароли откнытым текстом хранит?
    2 что мешает выдрать конфеденциальную инфу из базы?
    3 видимо рутрекер опасается конкурренции, ибо если база перекочует на другие ресурсы, то рутрекер сдохнет просто потому, что больше будет не нужен. единственная его ценность — это основное хранилише авторских раздач. это его ниша.
    4 есть замечательный сайт — btdigg. индексирует все неприватные торренты, у участников раздачи которых включен dht. большинство редкостей откапываю там.
    5 автоматическое переоформление релизов в соответствии с правилами трекера реализовали? если нет, то экспорт в основном будет бесполезен. на бухту и кикэсс конечно пойдёт, но на большинстве форумов экспортера забанят, а раздачи закроют.
    • 0
      1. Наша база не шифрованная. Видимо, это сообщение предназначалось rutracker.
      2. Конфиденциальной информации нет ни у нас, ни в предыдущей раздаче нет. В том числе паролей.
      3, 4. Уже есть клоны, но рутрекер живет.
      5. Обновление базы планируется.
    • +2
      Вы не очень хорошо понимаете суть проблемы. Так вот нет никаких проблем что кто то перевыложит раздачу с Рутрекера на другой форум.
      Проблема в том что у этого форума свой трекер, половина скачает тут, половина там, и облако раздачи будет раздроблено уже по двум трекерам. А ето значит что «живучесть», да и скорость этой раздачи сильно упадет, т.к трекеры не обмениваются своими таблицами пиров. Каждые видят только своих.

      DHT лишь частично спасает ситуацию, т.к многие юзеры в РФ сидят за маскарадингом, да и вообще, работает на порядок медленнее.

      Если бы они использовали наши трекеры (bt.rutracker.org и т.п ), хотя бы просто включали их в свои торренты как дополнительные т.п то проблем бы не было. Но никто этого не делает, в результате получаем пиры, размазанные по разным трекерам и не видящие друг друга.
      Или например технология обмена пирами между трекерами, если бы она была — то трекер мог бы искать недостающие пиры на других трекерах.

      Знаю даже людей, которые во все торренты скачанные где-то еще ручками подсовывают адреса наших трекеров (bt-bt3.rutracker.org).Говорят иногда помогает.

      • 0
        А почему бы и вам и другим трекерам не дописывать глобальные ретрекеры (openbittorrent, publicbt, ccc.de)? Ещё помогает технология обмена трекерами между пирами. Ятестировал наугад многие хеши их базы на предмет нахождения пиров исключительно через DHT и во всех случаях пиры нашлись.
      • 0
        Да я Вам больше скажу – с некоторых, казалось бы, совершенно посторонних трекеров скачиваются торренты, где написано «создатель: torrents.ru». :)
        А по базе мне лично просто удобней искать, но это не значит, что я отвернусь от сайта.
      • +3
        Есть у меня сервер один. С гигабитным каналом. Расскажите (дуб дубом я) куда что там положить, чтобы ваша раздача было в общем доступе.
        • 0
          Положите в папочку все, что есть в раздаче — как максимум.
          Папки из цифер и их содержимое, сохраняя структуру (или упаковав их в тар), а так же final.txt.gz как минимум.
  • +6
    Парни, а никто еще не заметил, что автор девушка? :)
    bitbucket.org/ratnik/dump_viewer/commits/all
    • 0
      Да не может быть!!! [/irony]
  • +2
    Вопрос — а нельзя добавить сюда все заблокированные типа рутора, какие там еще есть, сам TPB, тфайл, нонейм… И сделать общую базу?
  • +1
    хотелось бы увидеть статью «как я парсил рутрекер»…
    • +1
      Я думаю, это не потянет на статью. Перебирались все раздачи, скачивали (нужна кука, чтобы выдавался торрент-хеш), отбирались живые (те, в которых присутствовал torrent-hash), остальные значения выдергивались регекспом и записывались в таблицу, описание сохранялось в файл. В названии раздачи HTML-конструкции заменялись на символы юникода. Файлы с описаниями добавлялись по несколько в архивы. (Добавлять каждый отдельный файл в архив будет медленно, а всё сразу архивировать в конце — будет слишком много файлов на диске к этому моменту.) Потом таблицу отсортировали по ID, нашли «пробелы» в 100 и более несуществующих раздач и все они перекачались ещё раз, на случай если трекер был недоступен, когда они первый раз скачивались, к примеру. Потом пересортировали таблицу по числу скачиваний. Всё, кажется. Если интересны скрипты, которые всё это делали, могу выложить.
  • 0
    Сижу на раздаче — 0 (ноль!) сидов, 13 пиров… Что случилось? Всех повязали?
    • 0
      248 сидов 576 пиров… скачалось за секунды, раздается килотоннами
  • +1
    /me ушел открывать свой рутрекер :)
  • +1
    Может, пригодится кому – слепил для себя, ибо смотрю базу вручную. :)
    Конвертер из base32 в обычный hex формат.
    Скопировать в файл (.xxe), декодировать в .rar Total Commander'ом или чем-нибудь наподобие http://www.webutils.pl/XXencode.

    begin 644 b32-ih.rar
    hIa3m6Fc5+23kQkk+1E++++++++-80LG+Y0w+hU6++++4+++0NZXrerKHD2AR
    hBEc+60+++46nAWpdO0tZS4I+wA9f0uQMHEyY2rkqvbdtPIcidaNNFfQ3ceAZ
    hm8K-DwCe1a20hSpuEqykzGWHjqmDjJGAb58-WiWe1L0+n4fMXBCMT4CtYQ0+
    hLwyNmVyC0j-tPAedjRppB9FqrVrAvpVu9Ty21FRX+OC0OcxJu3BZxEeNjzf+
    hTIbFZQxVELAULAlUf7TBUd9L0bfuWtlJBGN1+E2TqbfGxxP-Vm3x3RXqQdx9
    hRb2wv7ZrNmKyhFRyAh+bDU6kDwGw+n+zkCnCyjraKPNEafN6YONMPcbDFlfv
    hi6zexlBVOsaK54Gi26+x0h1N+NR4qG9-A2W4BeONzUWGZPSyLgfCqLbT4WRg
    hDD5Dr0IQeY20BGBI5Usw-Fkzll9cBYEZgvT9dS0Ge+VTyXLiSbi6rHnwO8ZP
    hxydQ8FHeM0nY-Y-SC1mxFrMPcG-BGe9DK8B73YHgKqgZBGXkwDaENi9PUV9q
    hwrJbanJXLRt3x0HCCSqelnhuV91Y9SDn+FG+c1fF-JW+7NFfrzzbMf7ftWQG
    hxsMhk1EpyQPQzwKe6vZeLYCn-ZKgImaC2v4W4+rfunxHCGJ6dWPeFXq7RUgS
    hYiP3L1r6u7NQ+asRwxqQ2IetdmewQL7wNKx6K+cbb7sIqR3A3c5CyIiSR2RD
    hUS5x57yMRkzW0MTpvZm3DHC4v7rzIo7x7JUR-EODUGe0cMVHvYRRGCzCLiWn
    hql8AKHTLQR6bBkc6mPcvMkZt-6iZRhC-6eX0HORCjC-KwASduRpkBGFmMmsx
    hS8WcSbuyWT-dc27+AguE-DjA8Pk-sMK2QuxYbFxRTm+QdbTbKeKHm9iiz2Fl
    hDPJNaiRm2JD0ikVabF1Swjt8+PpStPq1KT9IA1TeYa1H-yuLYBsziw2PRkN6
    hU6ZLmP1vn+2zmjqRkfb0f3g+bBnPbMbj7r9LUp9giRk++9y6NzOdzxH2DLg+
    1E+Q+
    +
    end
    sum -r/size 26930/768

    Контрольные суммы b32-ih.exe:
    sha-1: fad617c37f5ed3a6844cb723551dfdacfc18a412
    md5: 54b8c8e32330b793dc94f2040a5040d7

    Выглядит примерно так:

  • 0
    Приглашаю заинтересованных в конференцию torrents-database@conference.jabber.no
  • 0
    если N раздач наугад качают M независимых пауков со скоростью X раздач в сутки, то через какое время (ожидаемое) они выкачают долю Y всех раздач?

    Антон получил численное решение задачи по теорверу из поста.
    image
    Рассмотрен случай 10 пауков, 1 500 000 раздач, каждый скачивает 1000 раздач в день. По абсциссе отложено время в днях, по ординате — доля загруженных раздач. Допущения: раздачи не создаются и не обновляются за это время, пауки запоминают список всех загруженных ими раздач, но не обмениваются этими списками друг с другом.

    Пояснение к решению: каждый паук запоминает номера всех загруженныех раздач, чтобы не загружать их повторно, однако между собой они списками загруженных раздач не обмениваются. Добавление нового паука приведет к тому, что от суммы его вклада с остальными пауками нужно будет отнять произведение их вкладов — это раздачи, независимо загруженные обоими пауками.

    Как выяснилось, новые и измененные раздачи рутрекера можно отслеживать через Atom, поэтому перебор раздач наугад становится неактуальным для rutracker. Но решение все равно интересное и может пригодиться для других трекеров, у которых нет возможности отслеживать обновления.
  • 0
    Доброго времени суток, простите, возможно ответ на вопрос Вам не известен, однако планируются ли обновления данной БД, и известны ли хоть какие то сроки?
    • +1
      Планируется. Сроки и более подробные планы попробуйте узнать в джаббер-конференции.
      • 0
        Благодарю, главное, что планируется.
  • 0
    В свете последних дней узнал об этой теме ;) База пригодилась, спасибо.

    Единственное, чего сразу мне захотелось — это видеть еще и где-то ник создателя раздачи. Понятно, что он может меняться, но все равно полезно было бы видеть. Например, есть лица, которые делают хорошие раздачи и их ник — уже плюс для выбора такой раздачи среди других.

    Не обязательно на странице поиска, в описании — уже хорошо. Сейчас я там вижу нечто похожее на подпись — «Мои раздачи». Только вот чьи это, без форума рутрекера не посмотреть.
  • 0
    Можно зафиксировать текущее состояние:

    список всех раздач rutracker.org в виде magnet ссылок
    rutracker.org/forum/viewtopic.php?t=4204390
    К этой официальной раздаче администрация RuTracker опубликовала ключи доступа

    Список всех раздач rutracker.org в формате csv
    rutracker.org/forum/viewtopic.php?t=4824458
    Эта официальная раздача выдаёт информацию сразу незашифрованной

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.