Pull to refresh
40
0
Gordon Freeman @daocrawler

Информационные системы

Send message

Предвыборная гонка глазами поисковых роботов

Reading time2 min
Views12K


Мы ежедневно выполняем срез документов, расположенных на главных страницах миллиона самых посещаемых сайтов мира. Сегодня рассмотрим, как количество упоминаний кандидатов в президенты РФ коррелирует с происходящими оффлайн событиями.
Читать дальше →
Total votes 34: ↑26 and ↓8+18
Comments26

Как мы изгоняли наркоторговцев из рунета

Reading time3 min
Views55K


Сегодня мне хотелось бы поведать вам историю о том, как мы определяли сайты, торгующие наркотиками в рунете, о масштабах проблемы, об опыте взаимодействия IT компании с Роскомнадзором, депутатами, различными палатами, и почему на это больше не хватает зла.
Читать дальше →
Total votes 203: ↑177 and ↓26+151
Comments343

Измеряем динамику упоминания сущностей в информационном поле

Reading time2 min
Views4.6K


Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.
Читать дальше →
Total votes 12: ↑11 and ↓1+10
Comments12

Считаем порносайты, оцениваем эффективность Роскомнадзора

Reading time3 min
Views46K


Вся история началась с достаточно бурного обсуждения процентного соотношения порно vs. всё остальное. Дискуссия плавно переросла в тотализатор. Кто называет цифру ближе всего к «реальной», тот и в дамках. Ставки сделаны, ставок больше нет.
Читать дальше →
Total votes 72: ↑62 and ↓10+52
Comments48

Пересечение морд доменов топ 1,000,000 по N-граммам

Reading time2 min
Views8.8K
Задачей исследования является визуализация дуплицированности главных страниц доменов по пятисловным шинглам в рамках общей базы.


Читать дальше
Total votes 21: ↑13 and ↓8+5
Comments16

Частотный словарь запрещённых сайтов

Reading time1 min
Views32K


Исследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.
Читать дальше →
Total votes 33: ↑28 and ↓5+23
Comments31

Сводные данные о зарегистрированных доменах второго уровня в зоне .RU

Reading time3 min
Views16K
crawljob

Целью исследования являлось получение актуального списка всех активных доменов в зоне .RU, к 01.01.2016 зарегистрировано в которой было 5040277 имён. Приняли решение пройтись по каждому имени краулером и проанализировать результат.
Читать дальше →
Total votes 17: ↑14 and ↓3+11
Comments28

Information

Rating
Does not participate
Registered
Activity