Pull to refresh
140
0
Олежа Саитов @Bloodrammer

Пользователь

Send message
Сырые и размеченные данные — два разных зверя. Не все кадры в порно порнографического содержания, об этом я более подробно говорю в статье. Туго именно с размеченными данными.
Буду отвечать в удобном порядке.
Демонстрация половых органов без цели возбуждения (в медицинском аспекте, например) — порно?

Может быть, это и не порно, но это точно небезопасный контент, который мы хотим обрабатывать (и скорее всего банить). Напоминаю, мы не блокируем стрим автоматически, мы ускоряем работу модераторов с помощью алёртов.
Если в кадре нет половых органов, можно ли однозначно утверждать, что это непорно?

Если в кадре нет ни первичных, ни вторичных половых признаков, мы размечали кадр как непорно. Например, если речь идет о крупном плане на участника процесса. Да, у него/нее странная гримаса, ну и что? Столько сейчас «безопасных» мемов из порно, что не хочется на это переобучаться. Вы КДПВ-то вообще видели :)?
Как можно потестить на предмет ложнопозитивных \негативных?

Никак из-за прослойки в виде человека-модератора
Тверкающая девушка — не порно. А если на заднем плане перед тверкающей девушкой стоит некто?

Это пример далеко из хвоста распределения :). При отлове таких случаев решаем с бизнесом.
Да вроде нормально, не замечали особых срабатываний на условных бронелифчиках, панцушотах и zettai ryouiki. К тому же опять же, у нас есть система для дообучения на фолс позитивах, даже если на чем-то валимся, мы это исправляем
Тестовый датасет есть, мы просто пока не планируем его выкладывать. Метрики на нем указаны на графике под спойлером в конце статьи. Из него можно понять а) какие категории данных есть в датасете б) как наши решения ведут себя в сравнении с открытыми.
Первая итерация была реализована за месяц с небольшим, и она работала довольно неплохо. Это был сбор первой итерации данных, более-менее сбалансированная нарезка, поиск моделей, эксперименты, написание какой-то обвязки. Дальше в течение года велись доработки, улучшение качества кода, серверного бэкенда, создание вышеупомянутого пайплайна, потихоньку пополняли каталог видео. Благодаря подходу с компиляциями видео разметка шла относительно быстро.

На сегодняшний день система не банит автоматом. Модераторы получают уведомления в прямом эфире. Никто не хочет повторения кейса tumblr
Речь не о твитче, а о нашей платформе — твитч был упомянут для упрощения понимания кейса. Модель ускоряет время реагирования модераторов васда, так как они получают алерты в прямом эфире
Короткий ответ — пока таких планов нет
Смотрю первую лекцию и хочу отметить, что для онлайн-слушателя сильно сбивается темп, когда люди из аудитории задают вопросы, а мы слышим только ответ, потому что люди либо не говорят в микрофон, либо сигнал с него не идет в видео. Есть предложение просить лекторов повторять заданные вопросы перед ответом, как это делают например лекторы cs231n и других курсов Стэнфорда. Вопросы зачастую бывают нетривиальные, еще они бывают глупыми, но важными, и вместо заминки слушатели получат больше деталей, и возрастёт вероятность того, что лектор правильно поймёт вопрос.
Яндекс уже много лет снимает лекции лучше всех в России, такое добавление в регламент повысило бы качество материала ещё сильнее.

upd: хех, только написал, и в видео заработал микрофон
Ну конечно, кто ж еще мог быть автором этой статьи :D
Хорошая статья, земляк. Особенно порадовали выкладки под катами. Пожалуй, первый на моей памяти пост на подобную тематику, который дал какое-то представление о вещественной подноготной разработки, а не просто являющийся рассказом на тему: «Вот, смотрите, мы паровозик, который смог, мы опишем все в общих чертах с кучей воды в отрыве от непосредственно разработки». Спасибо.
Где-то с полгода назад эта история всплывала на хабре в качестве части какого-то другого «скандала». Если найду ссылку — напишу.
Я вспомнил фильм «Семь психопатов». Немножко не то, конечно, но ассоциация такая. Кто не в курсе, там герои Кристофера Уокена и Сэма Роквелла крали собак, а затем возвращали их за вознаграждение
image
Прочитал статью, тоже осталось ощущение незаконченности. Знаете, я ожидал, что большая часть букв будет посвящена учебному процессу, устройству универа, преподавательскому составу.
Лично у меня после прочтения лишь сложилась картинка о вас, а также впечатление, что хваленый Сколтех является лишь перевалочным пунктом в несравненные MIT, CMU и т.д. Вероятно, так оно и есть на самом деле, но ведь там же еще все-таки и преподают, наверное?
Вы не могли бы дополнить статью/написать новый пост о, собственно, процессе обучения в Сколтехе? Интересно ж, что это за зверь такой.
Спасибо.
Замечательная картинка. Очень экзистенциально.
Дания — член…
Чувак, беги быстрее патентовать эту идею! Без шуток!
Дело вовсе не в армии. Ну возьму я gap year, и что с того? Что мне это даст? Более того — как я буду выглядеть в глазах других?
Мне никто не позволит не поступить никуда. Как бы рационально это ни могло звучать. Вы считаете, что лучше поступить в русский топ, чем в забугорный середнячок?

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity