Pull to refresh
69
0
Vladimir Larin @borges

Senior Data Scientist

Send message

Странная статья. Похоже на текст, сгенерированный нейросетью.

Ну вот, там раздел "Pretraining with XLNet" в Readme.


Препроцессинг — в data_utils.py, само обучение — train_gpu.py. Еще можно посмотреть пояснения к параметрам обучения в пайторчевом репозитарии.


Только, вероятно, это очень затратный по ресурсам процесс, наверное затратнее чем для BERT-a. Что-то не видно, чтобы кто-то что-то еще натренировал. Да и они сами пока только одну натренированную сетку выложили.

Ну вот, там раздел "Pretraining with XLNet" в Readme.


Препроцессинг — в data_utils.py, само обучение — train_gpu.py. Еще можно посмотреть пояснения к параметрам обучения в пайторчевом репозитарии.


Только, вероятно, это очень затратный по ресурсам процесс, наверное затратнее чем для BERT-a. Что-то не видно, чтобы кто-то что-то еще натренировал. Да и они сами пока только одну натренированную сетку выложили.

Да, есть такое мнение. Но вроде как в экспериментах с XLNet-Base датасет брали тот же, на котором тренировали и BERT-Base. И там тоже XLNet-Base показывает лучшие результаты.


Меня в этой истории с перестановками интересует, насколько более затратно обучить XLNet по сравнению с BERT.

Перестановки — это как раз там самое непонятное место. Да, поскольку положения токенов не меняется, то получается, мы пытаемся предсказать целевой токен по всем возможным сочетаниям остальных токенов.


Но все возможные сочетания — это в теории. На практике же они используют ограничения. Для этой вот предобученной сетки они брали сочетания длины от (255 — 85) до 255. Это явно у них не прописано, но если я правильно понял, это означают их параметры --perm_size и --num_predict.

Да, конечно, у нас есть и структура данных выше уровнем для ускорения поиска. Но это не словарь, в ней так же допускается нечеткое совпадение. Да, сначала находятся претенденты, а потом они проверяются. Претендентов не десяток-другой, а тысячи (зависит от предметной области, размеров базы и т. д.)

Если же использовать поиск по словарю, то слишком часто среди претендентов не будет находиться правильный ответ. В нашей предметной области false negative rate увеличивается в 2-2.5 раза.
Мы как раз эпизоды и ищем. То есть, какие-то cock-party находим (где довольно характерные эпизоды), какие-то пропускаем.
Честно говоря, сколько качали с видеохостингов порно, ни разу еще не попалось черно-белое.
Я не знаю. Для скачивания писали скрипт, и «тщательнейшим образом» не пересматривали потом.
> 3) Наивысший приоритет я бы отдал поиску изображения гениталий. Такие изображения обладают рядом особых признаков, а реализовать алгоритм поиска не сложнее, чем алгоритм поиска лица.
> а) вы пишете, что гениталии легко с чем-то спутать — возможно, но все зависит от количества признаков, заложенных в алгоритм распознавания;
> б) лицо также можно много с чем спутать, но тем не менее, качественные алгоритмы поиска лиц существуют;

Нет, все совсем не так. Лицо очень хорошо детектится, есть много алгоритмов, мы и сами писали свою реализацию, пока правда не пригодилось. Так вот, лицо (если картинку размыть, убрав шум) у всех одинаковое — темные глаза, светлый лоб и нос. Гениталии же детектить на видео довольно тяжело, особенно если качество видео плохое, мы пробовали.

Опять же, не надо путать поиск в видео и на фото — все сильно различается.
Пативэн уже выехал.
Опечатка, так сказать, по Фрейду. Исправил.
Сейчас совместно. Так получается лучше точность классификации. Но над порогами мы тоже думали, но еще не реализовывали.
Пока стояла задача классифицировать именно видео. В реальной работе конечно к этому нужно добавлять и текстовый поиск.
Во-первых, поэтому мы и не используем в классификации только поиск по цвету. Во-вторых, я думаю, роликов типа «Я и мои дети на пляже в Турции» не будет больше 0.1% на видеохостингах.
Да, у нас в лицензеро есть такая функциональность — поиск логотипа в ролике. Думаю, прокручивание этой функциональности к поиску порнографии будет одной из следующих задач.
Мне тут подсказывают знатоки, что там половые органы не синие, задетектим.
Хентай ловится. Но здесь обратная проблема — иногда неправильно классифицируется как порно и некоторое другое аниме. Например, сцены, где крупным планом показывается ритмично дрожащее лицо главного героя. И это лицо
Про это еще будет статья (ну, не совсем про это). Но в двух словах, это не такая простая задача, как может показаться. Например, член трудно отличить от, скажем, руки или пальца.
Ага. Но к счастью, такой порнографии немного.

Information

Rating
Does not participate
Location
Орел, Орловская обл., Россия
Works in
Date of birth
Registered
Activity