Comments / Profile of borges / Habr

Vladimir Larin @borges

Senior Data Scientist

Profile Publications 6Comments 59Bookmarks 25

Напиши свою песню за 10 минут (модуль textgenrnn Python3)

borges Aug 27 2019 at 12:31

Странная статья. Похоже на текст, сгенерированный нейросетью.

Look

XLNet против BERT

borges Jul 10 2019 at 10:24

Ну вот, там раздел "Pretraining with XLNet" в Readme.

Препроцессинг — в data_utils.py, само обучение — train_gpu.py. Еще можно посмотреть пояснения к параметрам обучения в пайторчевом репозитарии.

Только, вероятно, это очень затратный по ресурсам процесс, наверное затратнее чем для BERT-a. Что-то не видно, чтобы кто-то что-то еще натренировал. Да и они сами пока только одну натренированную сетку выложили.

Look

XLNet против BERT

borges Jul 10 2019 at 10:24

Ну вот, там раздел "Pretraining with XLNet" в Readme.

Препроцессинг — в data_utils.py, само обучение — train_gpu.py. Еще можно посмотреть пояснения к параметрам обучения в пайторчевом репозитарии.

Look

XLNet против BERT

borges Jul 8 2019 at 17:33

Да, есть такое мнение. Но вроде как в экспериментах с XLNet-Base датасет брали тот же, на котором тренировали и BERT-Base. И там тоже XLNet-Base показывает лучшие результаты.

Меня в этой истории с перестановками интересует, насколько более затратно обучить XLNet по сравнению с BERT.

Look

XLNet против BERT

borges Jul 8 2019 at 16:56

Перестановки — это как раз там самое непонятное место. Да, поскольку положения токенов не меняется, то получается, мы пытаемся предсказать целевой токен по всем возможным сочетаниям остальных токенов.

Но все возможные сочетания — это в теории. На практике же они используют ограничения. Для этой вот предобученной сетки они брали сочетания длины от (255 — 85) до 255. Это явно у них не прописано, но если я правильно понял, это означают их параметры --perm_size и --num_predict.

Look

Сравнение алгоритмов распознавания аудио для Second Screen

borges Aug 7 2014 at 13:04

Да, конечно, у нас есть и структура данных выше уровнем для ускорения поиска. Но это не словарь, в ней так же допускается нечеткое совпадение. Да, сначала находятся претенденты, а потом они проверяются. Претендентов не десяток-другой, а тысячи (зависит от предметной области, размеров базы и т. д.)

Если же использовать поиск по словарю, то слишком часто среди претендентов не будет находиться правильный ответ. В нашей предметной области false negative rate увеличивается в 2-2.5 раза.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 18:01

Мы как раз эпизоды и ищем. То есть, какие-то cock-party находим (где довольно характерные эпизоды), какие-то пропускаем.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 16:55

Честно говоря, сколько качали с видеохостингов порно, ни разу еще не попалось черно-белое.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 13:32

Я не знаю. Для скачивания писали скрипт, и «тщательнейшим образом» не пересматривали потом.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 13:28

> 3) Наивысший приоритет я бы отдал поиску изображения гениталий. Такие изображения обладают рядом особых признаков, а реализовать алгоритм поиска не сложнее, чем алгоритм поиска лица.
> а) вы пишете, что гениталии легко с чем-то спутать — возможно, но все зависит от количества признаков, заложенных в алгоритм распознавания;
> б) лицо также можно много с чем спутать, но тем не менее, качественные алгоритмы поиска лиц существуют;

Нет, все совсем не так. Лицо очень хорошо детектится, есть много алгоритмов, мы и сами писали свою реализацию, пока правда не пригодилось. Так вот, лицо (если картинку размыть, убрав шум) у всех одинаковое — темные глаза, светлый лоб и нос. Гениталии же детектить на видео довольно тяжело, особенно если качество видео плохое, мы пробовали.

Опять же, не надо путать поиск в видео и на фото — все сильно различается.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 12:40

Пативэн уже выехал.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 12:38

Опечатка, так сказать, по Фрейду. Исправил.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 11:49

Сейчас совместно. Так получается лучше точность классификации. Но над порогами мы тоже думали, но еще не реализовывали.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 11:29

Пока стояла задача классифицировать именно видео. В реальной работе конечно к этому нужно добавлять и текстовый поиск.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 11:27

Во-первых, поэтому мы и не используем в классификации только поиск по цвету. Во-вторых, я думаю, роликов типа «Я и мои дети на пляже в Турции» не будет больше 0.1% на видеохостингах.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 11:24

Да, у нас в лицензеро есть такая функциональность — поиск логотипа в ролике. Думаю, прокручивание этой функциональности к поиску порнографии будет одной из следующих задач.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 11:19

Мне тут подсказывают знатоки, что там половые органы не синие, задетектим.

+11

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 11:18

Хентай ловится. Но здесь обратная проблема — иногда неправильно классифицируется как порно и некоторое другое аниме. Например, сцены, где крупным планом показывается ритмично дрожащее лицо главного героя. И это лицо

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 11:12

Про это еще будет статья (ну, не совсем про это). Но в двух словах, это не такая простая задача, как может показаться. Например, член трудно отличить от, скажем, руки или пальца.

Look

Licenzero: ищем порно по цвету кожи

borges Apr 8 2011 at 11:10

Ага. Но к счастью, такой порнографии немного.

Look

2 3