Pull to refresh
26
0
Владислав Виноградов @VladVin

Пользователь

Send message

Сразу не заметил комментарий. Да, отдельная БД нужна для сохранения на диск. Это делается на этапе инициализации / добавления новых данных на индексирование, так что не поиске не делается

Прочитал статью. Красивый разнос. Мы тоже наблюдали незначительную разницу при переходе на более современный метод. Наконец-то кто-то оценил вклад методов через кросс-валидацию и универсальный подход к обучению. Причем этот кто-то — разработчик PML. Еще бы такой анализ провести по пулингам, а не только по лоссам
Multi-scale эмбеддинг у нас стоит в бэклоге, но эту статью не видели. Классный подход, спасибо за ссылку!

Спасибо за статью, посмотрю. Если говорить про парные лоссы, то я не стал в этой статье упоминать метод XBM (https://arxiv.org/abs/1912.06798) с CVPR2020, ориентируясь на более поверхностный материал. Хотя метод действительно мощно поднимает качество. Думаю, глубокий анализ сходимости обучения лучше провести в отдельной статье

Я общался с модератором, указать компанию в статье можно, а вот ссылку на сайт уже нельзя. И в этом есть логика — всё-таки от анонима статья выглядит недостаточно убедительной. А тут, у меня была возможность указать, что у нас есть некий опыт разработки таких систем

Выкладывать метрики был бы смысл, если мы делали замеры на публичных датасетах, как вы сказали. Но это надо корректно поставить эксперименты и вести полноценную исследовательскую работу с дальнейшей публикацией научной статьи. А чтобы просто узнать относительный прирост качества в каждом из методов, достаточно посмотреть сами статьи — в них есть все замеры на Oxford5k, CARS200, Stanford Online Products и пр.

Да, я читаю некоторые ваши статьи и канал в Телеграме. Хорошая работа.


На эту статью можно смотреть с другой перспективы — когда мы начинали разрабатывать систему поиска похожих изображений для первого клиента, было не совсем понятно, как это делать. Казалось бы, многие лоссы уже знали, с нейронками давно дружим. Но конкретно в специфике IR наверняка есть особенности, и нам приходилось собирать все по крупицам, читая статьи и интернет. Поэтому цель этой статьи донести общую структуру системы с небольшим числом конкретных рабочих идей в одном месте

Спасибо за отсылку к классике. Действительно, BoW может помочь при низком объёме данных и его проще дообучать на новый тип объектов — требуется меньше данных опять же. В нашем случае данных было достаточно и deep learning поднял качество очень существенно

Да, давненько про него слышал, ещё не дошли руки попробовать. Спасибо!

Спасибо!
У нас около 600 тыс изображений, размеченных следующим образом. Эксперты выполняли поиски в базе логотипов, используя один из существующих алгоритмов поиска (фильтрация по классам, словесный поиск и пр.). Для каждого изображения проставлено, в каких поисках оно встречалось. Одно и то же изображение могло встретиться в разных поисковых выдачах. Из этого мы сделали multilabel разметку, и дальше уже учили парные лоссы с разными алгоритмами hard negative mining. Кстати, могу упомянуть метод XBM для майнинга (https://arxiv.org/abs/1912.06798) — нам очень хорошо зашёл

Можно все в тех же индексах, которые я указал — nmslib, faiss, annoy, scann. Если нужно постоянное хранилище, то в принципе и обычная база подойдёт типа Postgres. Но понятно, в ней поиск делать не надо, просто выгружать/загружать хэши

Думаю, что tineye работает примерно так же. В простейшем случае он вообще может использовать что-то типа perceptual hash, в этой библиотеке есть несколько подобных алгоритмов: https://github.com/idealo/imagededup

Спасибо за отзыв.
Да, CLIP может использоваться для мэтчинга текст-изображение. Сейчас мы используем трансформеры для вычисления объединённого эмбеддинга по нескольким фотографиям чертежей с разных видов. Аналогично, можно применять к товарам маркетплейса.


Visual Transformer как бэкбон у нас пока не показал качество лучше, чем ResNet/EfficientNet, но ещё вернёмся к более глубокому анализу

Как я понял из статьи, ML Flow завязан на конкретных ML фреймворках. Можно ли его применять с произвольным Docker окружением?

Есть открытый сервер для стрима. Туда можно RTSP стрим затащить или стримить видео из файла. https://github.com/mpromonet/webrtc-streamer

Давно хочу поставить свой сервер на Raspberry Pi в квартире, чтобы можно было произвольное видео смотреть. Похоже появилась надежда.


Главное не злоупотреблять — если популяризовать эту историю, Яндекс может быстро прикрыть такое простое API :)

Топ! Тоже попробую, спасибо

Классная статья и интересный подход. Только в таблицу с замерами я бы добавил единицы измерения времени.

Спасибо за статью.
Интересная задача, хотел бы тоже поиграть с ней.
А данные какие-нибудь есть? В особенности интересуют размеченные каски

Ой, точно, извиняюсь. В оригинальной тоже никаких упоминаний не нашел

1

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity