войти зарегистрироваться

Яндекс

Яндекс
хабраиндекс
802,19

комментарии (51)

  • Умоляю, хабракат.
    • Кого вы умоляете?
  • Круто… очень неожиданная и полезная фича
  • по слову айфон
    2 одинаковые картинки :)

    * Вязаный Айфон
    * 200×272 … 353×480
    * www.oiphone.ru


    * Полцарства за айфон
    * 267×300 … 366×350
    * www.computerra.ru

    • Нижняя картинка растянута по ширине и обрезана. Рука или полруки — большая разница не только для человека, но и для картинки. :)
  • я так понимаю ещё не внедрили?
    • +1. не понял как фича работает.
    • Не совсем понял — у меня есть картинка на пк дубликаты которой я хочу найти… что делать?
      Или есть ссылка на картинку, как быть?
  • > Но мы это сделали!
    Всеже интересно, как :)
    • Очень интересно, расскажите, пожалуйста, технические подробности. (те, что можно).
      • Для поиска дубликатов мы строим относительно компактные сигнатуры картинок, в основе которых распределение яркостей и цветов по площади изображения, а также некоторые другие признаки. Выбор данных для включения в сигнатуру зависит от самой картинки, в разных классах изображений отдельные виды сигнатур работают с переменным успехом. Сигнатуры укладываются в индексы сложной структуры для нечеткого поиска. В частично кластеризованном виде эти индексы удается загрузить в память.

        С момента формулировки общего подхода до запуска в продакшн нам пришлось преодолеть большое количество практических проблем, которые разрешались разнообразными остроумными алгоритмами. Оказалось, что одной простой идеи — недостаточно.

        Большинство известных алгоритмов по поиску дубликатов или похожих изображений основаны на поиске особых точек (feature extraction) на картинках или наборов статистических свойств изображений. Первый подход позволяет «выравнивать» и отождествлять изображения, полученные обрезанием, но требует почти квадратичной сложности вычисления, поэтому используется на ограниченных коллекциях, например, на выдаче поиска по одному запросу. Второй подход не дает достаточно хорошей разрешающей способности на больших коллекциях.
    • Присоединяюсь! Хоть намекните каков принцип?
      • финансовый кризис, куча узбеков, таджиков и пр строителей остались без работы.

        Вот ручками и модерят.

  • Следующий логичный шаг — поиск дублей на video.yandex.ru
    • Кстати, что-то мне подсказывает, что на rutube.ru для экономии ресурсов так уже втихую и делают — не обрабатывая заливаемый файл, а находя у себя подобный, но уже обработанный.
      • Это хорошо когда файлы одинаковые. Так делали на одной файлошаре: подсчитал md5, пробежал по базе — если нашел такой же, то сразу говоришь пользователю, что «Ваш файл успешно залит», ничего никуда по серверам копировать не надо.
        А если ролики немного отличаются?
        • хотябы асолютно одинаковые не обрабатывать — уже хорошо
        • В видео кроме контрольной суммы много разных параметров, например: длительность в секундах, количество кадров и т. д. Так что с какой-то вероятностью можно определить похожесть роликов. А если сюда добавить покадровое сравнение по аналогии с яндекс. картинками — то это значительно улучшит качество сравнения.
        • P.S. На рутубе точно не по md5 одинаковость определяют — я проверял. Или не только по md5…
          • А как вы определили, что он их склеил?
            • Я несколько раз менял размер картинки и заливал ролик, а рутуб сразу, без какой-либо обработки, выдавал этот же ролик с одним и тем же глюком, которого в исходнике не было. Хотя… может и я где-то напортачил.
  • Ура! Яндекс растёт!
  • Супер. Надо полагать следующий шаг — «слияние» кросс-постов? :)
  • Отлично! Раньше для решения подобной задачи приходилось ходить «за бугор» на TinEye — теперь и ходить никуда не нужно.
    • Скажем так, tineye — хороший поисковик, но он индексирует не так много добра как хотелось бы. Поэтому пропустить картинку через 2 поисковика лучше.

  • Здорово. Правда, очень здорово.
  • Спасибо большое! Нашел несколько сайтов, которые пользуются моими картинками (авторскими). Правда, что теперь делать не знаю (
    • денег с них требовать)
    • В суд. Яндекс может поможет)
      • на яндекс надейся, а сам не плошай)
      • Яндекс «зеркало рунета» и авторскими разборками не занимается, для разбирательства есть суд. И здесь, увы, яндекс не помощник. А экспроприаторам напишу, конечно. И их хостерам тоже.
    • Написать в саппорт Яндекса. Если докажите, что ваши — сайт с контрафактом пессимизируют в выдаче
      • Хотя сначала напишите владельцам сайтов, может сами снимут. (бывает же, что не со зла...)
  • круто!) но какая же это атака?) просто систематизация по запрсу
  • А дубликаты изображений с разной степенью компрессии этот алгоритм учитывает?
    • Учитывает, проверено. С замазанными водяными знаками тоже учитывает. Очень толковый алгоритм получился.
  • Яндекс начинает в дополнительных сервисах чем то обгонять гугл, ура!
  • Не понял, что теперь с оптимизацией картинок под Яндекс?
  • Вполне очевидно. Молодцы, что сделали, рад за любимый мной Яндекс :)
  • Очень интересно — учитывая, что подобные топики — автоматически импортируются из RSS, вопрос — их авторы приходят сюда за ними следить? Имеет ли смысл вообще писать комментарии с вопросами к авторам?
    • Нет.
    • думаю что имеет смысл. надеюсь в скором временем поступят ответы
    • К сожалению, на Хабре закрыта регистрация, поэтому ответить со стороны – не такая уж простая задача. Спасибо редакторам сайта…
      • Я думал, что «корпоративным пользователям» аккаунты предоставляются по требованию, а не на общих условиях.

        В любом случае — вы же здесь, уже хорошо :)
        • На мою просьбу предоставить аккаунт редакторы откликнулись сразу же, проблема для меня была в том, чтобы догадаться, что они есть и можно попробовать поискать их контакты. ;) До этого решал другую задачу — поиск инвайтов.
  • Цены бы не было сервису, если бы был интерфейс для поиска всех дубликатов конкретной картинки, указанной пользователем, а не найденной по словестному запросу.
    • Подскажу, что отчасти задачу вы можете решить и сейчас. В языке запросов Яндекса есть оператор url=, описанный вот на этой странице

      help.yandex.ru/search/?id=481939

      Применив некоторое количество смекалки вы сможете соорудить форму, возможно, с JavaScript, которая будет показывать дубликаты по урлу картинки. Нужно только учитывать, что Яндекс кладет в индекс не все урлы картинок, а только те, описания которых он отобрал для поиска по запросу.

  • Молодцы!
    А как вам такое предложение: после стоковых фотографий (например) в поисковиках так и хочется кнопочку «найти похожие». Но её нету. Хотя, чую, что сделать не сложно — ключевые слова-то есть.
  • Поисх похожих действительно можно делать по ключевым словам, по статистическим характеристикам изображений, текстурам, преобладающим цветам и т. д. Хотя, в реализации все эти методы не так уж и просты. Но основные препятствия в другом:

    — не совсем понятно, что будет выдавать такой поиск, и удовлетворит ли это разных пользователей? Поняние «похожие картинки» — слишком неопределенно и означает разное для разных людей и задач. А для того, чтобы хорошо решать задачу, мы должны ее как минимум хорошо формулировать. Настройка качества поиска всегда основывается на измерениях на размеченной человеком базе. Те, кто ее размечают, должны сначала между собой договориться о том, что они считают правильным?

    — юзабилити тестирование говорит нам о том, что любая лишняя ссылка в интерфейсе ухудшает качество сервиса для пользователей, которым она не нужна. Поэтому при включении фич в массовый продукт мы должны 10 раз подумать о том, как это отзовется нам всех пользователях в целом.

    Даже такая фича Яндекс. Картинок, как поиск картинок с разным преобладающим цветом, вызывает непонимание у некоторых пользователей.

    Окончательное решение о том, запускать ли конкретную функцию в нашем сервисе, мы будем принимать, исходя из многих факторов, и расскажем о нем, видимо, сразу после запуска.
  • поиск похожих уже реализован, и кто-то уже успел его активно потестить.
    kanojo.ru/image/id/10532/
    уровень от 5 до 7 дает достаточно точные результаты.
  • молодцы!
Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.