Pull to refresh
20
0
Лиза Титаренко @Elisabet-89

Пользователь

Send message

Яндекс глазами стажера

Reading time6 min
Views68K

Лето — пора отпусков, каникул и, конечно же, стажировок. Будучи студентом третьего курса по направлению «Прикладная математика и информатика» Иркутского государственного университета, ими я интересовался больше всего. Мне посчастливилось на три месяца присоединиться к службе компьютерного зрения Яндекса. В этом посте я хочу рассказать, каково быть стажером в Яндексе, какие на самом деле задачи перед ними ставят, и что вам вообще за все это будет. Признаюсь, я прошел отбор не без труда, поэтому думаю, что мой пост может быть полезен тем, кто сейчас планирует свое лето.



Команда компьютерного зрения и я в серой футболке


Как это начиналось


Сложности подстерегали меня еще на этапе заполнения анкеты — несколько часов кропотливого труда по заполнению формочек были безжалостно уничтожены ночным обновлением системы. Не идеально, по моему мнению, решив тестовые задачи, я почти начал сомневаться в своих шансах. И вдруг мне ответили и предложили познакомиться с группой нейросетевых технологий, входящей в состав службы компьютерного зрения, так как я указал это направление в своих интересах. Поговорив с сотрудниками Яндекса «за жизнь» и обсудив возможные задачи, я принялся за работу над новым тестовым заданием — построением текстового классификатора.


Читать дальше →
Total votes 71: ↑65 and ↓6+59
Comments9

Работа распределённой команды в условиях самоизоляции: как мы почти не заметили разницы

Reading time9 min
Views5.7K


Режим самоизоляции многих вынудил работать из дома. Кому-то смена обстановки даётся легче, кому-то сложнее, а кто-то и вовсе не заметил бы разницы, но после объявления недели (а потом и месяца) «карантина» прирост постов о лайфхаках, эффективности и продуктивности в ленте существенно увеличился.

Меня зовут Михаил Трошев, я руковожу службой поисковых интерфейсов Яндекса. Наша команда много лет работает распределённо — ниже расскажу, чем это отличается, а чем схоже с «удалённо», как организовано, почему не ломается и чем может быть полезен наш опыт тем, кого резкая смена режима работы застала врасплох.

Что-то наверняка покажется вам банальным (Agile, Scrum, Kanban, DevOps — ничего себе открытия!), но это ведь как с зарядкой по утрам: все знают, что она полезна, но делать регулярно и в полную силу почему-то лень. Так вот: мы делаем. И это работает.
Читать дальше →
Total votes 29: ↑20 and ↓9+11
Comments5

Как Яндекс Карты с помощью отзывов улучшают поиск организаций

Reading time8 min
Views6K


Раньше Карты, Поиск и Алиса отвечали на запросы об организациях, во многом основываясь на данных от самих организаций. Это был нормальный компромисс, но всегда можно сделать лучше.

Теперь учитываются ещё и реальные отзывы людей. Тем самым запросы, по которым раньше выдача была менее релевантной, обрабатываются качественнее, и мы можем решить больше пользовательских задач. Давайте расскажу, как мы к этому шли, и покажу примеры.
Читать дальше →
Total votes 17: ↑16 and ↓1+15
Comments18

Как люди помогают технологиям в Яндекс Картах

Reading time7 min
Views8.1K
На днях пользователи Яндекс Карт получили возможность актуализировать данные о доступности организаций. Например, можно указать, оборудован ли пандусом вход в парикмахерскую или есть ли в торговом центре специализированный туалет. Для начала мы попросили пешеходов Яндекса разметить первые 400 тысяч организаций в 73 городах.

Я Данис Гаязов из внутреннего сервиса Crowd, команды полевого краудсорсинга. Полевого, потому что мы работаем «в поле», то есть не в офисе. Сегодня по случаю запуска я расскажу, зачем Картам пешеходы и как они помогали и помогают делать сервисы более полезными.


Результат работы пешехода на заре проекта схем ТЦ
Читать дальше →
Total votes 24: ↑22 and ↓2+20
Comments20

ICDAR: новости анализа и распознавания документов в преддверии 2022 года

Reading time8 min
Views2.5K

Декабрь – пора подводить итоги года. В этом посте постараемся рассказать читателям Хабра о новых интересных идеях, которые появились в области анализа и распознавания изображений документов.

В сентябре прошла очередная, 16-я конференция ICDAR-2021 – главное событие в области анализа и распознавания документов. Конференция проводится раз в два года, в этом году ABBYY также принимала участие с докладом, но сейчас речь пойдет не о нашей работе, а о других интересных, на наш взгляд, публикациях с этой конференции. К сожалению, не все работы легко найти в свободном доступе, поэтому под катом будет множество полезных ссылок для ознакомления. Поехали!

Читать далее
Total votes 11: ↑10 and ↓1+9
Comments0

2021 год в разработке технологий ABBYY – и не только. Подводим итоги года

Reading time8 min
Views2K

С наступающим новым годом, Хабр! Чтобы не быть занудами, постараемся подвести короткие итоги 2021 года, потому что без них никуда :)

Вот несколько главных событий, которыми гордится вся наша команда:

     Создали low-code/no-code платформу, которая позволяет автоматизировать обработку документов и применять машинное обучение даже сотрудникам без навыков программирования. Микросервисная архитектура, Kubernetes, Docker-контейнеры, облако – в общем, классный и сложный продукт, который сделает жизнь для тех, кто много работает с информацией, чуточку проще.

   Создали уникальную технологию FastML, которая в связке с алгоритмом кластеризации позволяет гораздо точнее определять классы документов, даже если у вас их очень-очень много. Это принципиально новый подход, и мы считаем, что за ним – будущее. Пока об этом можно почитать в патенте, а вообще планируем об этом большой пост сразу после того, как все закончат есть оливье и выйдут из праздничного анабиоза.

   Обновили библиотеку машинного обучения NeoML – теперь она работает до 10 раз быстрее и поддерживает Python. Приглашаем всех питонистов (и не только) оценить всю мощь обновленной NeoML!

А еще мы попросили руководителей направлений поделиться, что самое важное их команды сделали в 2021 году, какие события в своей профессиональной области им запомнились и какие планы у них на следующий год. Вот что они рассказали.

Читать далее
Total votes 12: ↑11 and ↓1+10
Comments7

Что такое ABBYY Vantage и как мы придумали платформу для тех, кто не умеет кодить

Reading time9 min
Views9.1K

ABBYY представила Vantage – low-code/no-code платформу нового поколения для интеллектуальной обработки документов с набором готовых обученных когнитивных сервисов (навыков или скиллов) для распознавания, классификации и извлечения данных из документов любой сложности.

Это значимое событие по ряду причин. Во-первых, в разработке мы использовали самый современный стек технологий (REST API, Cloud-native, микросервисная архитектура с Docker-контейнерами, которые управляются с помощью Kubernetes). Во-вторых, запустили Marketplace – онлайн-площадку, на которой клиенты могут приобретать готовые навыки для обработки документов и обмениваться ими с другими компаниями. В-третьих, добавили в продукт машинное обучение на стороне клиента. То есть система сама постоянно дообучается и повышает качество работы сервисов на основании того, как с ней взаимодействует клиент. Например, когда вносит исправления в результаты распознавания. Но обо всем по порядку.

Мы расскажем о разных составляющих Vantage в серии постов. Первый из них об общей концепции платформы. В этом посте мы покажем интерфейс и обозначим технологии, которые используются в платформе. Скорее под кат!

Читать далее
Total votes 17: ↑17 and ↓0+17
Comments9

Словарь визуальных слов: как создать, зачем использовать, где применять

Reading time15 min
Views3.4K

Автоматическое извлечение информации из деловых документов (счетов-фактур, квитанций, ID) все еще остается сложной задачей из-за отсутствия единого стандарта оформления: несмотря на то, что любой подобный документ содержит определенный набор полей, которые можно извлечь (дата, валюта, общая сумма), расположение элементов сильно отличается в зависимости от типа документа или компании. Также определенные трудности вызывают неоднозначное расположение границ документа, например, из-за смещения изображения на скан-копии. Этот фактор тоже может повлиять на положение искомых областей.

Использование словарей (кодовых книг) визуальных слов, аналогичных Bag-of-Words (BoW), раньше было довольно популярно для обработки изображений (к примеру, для поиска или классификации изображений документов). Мы решили создать принципиально новое решение для извлечения информации из документов, которое бы решало перечисленные выше проблемы предшествующих подходов и базировалось бы на построении и использовании оптимизированного словаря визуальных слов. При этом дополнительным достоинством нашей разработки является то, что обнаружение полей основано только на данных изображения и не требует больших размеченных наборов данных для обучения (fine-tuning) системы на стороне пользователя.

Подробно о том, как был создан словарь визуальных слов, его работе и результатах читайте тут, а переведенный сокращенный вариант — под катом.

Читать далее
Total votes 9: ↑8 and ↓1+7
Comments4

Как ухаживать за мозгом

Reading time12 min
Views87K
Эх, люблю свои мозги! Каждый день забочусь о них, как о самом важном. В этой статье мой опыт поддержания здоровья мозга переплетён с последними результатами научных исследований. Под катом рассказ, как сделать так, чтобы мозг работал эффективно и сохранял ясный ум (завтра и через 30 лет), был готов принимать решения, концентрироваться на задачах и при этом не старел.


Читать дальше →
Total votes 78: ↑66 and ↓12+54
Comments116

Как вести технический блог?

Reading time16 min
Views20K


Я работаю в коммерческой разработке с 2011 года. С конца 2012 занимаюсь разработкой под iOS. Свою первую техническую статью я написал на Хабре в начале 2017 года про подход к локализации мобильных приложений. Потом выпустил ещё несколько статей по iOS-разработке на Хабре и в конце 2017 года я перешёл в новую компанию и решил вести блог про solution architecture https://medium.com/@nvashanin, где начал описывать общие концепты, обязанности архитектора, его скилл-сет и т.д. К лету 2020 года количество просмотров моих статей перевалило за 800 тысяч, а количество времени, которое люди потратили на прочтение — больше 6 млн минут, или около 12 лет чистого времени. Флагманская статья была переведена другими людьми на разные языки: например, польский или испанский.

В статье я расскажу про свой путь к техническому блогу — от идеи до регулярных публикаций. Расскажу, о чём можно писать, как писать и как оформлять статьи, а также о том, как на них заработать. Мне, например, удалось купить себе часы на деньги, которые принёс блог. Статья подойдёт тем, кто только задумывается о написании статей, а также будет полезна и тем, кто уже активно пишет.
Читать дальше →
Total votes 68: ↑68 and ↓0+68
Comments22

Как жить и работать с психиатрическим диагнозом: расшифровка эфира, часть 1

Reading time24 min
Views24K

И снова привет, Хабр.

Две недели назад я написала пост с каминг-аутом, что я работаю в IT с тяжелым психическим расстройством и предложила задавать вопросы. И форма ответов просто взорвалась! Впервые за время, которое я на площадке, я увидела человеческую часть нашего коммьюнити так близко.

Поэтому перед публикацией расшифровки я хочу сказать спасибо за поддержку и доверие. Я постаралась ответить на все вопросы во время эфира — вышло длинно, поэтому расшифровка выйдет двумя частями: в целом о жизни с БАР и практические вопросы, вроде как найти врача.

Под катом часть первая — о жизни с БАР.
Total votes 65: ↑58 and ↓7+51
Comments43

PVS-Studio впечатлен качеством кода Abbyy NeoML

Reading time4 min
Views6.1K
image1.png

На днях компания ABBYY опубликовала исходный код своего фреймворка NeoML. Нам предложили проверить эту библиотеку с помощью PVS-Studio. Это интересный проект с точки зрения анализа, так что мы не стали откладывать его в долгий ящик. Чтение этой статьи не займет у вас много времени, так как проект оказался высокого качества :).
Читать дальше →
Total votes 33: ↑33 and ↓0+33
Comments20

Колесо Сансары: принципы борьбы с рутиной

Reading time7 min
Views15K
Под катом статья для тех, кто, с одной стороны, эмоционально сгорает в рутине, стрессует, отмечает у себя повышенную тревожность, а, с другой стороны, должен продолжать концентрироваться на рабочих задачах и как-то их вывозить.


Total votes 25: ↑23 and ↓2+21
Comments15
Процедура регистрации SIM-карт не менялась уже более двух десятков лет. В сравнении с остальными технологиями — вечность. Пока одни всерьез обсуждают возможности телепортации, другие тащатся в офис оператора или его партнера, стоят в очереди и теряют чуть ли не полчаса на том, что медленный сотрудник забивает в учетную систему паспортные данные. А потом еще примерно час ждут, пока купленная SIM-карта активируется в биллинге, чтобы с нее можно было позвонить. Проект GoldenSIM и ABBYY далек от телепортации, но сокращает эти полтора часа до полутора минут.
Подробности — под катом
Total votes 43: ↑38 and ↓5+33
Comments31

[Обновлено в 10:52, 14.12.19] В офисе Nginx прошел обыск. Копейко: «Nginx был разработан Сысоевым самостоятельно»

Reading time7 min
Views313K

Другие материалы по теме:


Eng version
Что значит наезд на Nginx и как это отразится на индустрииdeniskin
Open source — наше всё. Позиция Яндекса по ситуации с Nginxbobuk
Официальная позиция Программных комитетов Highload++ и других IT-конференций на претензии к Игорю Сысоевуolegbunin


По информации от одного из сотрудников, в московском офисе опенсорс-разработчиков Nginx проводят обыски в рамках уголовного дела, истцом по которому выступает Рамблер (ниже официальный ответ пресс-службы компании по этому вопросу и подтверждение наличия претензий к Nginx). В качестве доказательств приводится фото постановления о производстве обыска в рамках уголовного дела, возбужденного 4 декабря 2019 года по статье 146 УК РФ «Нарушение авторских и смежных прав».

Фото постановления о производстве обыска


Как предполагается, истцом выступает компания Рамблер, а ответчиком пока «неустановленная группа лиц», а в перспективе — основатель Nginx Игорь Сысоев.

Суть претензии: Игорь начал работу над Nginx, будучи сотрудником Рамблера, а только после того, как инструмент стал популярен, основал отдельную компанию и привлек инвестиции.

Почему Рамблер вспомнил о своей «собственности» только спустя 15 лет — неясно.
Total votes 797: ↑794 and ↓3+791
Comments1457

Кота и пса накормит робот

Reading time6 min
Views9.3K


Забыли покормить кота, и он будит вас в пять утра голодными руладами? Ищете сиделку для домашнего любимца на время командировки или поездки за город? Технологии решат эти проблемы, к радости четвероногих друзей. Рассказываем о новом бренде Petoneer — умной кормушке Nutri Feeder и поилках Fresco Ultra и Mini.
Читать дальше →
Total votes 28: ↑25 and ↓3+22
Comments25

Как ужиться с поколением Z

Reading time12 min
Views73K


Знаете, когда читаешь публикации в СМИ насчёт очередных особенностей очередного поколения молодых людей, начинает казаться, что мир катится в пропасть. Все эти фразы про молодёжь, которая не умеет работать, не признаёт авторитетов и скоро погубит мир, свежестью своей мысли заставляют вспомнить глиняные таблички времён Хаммурапи.

Чушь. Познакомьтесь с поколением Z. Они скоро станут вашими коллегами, подчинёнными и даже начальниками. Они обычные люди, просто получившие смартфон раньше, чем научились читать. Умные, целеустремлённые, образованные. Да, они не жгли тряпки на заброшенной стройке и не ели муравьёв в песочнице, но зато многие из них уже успели собрать свой первый школьный проект на Arduino и вовсю осваивают 3D-печать.

Эта тема всё больше нервирует рекрутеров, которые ещё не совсем понимают, как правильно их нанимать, и руководителей, которые не уверены, что получится ужиться с этим поколением. Всё не так страшно. Я хочу рассказать немного больше о социологических аспектах поколений. А ещё попробуем понять, почему бывает так сложно работать с центениалами, и как направить их творческую натуру на благо компании.
Total votes 134: ↑115 and ↓19+96
Comments604
Замечали, что при поиске работы об одних компаниях вы вспоминаете сразу, а про другие понимаете, что лучше туда и носа не совать? Впечатление об имидже работодателя вы можете составить по информации в соцсетях, медиа, на профильных мероприятиях. Другой вопрос, доверяете ли вы этой информации? На что вы в первую очередь обращаете внимание при поиске информации о работодателе?
Пройти опрос
Total votes 35: ↑29 and ↓6+23
Comments10

Как мы создавали технологию оптического распознавания текста. OCR в Яндексе

Reading time12 min
Views19K
Привет! Сегодня я расскажу читателям Хабра о том, как мы создавали технологию распознавания текста, работающую на 45 языках и доступную пользователям Яндекс.Облака, какие задачи мы ставили и как их решали. Будет полезно, если вы работаете над схожими проектами или хотите узнать, как так получилось, что сегодня вам достаточно сфотографировать вывеску турецкого магазина, чтобы Алиса перевела её на русский.


Читать дальше →
Total votes 65: ↑41 and ↓24+17
Comments12
Потребление контента похоже на процесс приёма пищи. Обычно мы тратим деньги на калории, но важна не только калорийность. Чем еда полезнее, вкуснее и красивее, тем больше мы её хотим. Так и с контентом. В этой статье поговорим, как стать «контентным поваром»: готовить текст так, чтобы его хотелось открыть и прочитать. А главное — чтобы он был полезен читателю и не стал фастфудом.
Читать далее
Total votes 19: ↑15 and ↓4+11
Comments8

Information

Rating
Does not participate
Location
Россия
Registered
Activity