Comments / Profile of RGrimov / Habr

Руслан Гримов @RGrimov

Software developer

Profile Publications 1Comments 24Bookmarks 11

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

RGrimov Mar 3 at 00:14

А пытались ли совместить это всё с NeRF?

Look

Распознавание алфавита глухонемых с помощью нейронной сети

RGrimov Jan 24 at 14:57

Для тех кто интересуется распознаванием языка жестов рекомендую посмотреть подходы в соревнованиях на Каггле: https://www.kaggle.com/competitions/asl-signs и https://www.kaggle.com/c/asl-fingerspelling и почитать серию статей от Сбердевайсов про жестовый язык и их датасет Slovo тут на Хабре https://habr.com/ru/companies/sberdevices/articles/737018/

Look

Hidden Gem — LLava 1.5

RGrimov Nov 5 2023 at 17:23

А сама проекция идет в IMAGE_TOKEN - выделенный токен под картинку, в него мы пихаем всю информацию

А какого размера токен что в него помещается вся информация с картинки? Та картинка со сканом Driver license была помещена в один токен и из него потом нейронка смогла вытащить весь текст, правильно?

Look

Нейронная сеть считает лес кругляк и распознает автомобильные номера. Как это сделано?

RGrimov Apr 19 2022 at 23:06

Отличная статья!
Использовать номерной знак как линейку - оригинальная идея.

Несколько замечаний:

Для расширения тренировочной базы применена аугментация

Это необязательно было делать. В самом train скрипте YoLOv5 уже есть подбор аугментаций.

Важно учитывать, что не все варианты аугментации одинаково полезны. Например в нашей задаче поворот изображения на случайный угол собьет координаты рамки относительно контура бревна и ухудшит точность определения размеров

Albumentations умеет корректно работать с рамками при поворотах.

Look

Как мы сделали фильтр «бабушкин ремонт»

RGrimov Mar 21 2022 at 15:41

А не смотрели через GradCAM или аналоги на то по каким именно деталям квартира классифицируется как "бабушкина"?

Look

В России создали нейроимплант, который поможет незрячим видеть

RGrimov Jul 13 2021 at 16:00

Вы ещё учитывайте что взгляд у человека не статичен, человек может менять направление взляда, а общая картинка сложится уже в других отделах мозга.

Look

Яндекс закрыл сервис «Поиск людей»

RGrimov Aug 12 2020 at 17:35

У FindFace был сервис, который позволял искать профили по фотографии.

Look

Биполярные морфологические сети: нейрон без умножения

RGrimov Apr 16 2020 at 13:16

Вот тут в статье просто заменяют в свёртке умножение на вычитание arxiv.org/abs/1912.13200. Скор вроде бы не сильно просел.

Look

Чем программирование сегодня отличается от программирования 20 лет назад?

RGrimov Jan 15 2020 at 17:44

В сравнение нету Python + NumPy (MKL). Разные реализации numpy сильно отличаются по скорости.

Look

Нейронные сети предпочитают текстуры и как с этим бороться

RGrimov May 30 2019 at 13:41

Сопоставимый/несопоставимый — тут точного критерия нет. Разброс ошибки между разными архитектурами CNN больше, чем между BagNet-33 и ResNet-50. У AlexNet ошибка 19% была, у, GoogLeNet — 13%, а у SENet — 5%.
Я под сопоставимостью имел ввиду то, что сеть успешно распознала не 20% примеров, не 40%, а 86% — что лет пять назад считалось успехом и для CNN. Учитывая что в BagNet уменьшено количество параметров и сильно ограничен receptive field.

Look

Нейронные сети предпочитают текстуры и как с этим бороться

RGrimov May 30 2019 at 01:40

И такая ограниченная сеть по прежнему будет способна получить на ImageNet результат сопоставимый с полноценной CNN. Проблема не в сетях, а в ImageNet — он слишком простой для решения. Собственно об этом статья.

Look

Нейронные сети предпочитают текстуры и как с этим бороться

RGrimov May 29 2019 at 20:19

«серо-бурое образование в крапинку с контрастными границами» — вот вы только что описали одну из недавних задач :-) — классификацию H&E stained гистологических снимков. На текущий момент нейронные сети неплохо справляются с такими задачами, наверное, потому так и популярны. А так да, в академической среде идёт вялотекущий поиск решения приблизить сети к человеческому зрению, и это радует.

Look

Нейронные сети предпочитают текстуры и как с этим бороться

RGrimov May 29 2019 at 20:04

Может вы не там смотрите. Для BagNet с разными receptive fields:
33px: top-5 accuracy просела с 86.4% до 53.0%
17px: 80.3 -> 32.0
9px: 70.0 -> 10.9
habrastorage.org/webt/rm/bm/k7/rmbmk7uvvm9gigwy5xkh6fvfghm.png

Look

Нейронные сети предпочитают текстуры и как с этим бороться

RGrimov May 29 2019 at 19:33

Во второй статье авторы тренировали BagNet на датасете без текстур — точность BagNet сильно просела. Вверху таблица есть.

Look

Нейронные сети предпочитают текстуры и как с этим бороться

RGrimov May 29 2019 at 17:21

P.S. Грубо говоря, если нам надо классифицировать двухголовых котят и обычных (извиняюсь за всю криповость) и у нас есть предобученная сеть, то сеть, оверфитнутая на текстуры, не справится так хорошо, как сеть умеющая выделять признаки более высого уровня.
Но это всё imho, на практике ещё не проверял.

Look

Нейронные сети предпочитают текстуры и как с этим бороться

RGrimov May 29 2019 at 17:17

Зависит от задачи. Если картинки далеки от картинок с котиками, то да, сеть оверфитнутая на текстуры, может лучше справиться с ними, особенно, если не важна пространственная информация. И даже заметить то, что ускользает от нашего взгляда.
Но вот если у нас что-то близкое к натуральным картинкам и, допустим, мы заморозили все веса и обучаем только финальные слои — то в этом случае мы никак не сможем добиться от сети, чтобы она выучивала форму объектов.
Поэтому, собственно, лучше и иметь предобученные на Stylized ImageNet сети, чтобы всегда можно было сравнить.

Look

Нейронные сети предпочитают текстуры и как с этим бороться

RGrimov May 29 2019 at 15:47

Само по себе это и не хорошо и не плохо. Тут главное не делать вольных допущений о том, что сеть выучила. Основной посыл статей: сети могут принимать решения вовсе и не так, как мы от них ожидаем, руководствуясь нашим common sense.

Look

Распознавание образов в эйдетическом искусственном интеллекте

RGrimov Feb 5 2019 at 13:03

Тот же FaceNet, использующий one shot learning, то же может узнать человека по единственной фотографии.

Look

Автоэнкодеры и сильный искусственный интеллект

RGrimov Aug 17 2018 at 15:29

1. Спасибо, теперь понятнее.
2. А с физиологической точки зрения, контексты поворота в мозге человека дискретны? Есть ли какие исследования на эту тему?

Look

Автоэнкодеры и сильный искусственный интеллект

RGrimov Aug 17 2018 at 14:45

1. Не совсем понятно как получается «Вектор правдоподобия контекстов», когда сам контекст превращается в «объект». Можно подробнее?
1. А если объект находится в нескольких контекстах. Тогда количество автоэнкодеров будет декартовым произведением множества контекстов? Или суммой?

Look