Articles / Bookmarks / Profile of Safronov / Habr

How to become an author

Вадим Сафронов @Safronov

data artist

Profile Publications 14Comments 77Bookmarks 37

norbit Mar 5 at 13:17

Как мы решали задачу оптимизации доставки грузов с использованием численных методов на примере метода имитации отжига

Medium

7 min

3.2K

Algorithms*Mathematics*ГК ЛАНИТ corporate blogTransport

В статье хотим поделиться своим опытом реализации алгоритма решения задачи маршрутизации на основе метода имитации отжига в Norbit CDS – умной системе управления доставкой.

Проанализировав материалы, можно обнаружить различные предлагаемые способы решения VRP-задач (Vehicle Routing Problem). Главная их цель – планирование маршрутов для транспортных средств оптимальным способом. Основными критериями, как всегда, остаются наикратчайший путь для транспортного средства и доставка услуг во все заданные точки. В рабочем месте логиста Norbit CDS задача не отличается.

Создавая свой алгоритм оптимизации построения маршрутов доставки, мы исходили из следующих входных данных: количество транспортных средств, число заявок для распределения с учетом их габаритов и окон желаемого времени доставки. Для реализации был выбран метод отжига.

Читать далее

+24

evaclick Mar 4 at 13:13

Шпаргалка для алгособеса 2 — графовые и строковые алгоритмы

Medium

22 min

19K

Python*Algorithms*

Привет, Хабр!

В наше неспокойное время, когда сфера AI стремительно движется вперёд, хочется немного стабильности и уверенности в завтрашнем дне. Как это связано с темой статьи?

Самым прямым образом — алгоритмы прокачивают умение системно мыслить, искать нестандартные пути решения; человека, у которого эти скиллы на высоте, вряд ли заменит ИИ. Так что, тратя бесценное время на алгоритмы, вы занимаетесь очень полезным делом, расслабьтесь и получайте удовольствие) В качестве бонуса к прокачиванию серого вещества вы получите сверхспособность пройти любой алгособес в FAANG и удовлетворить любые потребности пирамиды Маслоу — довольно приятно)

В этой статье мы разберём графовые алгоритмы типо DFS, Флойда–Уоршелла и строковые наподобие Ахо-Корасик.

Читать далее

+37

artmaro Oct 19 2023 at 15:30

Немного паранойи: весёлые огромные уязвимости, которые порождают ChatGPT и LLM-модели

8 min

7.1K

System Analysis and Design*Natural Language Processing*Raft corporate blog

LLM сейчас встраивают практически везде. Рождается очень много возможностей для атак.

Уже появились атаки на дозаполнение кода. Это вообще самое смешное: код записывается в публичный репозиторий, модели считывают его при обучении, запоминают, при подсказках он всплывает, в итоге могут не проверить и исполнить где-то. Это отравление обучающей выборки.

MS говорил, что обучал только на публичных данных репозитория. Это пример того, как в автокомплит Copilot попал кусок кода, содержащий ссылку на тикет в Jira компании Озон, но их много раз поймали на утечках приватных данных. Некоторые пытались судиться уже, по этому поводу, но есть некоторые сомнения…

Вот ещё пример. Поскольку вывод модели является частью промпта, при каждой итерации в текст, который надо перевести, можно вставить инструкции для модели. И она будет им следовать. Так что если вы переводите что-то со словами «Игнорируй все предыдущие инструкции и сделай вот это», возможно, вас ждёт сюрприз. Практическое применение такое: белый по белому текст в PDF с резюме, и если это резюме оценивает LLM-модель (а это уже норма), то ставит ему высший балл.

Я уже видел письма для корпоративных LLM-разбирателей почты, которые содержали инструкции на перехват модели и спам-рассылку по всему списку контактов, либо поиск писем с паролями и форвард по указанному адресу. Прекрасное применение.

Есть инструкции для корпоративных ботов, как ругать свою продукцию. Есть описания товаров, которые поднимают товары в выдачах торговых площадок, формируемых по отзывам на основе анализа LLM-моделями. Есть непрямые атаки для корпоративных ботов, позволяющие выдёргивать информацию обо всех сотрудниках.

Читать дальше →

+21

OldfagGamer May 20 2023 at 15:00

Ностальгические игры: Fallout 2 (часть 2)

Easy

9 min

13K

RUVDS.com corporate blogReading roomGames and game consoles

Retrospective

Когда я был школьником, Fallout 2 ужасно поражал меня своей свободой. Ни в одном проекте ни тогда, ни сейчас я не видел такого контентного наполнения. На протяжении многих лет возвращаясь к игре, всё больше убеждался в том, насколько она богата геймплейными возможностями, секретами и заданиями. С каждым новым погружением в этот постапокалиптический мир я обязательно узнавал что-то новое, чего раньше не находил, не встречал или не пробовал сделать. Даже сейчас во время игры перед написанием этой статьи сделал для себя несколько пусть и маленьких, но открытий! Во многом из-за этого Fallout 2 и любят. По той же причине и спустя 25 лет игру помнят и почитают, а фанаты продолжают разрабатывать новые патчи и моды!

В первой части статьи я коснулся сюжета и лора игры, а также ролевой системы. Сегодня хочу подробнее остановиться на геймплее и других, не менее важных аспектах.

Читать далее

+66

NewTechAudit Jan 20 2023 at 12:08

Визуализация весов в машинном обучении на примере алгоритма Random Forest и Decision Tree

8 min

8.3K

Programming*Algorithms*Machine learning*

Привет, Хабр!

Меня зовут Александр Серов, я Data Scientist и являюсь участником профессионального сообщества NTA. Сегодня загляну «под капот» алгоритмов, использующих в своей основе деревья решений. Один из самых мощных алгоритмов контролируемого машинного обучения на сегодня – градиентный бустинг (Catboost, XBGR), построен на столь казалось легком и базовом элементе, как бинарное дерево, или же дерево решений. Оно является строительным блоком данного алгоритма, в данном случае можно привести притчу про веник и его части, но в этом случае, иногда даже одно дерево решений способно выдать неплохой результат в решениях задач классификации и регрессии. Сегодня я рассмотрю его подробнее, на примере Decision Tree и Random Forest из библиотеки sklearn, а также визуализирую работу.

Читать далее

+6

Efaldgent Jan 19 2023 at 14:00

Интерпретируемость ML-моделей: от инструментов до потребностей пользователя

7 min

3.9K

Big Data*Machine learning*Open Data Science corporate blogArtificial Intelligence

Интерпретируемость ML-моделей - очень широкая концепция. То, насколько интерпретация хороша, зависит не только от инструментов и отчетов, которые мы предоставляем пользователю, но и от потребностей пользователя и особенностей задач, которые он решает.

В статье разберемся, как эффективно работать с интерпретируемостью ML-моделей в зависимости от потребностей ключевых пользователей.

Читать далее

+22

AndrewYaremko Oct 28 2022 at 04:24

Не-пирамида Маслоу

34 min

16K

Professional literature*Popular scienceBrainHealthBiology

Translation

Недавние исследования нейробиологов в области толерантности человеческого организма к дофамину реабилитируют/легитимизируют представления Авраама Маслоу о мотивации человека.

К моему разочарованию, русскоязычные научные публикации, науч. поп материалы и пособия по маркетингу трактуют работу Маслоу, искажая суть настолько, что порой противоречат оригиналу.

Складывается впечатление, что оригинальную публикацию автора, как в поговорке, «не читал, но осуждаю». И действительно, я не смог найти полного перевода статьи. Что в соавторстве со своим студентом Афанасьевой Екатериной и спешим исправить. Ибо предстоит еще много работы по переоценке традиционных ценностей в современном обществе и приданию ей научного базиса.

По этой причине данная публикация почти дословный перевод, без сокращений, личностных трактовок и интерпретаций.

Читать далее

+24

AlekseiPodkletnov Jul 28 2022 at 09:04

Консалтинг в России — взлёт и перерождение одной из редких профессий, где можно зарабатывать больше айтишников

17 min

34K

Project management*IT careerReading roomBusiness Models*

Долгое время в России было две индустрии, куда стремились попасть почти все лучшие выпускники главных бизнес-вузов страны. Это инвестиционный банкинг (про него в другой раз) и топовый управленческий консалтинг. Консалтинговые фирмы успешно наращивали объемы проданных проектов и расширяли офисы. Но этот год в России переживут далеко не все из них. Разбираемся, каким был российский консалтинг до 2022 г., и какой он будет теперь.

Читать далее

+56

yanwork Jul 21 2022 at 10:07

Не трогайте разработчиков. Отстаньте. Просто не беспокойте

13 min

74K

Development Management*Project management*Газпромбанк corporate blog

Technotext 2022

Всем привет! Меня зовут Ян, я руководитель разработки Департамента ИТ инвестиционного бизнеса Газпромбанка. Совершенно неожиданно я занял первое место на конференции Highload++ с докладом про то, как организована работа в наших командах разработки.

Очень коротко: мы пересобрали процесс разработки как таковой, постаравшись выкинуть оттуда явно кривые решения. Получилось следующее: каждые две недели в команде есть дежурный, который отвечает вообще за все внешние коммуникации. То есть он не разрабатывает, а ловит всех входящих в мессенджерах и в личке и не даёт им пробиться до самой команды. Естественно, этот дежурный знает всё происходящее и может ответить на любой вопрос, а это требует и понимания архитектуры, и знания интерфейсов, и понимания особенностей кода коллег.

В результате из простой задачи «не трогайте разработчиков» получилось сделать и очень правильное обучение (если вы дежурите, то у вас нет шансов не разбираться во всех процессах команды), и снижение техдолга (дежурный не берёт таски по фичам на спринты, но может заниматься документацией и всякими вещами в наведении порядка, до чего обычно не доходят руки), и много чего ещё. Сначала казалось, что за это мы платим снижением эффективности команды на 8–10 % (ведь мы выключаем дежурного из разработки), но на деле оказалось, что эффективность даже растёт. Есть ряд вещей, которые очень поменялись и в управлении такими командами в лучшую сторону.

Естественно, такой подход имеет кучу подводных камней и подходит далеко не всем и не каждому типу команд.

Сейчас расскажу про практический опыт.

Читать дальше →

+154

just_e1f Jul 15 2022 at 09:42

Никогда не приоритизировали, а тут приспичило: как появился Dodo Score

6 min

2.8K

Product Management*Dodo Engineering corporate blog

В статье расскажем, что такое Dodo Score и почему у нас появилась потребность в сквозной приоритизации задач. Будем рады, если наш опыт поможет вам прокачать скилл делать только самое ценное или приведёт к мысли, как улучшить тот фреймворк, который вы используете.

Читать далее

+5

Ccelebro Jul 7 2022 at 23:53

Случайность на страже криптографии: как Cloudflare использует лава-лампы, маятники и распад урана для шифрования трафика

5 min

11K

Cryptography*IT Infrastructure*Selectel corporate blogCloud services*

^{Траектория движения элементов хаотического маятника — повторений нет}

Случайные числа играют важнейшую роль в криптографии. Например, алгоритмы формирования электронно-цифровых подписей используют именно случайные числа для формирования ключей. И требования к этим числам весьма строгие, поскольку надежность системы шифрования данных напрямую от них зависит. К сожалению, реально случайные числа получить сложно, хотя и возможно, поэтому обычно для решения этой задачи используются генераторы псевдослучайных чисел. Так называют алгоритм, который генерирует последовательность чисел элементы которой независимы друг от друга и подчиняются заданному распределению.

Но есть и компании, которые решают задачу иначе — они используют генераторы true-случайных чисел. Это вовсе не компьютерные программы, а необычные устройства или даже так называемые лавовые лампы. Именно их использует компания Cloudflare — примерно с 2017 года. В течение пяти лет надежность шифрования трафика, который проходит через инфраструктуру компании, зависит от ламп, а также маятников и процесса радиоактивного распада урана. Подробности — под катом.

Читать дальше →

+55

FFormula Jul 7 2022 at 17:57

Способы хранения графа в памяти компьютера

4 min

28K

Algorithms*OTUS corporate blog

В предыдущей статье мы познакомились с терминами и определениями теории графов. В этой же статье обсудим различные способы представления графа в памяти компьютера для его обработки. Покажем, какие структуры данных можно использовать, а также проговорим преимущества и недостатки каждого способа.

Читать далее

+42

BeyondTheHype Jun 19 2022 at 11:08

Как правильно отвечать на вопрос “Какие у вас зарплатные ожидания?” на рынке США

6 min

65K

IT-emigrationIT career

На первом интервью чаще всего рекрутер может задать вопрос о зарплатных ожиданиях кандидата — “What Are Your Salary Expectations?”. Я принимаю участие в найме продукт-менеджеров, дизайнеров и инженеров и хочу поделиться с вами своим опытом как правильно отвечать на этот вопрос применительно к рынку США.

Я не рекомендую раскрывать никаких цифр как на ранней стадии процесса интервью, так и во время раунда интервью. В этой статье я расскажу почему именно такая стратегия является наиболее выигрышной.

Читать далее

+74

daniil_dzheparov May 2 2022 at 15:25

Оконные функции SQL простым языком с примерами

4 min

435K

SQL*Database Administration*Data Engineering*

Recovery Mode

Привет всем!

Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свое путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания.

P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи)))

Для примеров будем использовать небольшую таблицу, которая показывает оценки учеников по разным предметам. В БД табличка выглядит следующим образом

Читать далее

+58

AlekseyKorshuk Apr 4 2022 at 11:22

Optimum Transformers: как экономить от 20к$ в год на NLP

5 min

3.6K

Python*Machine learning*Artificial IntelligenceNatural Language Processing*

Недавно компания 🤗 Hugging Face (стартап, стоящий за библиотекой transformers) выпустила новый продукт под названием "Infinity". Он описывается как сервер для выхода в “production”. Публичная демонстрация доступна на YouTube (ниже приведены скриншоты с таймингами и настройками, использованными во время демонстрации). Все основано на обещании, что продукт может выполнять работу с NLP с задержкой в 1 миллисекунду на графическом процессоре. По словам ведущего демонстрации, сервер Hugging Face Infinity стоит не менее 20.000$ в год за одну модель, развернутую на одной машине (общедоступная информация о ценовой масштабируемости отсутствует).

Мне стало любопытно немного покопаться и проверить, возможно ли достичь таких показателей? Спойлер: да, возможно, и с помощью этой статьи его легко воспроизвести и адаптировать к вашим РЕАЛЬНЫМ проектам.

А для тех, кому лень все это читать и хочется все получить из коробки... Ссылка на GitHub. Поставьте зведу сразу, а потом читайте 🤗

Читать далее

+12

Kofe4x Mar 22 2022 at 13:26

Как мы придумали свою диаграмму Ганта

15 min

14K

Game development*Development Management*Project management*Pixonic corporate blog

Technotext 2021

В управлении проектами часто возникает вопрос: как лучше спланировать последовательность работ разных отделов, убедиться в отсутствии оверкапа по капасити, да и вообще понять критический путь будущего релиза? Желательно ещё и визуализировать все эти планы. Ко всему этому, часто бывает, что нужно внезапно и быстро переработать утвержденное ранее.

К нашему счастью, эту проблему решили за нас еще в конце XIX века, придумав диаграмму Ганта. Затем придумали компьютеры, а после — Интернет. И, казалось бы, какие тут еще могут остаться проблемы, но не всё так просто — ведь нельзя просто создать универсальный инструмент, который удовлетворял бы нуждам всех.

Сегодня я расскажу о том, как мы перебрали множество вариантов диаграммы Ганта, но по итогу пришли к тому, чтобы разработать собственный.

Читать далее

+26

boygenius Jan 13 2022 at 15:34

Интерпретация моделей и диагностика сдвига данных: LIME, SHAP и Shapley Flow

38 min

29K

Algorithms*Machine learning*Open Data Science corporate blogStatistics in ITArtificial Intelligence

В этом обзоре мы рассмотрим, как методы LIME и SHAP позволяют объяснять предсказания моделей машинного обучения, выявлять проблемы сдвига и утечки данных, осуществлять мониторинг работы модели в production и искать группы примеров, предсказания на которых объясняются схожим образом.

Также поговорим о проблемах метода SHAP и его дальнейшем развитии в виде метода Shapley Flow, объединяющего интерпретацию модели и многообразия данных.

Читать далее

+34

artysav Dec 8 2021 at 18:42

Графовый анализ — обзор и области применения

15 min

22K

GlowByte corporate blog

Всем привет!

Мы - команда GlowByte Advanced Analytics. Сегодня мы расскажем об одном из перспективных направлений Data Science - графовом анализе, и покажем, какие задачи можно решать с его помощью.

Цель статьи - показать многообразие бизнес-областей, в которых можно применять графовые подходы.

Читать далее

+5

DTN Oct 27 2021 at 10:01

Почему не плавится ковш и как мы учимся следить за жизнью футеровок

9 min

38K

System Analysis and Design*Industrial Programming*Project management*Группа НЛМК corporate blog

Привет, Хабр!

В одной из статей нашего блога мой коллега упоминал, что температура расплава в стальковше достигает ~1600 градусов Цельсия. В комментариях были вопросы, почему в таком случае сами ковши, которые, конечно, тоже сделаны из стали, не расплавляются. Отвечаю — все дело в футеровке – многослойной защите внутри ковша. На этом фото — одна из стадий ее изготовления.

Для полноты картины напомню, с чем сталкивается футеровка в течение своей короткой, но яркой жизни:

Под катом расскажу о самой футеровке и о новой системе учета всех ее многочисленных компонентов. Для нас это дело суперважное, ведь одна такая футеровка стоит примерно как моя квартира.

Читать дальше →

+210

fotol Sep 2 2021 at 15:16

Как мы в SIGIR-соревновании участвовали

10 min

2.5K

Data Mining*Algorithms*TINKOFF corporate blogBig Data*Machine learning*

Летом этого года на конференции SIGIR проводился Workshop On eCommerce, посвященный прогнозам намерений и рекомендаций. По традиции к воркшопу приурочили небольшое соревнование, посвященное использованию последних наработок в области RecSys. Мы в Tinkoff.AI решили немного развеяться и поучаствовать.

Если вам интересно, как решали поставленные задачи мы и другие участники, добро пожаловать под кат.

Читать далее

+16

1