Pull to refresh
40
0
Вадим Сафронов @Safronov

data artist

Send message

Как мы решали задачу оптимизации доставки грузов с использованием численных методов на примере метода имитации отжига

Level of difficultyMedium
Reading time7 min
Views3.2K

В статье хотим поделиться своим опытом реализации алгоритма решения задачи маршрутизации на основе метода имитации отжига в Norbit CDS – умной системе управления доставкой. 

Проанализировав материалы, можно обнаружить различные предлагаемые способы решения VRP-задач (Vehicle Routing Problem). Главная их цель – планирование маршрутов для транспортных средств оптимальным способом. Основными критериями, как всегда, остаются наикратчайший путь для транспортного средства и доставка услуг во все заданные точки. В рабочем месте логиста Norbit CDS задача не отличается. 

Создавая свой алгоритм оптимизации построения маршрутов доставки, мы исходили из следующих входных данных: количество транспортных средств, число заявок для распределения с учетом их габаритов и окон желаемого времени доставки. Для реализации был выбран метод отжига.

Читать далее
Total votes 24: ↑24 and ↓0+24
Comments3

Шпаргалка для алгособеса 2 — графовые и строковые алгоритмы

Level of difficultyMedium
Reading time22 min
Views19K

Привет, Хабр!

В наше неспокойное время, когда сфера AI стремительно движется вперёд, хочется немного стабильности и уверенности в завтрашнем дне. Как это связано с темой статьи?

Самым прямым образом — алгоритмы прокачивают умение системно мыслить, искать нестандартные пути решения; человека, у которого эти скиллы на высоте, вряд ли заменит ИИ. Так что, тратя бесценное время на алгоритмы, вы занимаетесь очень полезным делом, расслабьтесь и получайте удовольствие) В качестве бонуса к прокачиванию серого вещества вы получите сверхспособность пройти любой алгособес в FAANG и удовлетворить любые потребности пирамиды Маслоу — довольно приятно)

В этой статье мы разберём графовые алгоритмы типо DFS, Флойда–Уоршелла и строковые наподобие Ахо-Корасик.

Читать далее
Total votes 41: ↑39 and ↓2+37
Comments35

Немного паранойи: весёлые огромные уязвимости, которые порождают ChatGPT и LLM-модели

Reading time8 min
Views7.1K
LLM сейчас встраивают практически везде. Рождается очень много возможностей для атак.

Уже появились атаки на дозаполнение кода. Это вообще самое смешное: код записывается в публичный репозиторий, модели считывают его при обучении, запоминают, при подсказках он всплывает, в итоге могут не проверить и исполнить где-то. Это отравление обучающей выборки.

image
MS говорил, что обучал только на публичных данных репозитория. Это пример того, как в автокомплит Copilot попал кусок кода, содержащий ссылку на тикет в Jira компании Озон, но их много раз поймали на утечках приватных данных. Некоторые пытались судиться уже, по этому поводу, но есть некоторые сомнения…

Вот ещё пример. Поскольку вывод модели является частью промпта, при каждой итерации в текст, который надо перевести, можно вставить инструкции для модели. И она будет им следовать. Так что если вы переводите что-то со словами «Игнорируй все предыдущие инструкции и сделай вот это», возможно, вас ждёт сюрприз. Практическое применение такое: белый по белому текст в PDF с резюме, и если это резюме оценивает LLM-модель (а это уже норма), то ставит ему высший балл.

Я уже видел письма для корпоративных LLM-разбирателей почты, которые содержали инструкции на перехват модели и спам-рассылку по всему списку контактов, либо поиск писем с паролями и форвард по указанному адресу. Прекрасное применение.

Есть инструкции для корпоративных ботов, как ругать свою продукцию. Есть описания товаров, которые поднимают товары в выдачах торговых площадок, формируемых по отзывам на основе анализа LLM-моделями. Есть непрямые атаки для корпоративных ботов, позволяющие выдёргивать информацию обо всех сотрудниках.
Читать дальше →
Total votes 25: ↑23 and ↓2+21
Comments7

Ностальгические игры: Fallout 2 (часть 2)

Level of difficultyEasy
Reading time9 min
Views13K

Когда я был школьником, Fallout 2 ужасно поражал меня своей свободой. Ни в одном проекте ни тогда, ни сейчас я не видел такого контентного наполнения. На протяжении многих лет возвращаясь к игре, всё больше убеждался в том, насколько она богата геймплейными возможностями, секретами и заданиями. С каждым новым погружением в этот постапокалиптический мир я обязательно узнавал что-то новое, чего раньше не находил, не встречал или не пробовал сделать. Даже сейчас во время игры перед написанием этой статьи сделал для себя несколько пусть и маленьких, но открытий! Во многом из-за этого Fallout 2 и любят. По той же причине и спустя 25 лет игру помнят и почитают, а фанаты продолжают разрабатывать новые патчи и моды!

В первой части статьи я коснулся сюжета и лора игры, а также ролевой системы. Сегодня хочу подробнее остановиться на геймплее и других, не менее важных аспектах.

Читать далее
Total votes 70: ↑68 and ↓2+66
Comments36

Визуализация весов в машинном обучении на примере алгоритма Random Forest и Decision Tree

Reading time8 min
Views8.3K

Привет, Хабр!

Меня зовут Александр Серов, я Data Scientist и являюсь участником профессионального сообщества NTA.  Сегодня загляну «под капот» алгоритмов, использующих в своей основе деревья решений. Один из самых мощных алгоритмов контролируемого машинного обучения на сегодня – градиентный бустинг (Catboost, XBGR), построен на столь казалось легком и базовом элементе, как бинарное дерево, или же дерево решений. Оно является строительным блоком данного алгоритма, в данном случае можно привести притчу про веник и его части, но в этом случае, иногда даже одно дерево решений способно выдать неплохой результат в решениях задач классификации и регрессии. Сегодня я рассмотрю его подробнее, на примере Decision Tree и Random Forest из библиотеки sklearn, а также визуализирую работу.

Читать далее
Total votes 6: ↑6 and ↓0+6
Comments13

Интерпретируемость ML-моделей: от инструментов до потребностей пользователя

Reading time7 min
Views3.9K

Интерпретируемость ML-моделей - очень широкая концепция. То, насколько интерпретация хороша, зависит не только от инструментов и отчетов, которые мы предоставляем пользователю, но и от потребностей пользователя и особенностей задач, которые он решает.

В статье разберемся, как эффективно работать с интерпретируемостью ML-моделей в зависимости от потребностей ключевых пользователей.

Читать далее
Total votes 22: ↑22 and ↓0+22
Comments5

Не-пирамида Маслоу

Reading time34 min
Views16K

Недавние исследования нейробиологов в области толерантности человеческого организма к дофамину реабилитируют/легитимизируют представления Авраама Маслоу о мотивации человека. 

К моему разочарованию, русскоязычные научные публикации, науч. поп материалы и пособия по маркетингу трактуют работу Маслоу, искажая суть настолько, что порой противоречат оригиналу. 

Складывается впечатление, что оригинальную публикацию автора, как в поговорке, «не читал, но осуждаю». И действительно, я не смог найти полного перевода статьи. Что в соавторстве со своим студентом Афанасьевой Екатериной и спешим исправить. Ибо предстоит еще много работы по переоценке традиционных ценностей в современном обществе и приданию ей научного базиса.

По этой причине данная публикация почти дословный перевод, без сокращений, личностных трактовок и интерпретаций.

Читать далее
Total votes 30: ↑27 and ↓3+24
Comments53

Консалтинг в России — взлёт и перерождение одной из редких профессий, где можно зарабатывать больше айтишников

Reading time17 min
Views34K

Долгое время в России было две индустрии, куда стремились попасть почти все лучшие выпускники главных бизнес-вузов страны. Это инвестиционный банкинг (про него в другой раз) и топовый управленческий консалтинг. Консалтинговые фирмы успешно наращивали объемы проданных проектов и расширяли офисы. Но этот год в России переживут далеко не все из них. Разбираемся, каким был российский консалтинг до 2022 г., и какой он будет теперь.

Читать далее
Total votes 68: ↑62 and ↓6+56
Comments55

Не трогайте разработчиков. Отстаньте. Просто не беспокойте

Reading time13 min
Views74K


Всем привет! Меня зовут Ян, я руководитель разработки Департамента ИТ инвестиционного бизнеса Газпромбанка. Совершенно неожиданно я занял первое место на конференции Highload++ с докладом про то, как организована работа в наших командах разработки.

Очень коротко: мы пересобрали процесс разработки как таковой, постаравшись выкинуть оттуда явно кривые решения. Получилось следующее: каждые две недели в команде есть дежурный, который отвечает вообще за все внешние коммуникации. То есть он не разрабатывает, а ловит всех входящих в мессенджерах и в личке и не даёт им пробиться до самой команды. Естественно, этот дежурный знает всё происходящее и может ответить на любой вопрос, а это требует и понимания архитектуры, и знания интерфейсов, и понимания особенностей кода коллег.

В результате из простой задачи «не трогайте разработчиков» получилось сделать и очень правильное обучение (если вы дежурите, то у вас нет шансов не разбираться во всех процессах команды), и снижение техдолга (дежурный не берёт таски по фичам на спринты, но может заниматься документацией и всякими вещами в наведении порядка, до чего обычно не доходят руки), и много чего ещё. Сначала казалось, что за это мы платим снижением эффективности команды на 8–10 % (ведь мы выключаем дежурного из разработки), но на деле оказалось, что эффективность даже растёт. Есть ряд вещей, которые очень поменялись и в управлении такими командами в лучшую сторону.

Естественно, такой подход имеет кучу подводных камней и подходит далеко не всем и не каждому типу команд.

Сейчас расскажу про практический опыт.
Читать дальше →
Total votes 190: ↑172 and ↓18+154
Comments79

Никогда не приоритизировали, а тут приспичило: как появился Dodo Score

Reading time6 min
Views2.8K

В статье расскажем, что такое Dodo Score и почему у нас появилась потребность в сквозной приоритизации задач. Будем рады, если наш опыт поможет вам прокачать скилл делать только самое ценное или приведёт к мысли, как улучшить тот фреймворк, который вы используете.

Читать далее
Total votes 35: ↑20 and ↓15+5
Comments0

Случайность на страже криптографии: как Cloudflare использует лава-лампы, маятники и распад урана для шифрования трафика

Reading time5 min
Views11K

Траектория движения элементов хаотического маятника — повторений нет

Случайные числа играют важнейшую роль в криптографии. Например, алгоритмы формирования электронно-цифровых подписей используют именно случайные числа для формирования ключей. И требования к этим числам весьма строгие, поскольку надежность системы шифрования данных напрямую от них зависит. К сожалению, реально случайные числа получить сложно, хотя и возможно, поэтому обычно для решения этой задачи используются генераторы псевдослучайных чисел. Так называют алгоритм, который генерирует последовательность чисел элементы которой независимы друг от друга и подчиняются заданному распределению.

Но есть и компании, которые решают задачу иначе — они используют генераторы true-случайных чисел. Это вовсе не компьютерные программы, а необычные устройства или даже так называемые лавовые лампы. Именно их использует компания Cloudflare — примерно с 2017 года. В течение пяти лет надежность шифрования трафика, который проходит через инфраструктуру компании, зависит от ламп, а также маятников и процесса радиоактивного распада урана. Подробности — под катом.
Читать дальше →
Total votes 57: ↑56 and ↓1+55
Comments29

Способы хранения графа в памяти компьютера

Reading time4 min
Views28K

В предыдущей статье мы познакомились с терминами и определениями теории графов. В этой же статье обсудим различные способы представления графа в памяти компьютера для его обработки. Покажем, какие структуры данных можно использовать, а также проговорим преимущества и недостатки каждого способа.

Читать далее
Total votes 48: ↑45 and ↓3+42
Comments19

Как правильно отвечать на вопрос “Какие у вас зарплатные ожидания?” на рынке США

Reading time6 min
Views65K

На первом интервью чаще всего рекрутер может задать вопрос о зарплатных ожиданиях кандидата — “What Are Your Salary Expectations?”. Я принимаю участие в найме продукт-менеджеров, дизайнеров и инженеров и хочу поделиться с вами своим опытом как правильно отвечать на этот вопрос применительно к рынку США.

Я не рекомендую раскрывать никаких цифр как на ранней стадии процесса интервью, так и во время раунда интервью. В этой статье я расскажу почему именно такая стратегия является наиболее выигрышной.

Читать далее
Total votes 96: ↑85 and ↓11+74
Comments161

Оконные функции SQL простым языком с примерами

Reading time4 min
Views435K

Привет всем!

Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свое путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания. 

P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи))) 

Для примеров будем использовать небольшую таблицу, которая показывает оценки учеников по разным предметам. В БД табличка выглядит следующим образом

Читать далее
Total votes 64: ↑61 and ↓3+58
Comments15

Optimum Transformers: как экономить от 20к$ в год на NLP

Reading time5 min
Views3.6K

Недавно компания 🤗 Hugging Face (стартап, стоящий за библиотекой transformers) выпустила новый продукт под названием "Infinity". Он описывается как сервер для выхода в “production”. Публичная демонстрация доступна на YouTube (ниже приведены скриншоты с таймингами и настройками, использованными во время демонстрации). Все основано на обещании, что продукт может выполнять работу с NLP с задержкой в 1 миллисекунду на графическом процессоре. По словам ведущего демонстрации, сервер Hugging Face Infinity стоит не менее 20.000$ в год за одну модель, развернутую на одной машине (общедоступная информация о ценовой масштабируемости отсутствует).

Мне стало любопытно немного покопаться и проверить, возможно ли достичь таких показателей? Спойлер: да, возможно, и с помощью этой статьи его легко воспроизвести и адаптировать к вашим РЕАЛЬНЫМ проектам.

А для тех, кому лень все это читать и хочется все получить из коробки... Ссылка на GitHub. Поставьте зведу сразу, а потом читайте 🤗

Читать далее
Total votes 14: ↑13 and ↓1+12
Comments6

Как мы придумали свою диаграмму Ганта

Reading time15 min
Views14K

В управлении проектами часто возникает вопрос: как лучше спланировать последовательность работ разных отделов, убедиться в отсутствии оверкапа по капасити, да и вообще понять критический путь будущего релиза? Желательно ещё и визуализировать все эти планы. Ко всему этому, часто бывает, что нужно внезапно и быстро переработать утвержденное ранее.

К нашему счастью, эту проблему решили за нас еще в конце XIX века, придумав диаграмму Ганта. Затем придумали компьютеры, а после — Интернет. И, казалось бы, какие тут еще могут остаться проблемы, но не всё так просто — ведь нельзя просто создать универсальный инструмент, который удовлетворял бы нуждам всех. 

Сегодня я расскажу о том, как мы перебрали множество вариантов диаграммы Ганта, но по итогу пришли к тому, чтобы разработать собственный.

Читать далее
Total votes 28: ↑27 and ↓1+26
Comments9

Интерпретация моделей и диагностика сдвига данных: LIME, SHAP и Shapley Flow

Reading time38 min
Views29K

В этом обзоре мы рассмотрим, как методы LIME и SHAP позволяют объяснять предсказания моделей машинного обучения, выявлять проблемы сдвига и утечки данных, осуществлять мониторинг работы модели в production и искать группы примеров, предсказания на которых объясняются схожим образом.

Также поговорим о проблемах метода SHAP и его дальнейшем развитии в виде метода Shapley Flow, объединяющего интерпретацию модели и многообразия данных.

Читать далее
Total votes 36: ↑35 and ↓1+34
Comments1

Графовый анализ — обзор и области применения

Reading time15 min
Views22K

Всем привет!

Мы - команда GlowByte Advanced Analytics. Сегодня мы расскажем об одном из перспективных направлений Data Science - графовом анализе, и покажем, какие задачи можно решать с его помощью.

Цель статьи - показать многообразие бизнес-областей, в которых можно применять графовые подходы.

Читать далее
Total votes 7: ↑6 and ↓1+5
Comments5

Почему не плавится ковш и как мы учимся следить за жизнью футеровок

Reading time9 min
Views38K
Привет, Хабр!

В одной из статей нашего блога мой коллега упоминал, что температура расплава в стальковше достигает ~1600 градусов Цельсия. В комментариях были вопросы, почему в таком случае сами ковши, которые, конечно, тоже сделаны из стали, не расплавляются. Отвечаю — все дело в футеровке – многослойной защите внутри ковша. На этом фото — одна из стадий ее изготовления.



Для полноты картины напомню, с чем сталкивается футеровка в течение своей короткой, но яркой жизни:



Под катом расскажу о самой футеровке и о новой системе учета всех ее многочисленных компонентов. Для нас это дело суперважное, ведь одна такая футеровка стоит примерно как моя квартира.
Читать дальше →
Total votes 212: ↑211 and ↓1+210
Comments124

Как мы в SIGIR-соревновании участвовали

Reading time10 min
Views2.5K

Летом этого года на конференции SIGIR проводился Workshop On eCommerce, посвященный прогнозам намерений и рекомендаций. По традиции к воркшопу приурочили небольшое соревнование, посвященное использованию последних наработок в области RecSys. Мы в Tinkoff.AI решили немного развеяться и поучаствовать.

Если вам интересно, как решали поставленные задачи мы и другие участники, добро пожаловать под кат.

Читать далее
Total votes 16: ↑16 and ↓0+16
Comments0
1

Information

Rating
Does not participate
Location
Lisbon, Lisboa, Португалия
Works in
Date of birth
Registered
Activity