Олег @iHun

Анализ данных

Profile Publications 1Comments 145Bookmarks 196

Nastaa Apr 25 2023 at 17:47

Алгоритм, сделавший ChatGPT таким «человечным» — Reinforcement Learning from Human Feedback

8 min

12K

Data Mining*Algorithms*Machine learning*Artificial IntelligenceThe future is here

ChatGPT генерирует разнообразный и привлекательный для человека текст. Но что делает текст «хорошим»? Это субъективно и зависит от контекста. Например, если вы попросите сочинить историю, нужен творческий подход. Если вы запрашиваете информацию, то хотите, чтобы она была правдивой. А если вы просите написать код, то ожидаете, что он будет исполняемым.

Вы наверняка слышали о том, что OpenAI привлекали сотрудников из Африки для помощи в разметке токсичности их ассистента. Менее известен факт найма реальных разработчиков, чтобы подготовить данные с пояснениями к коду на человечском языке.

Именно данные с фидбеком от людей позволили дообучить их языковую модель и сделать продукт таким «человечным».

Разберем алгоритм, который позволяет согласовать модель машинного обучения со сложными человеческими ценностями.

+14

tongohiti Feb 23 2019 at 19:48

На пальцах: ассоциированные типы в Rust и в чём их отличие от аргументов типов

5 min

9.4K

Programming*Rust*

From sandbox

Для чего в Rust есть ассоциированные типы (associated types), и в чём их отличие от аргументов типов (type arguments aka generics), ведь они так похожи? Разве недостаточно только последних, как во всех нормальных языках? У тех, кто только начинает изучать Rust, а особенно у людей, пришедших из других языков ("Это же дженерики!" — скажет умудрённый годами джавист), такой вопрос возникает регулярно. Давайте разбираться.

TL;DR Первые контролирует вызываемый код, вторые — вызывающий.

Научите меня плохому!

+49

kitaisky Oct 12 2022 at 09:43

Дистилляция BERT для задачи классификации

17 min

2.9K

Machine learning*Artificial IntelligenceNatural Language Processing*

Tutorial

Большие языковые модели это конечно хорошо, но иногда требуется использовать что-то маленькое и быстрое.

LENNUF Jun 10 2021 at 11:22

Краткосрочные и долгосрочные персональные рекомендации

4 min

1.5K

Development for e-commerce*E-commerce management*

Recovery Mode

Автор: Роман Зыков, эксперт в области баз данных, независимый AI-консультант LENNUF.ru

Когда мы говорим про персональные рекомендации, мы часто забываем, что они бывают разного типа. В данной статье я рассмотрю основные отличия долгосрочных (long term) и краткосрочных (short term) рекомендаций.

Персональные рекомендации означают, что мы рекомендуем что-то пользователю с учетом его личных интересов учитывая его сигналы. Сами сигналы бывают двух видов - явные (explicit), когда пользователь говорит, что ему нравится (лайк, оценка к песне, отзыв на товар); и неявные (implicit), когда пользователь совершает какие-то действия (посмотрел товар, послушал песню, что-то поискал), по которым мы не можем однозначно оценить нравится/не нравится что-то пользователю. В первых версиях рекомендательных систем было принято пользоваться только явными данными, это видно и по литературе, и по научным статьям того времени. Неявных данных обычно значительно больше - вспомните, сколько товаров вы посмотрели (неявные сигналы) перед покупкой, а потом по скольким товарам вы оставили отзывы (явные сигналы)? Поэтому в последнее десятилетие пошел сдвиг в сторону неявных рекомендаций. Даже представители Netflix 5 лет назад на конференции RecSys объявили о важности таких данных. Как это мы можем заметить? Например, рекомендации на youtube постоянно подстраиваются по те ролики, которые вы смотрели, и под те ролики, которые вы оценили лайками. То же самое делают рекомендательные системы в стриминговых музыкальных сервисов, социальных сетей и интернет-магазинов.

zetyquickly Jan 24 2022 at 15:14

Алгоритм Дейкстры. Разбор Задач

7 min

61K

Entertaining tasksPython*Algorithms*OTUS corporate blog

Поиск оптимального пути в графе. Такая задача встречается довольно часто и в повседневной жизни, и в мире технологий. Справиться с такими вызовами помогает подход, который должен быть в арсенале каждого программиста — алгоритм Дейкстры.

Если вы хотите найти ответить на вопросы, чем этот алгоритм лучше BFS (поиска в ширину), при каких условиях алгоритм применим, и какие теоретические и практические задачи можно с его помощью решать, читайте далее.

Читать дальше →

+14

not_bad Jan 12 2022 at 18:41

Мониторинг веб-приложения на Rust с использованием Prometheus и Grafana

13 min

12K

System administration*Data visualization*Rust*DevOps*

Tutorial

В статье показано как настроить мониторинг веб-приложения на Rust. Приложение выставляет наружу Prometheus метрики, которые визуализируются с помощью Grafana. Мониторинг осуществляется для проекта mongodb-redis demo, детально рассмотренного здесь. В итоге получена следующая архитектура:

architecture

Читать дальше →

+21

X5Tech Dec 17 2021 at 17:55

Стратификация. Как разбиение выборки повышает чувствительность A/B теста

15 min

30K

Python*Mathematics*Statistics in ITX5 Tech corporate blog

Всем привет! На связи команда ad-hoc аналитики X5 Tech.

Сегодня подробно обсудим применение стратификации для повышения чувствительности оценки AB экспериментов.

nishmametev Aug 31 2021 at 13:00

Эксперименты в Ситимобил. Эпизод 2: Атака тестов на Switchback

10 min

5.3K

Mathematics*Machine learning*Ситимобил corporate blog

Всем привет! На линию выходит команда динамического ценообразования Маркетплейса СитиМобил.

В прошлый раз мы начали вести длинный рассказ о том, как правильно проводить эксперименты в многосторонних маркетплейсах. Мы рассуждали о смысле происходящего; о предпосылках, почему вообще стоит задуматься над этой темой, и почему эксперименты не классическими рандомизированными подходами едины.

Сегодня мы расскажем о практических шагах и ответим на главные, волнующие всех экспериментаторов вопросы: какими статистическими методами можно проверить switchback-тест и как выбрать подходящий.

+10

not_bad Jul 21 2021 at 13:20

Начало работы с MongoDB и Redis на Rust

13 min

11K

NoSQL*MongoDB*Database Administration*Rust*

Tutorial

В этой статье будет показано как создать Rust бэкэнд, который использует MongoDB, документо-ориентированную БД, для хранения данных и Redis для кэширования, ограничения количества HTTP запросов и нотификаций пользователя. Для большей наглядности созданное приложение также будет предоставлять REST API. В итоге будет получена следующая архитектура:

architecture

MongoDB является хранилищем, в то время как Redis используется для следующего:

кэш (включая изображения)
ограничение количества HTTP запросов
нотификации с использованием паттерна publish-subscribe

Читать дальше →

+12

lelyakuznetsova Aug 19 2021 at 16:55

Эффективный поиск XSS-уязвимостей

21 min

38K

Information Security*JavaScript*JUG Ru Group corporate blogWeb services testing*Conferences

Про XSS-уязвимости известно давным-давно — казалось бы, нужен ли миру ещё один материал о них? Но когда Иван Румак, занимающийся тестированием безопасности, поделился методологией их поиска на нашей конференции Heisenbug, реакция зрителей оказалась очень положительной.

И спустя два года у этого доклада по-прежнему растут просмотры и лайки, это один из самых востребованных материалов Heisenbug. Поэтому теперь мы решили, что многим будет полезна текстовая версия, и сделали ее для Хабра.

Под катом — и текст, и видео. Далее повествование идет от лица Ивана.

+23

NowanIlfideme Aug 17 2021 at 09:45

Структура + предположения > ML? Моделирование продаж байесовскими методами

17 min

5.1K

Python*EPAM corporate blogBig Data*Machine learning*Sales management*

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.

Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок.

stabuev Feb 11 2020 at 20:07

Рекуррентные нейронные сети (RNN) с Keras

11 min

77K

Python*Big Data*Machine learning*Artificial IntelligenceTensorFlow*

Tutorial

Translation

Перевод руководства по рекуррентным нейросетям с сайта Tensorflow.org. В материале рассматриваются как встроенные возможности Keras/Tensorflow 2.0 по быстрому построению сеток, так и возможности кастомизации слоев и ячеек. Также рассматриваются случаи и ограничения использования ядра CuDNN позволяющего ускорить процесс обучения нейросети.

Читать дальше →

+14

skillfactory_school Oct 21 2020 at 15:13

Fastcore — недооцененная, но полезная библиотека Python

10 min

10K

Open source*Python*Programming*Skillfactory corporate blogLifehacks for geeks

Tutorial

Translation

Недавно я начал оттачивать владение языком программирования Python. Я хотел изучить продвинутые паттерны, идиомы и методы программирования. Начал я с чтения книг по продвинутому Python, но информация, похоже, не откладывалась в голове без применения навыков. Хотелось иметь возможность задавать вопросы эксперту, пока учусь, а такую возможность трудно найти! Тогда ко мне и пришла идея: что, если я найду проект с открытым и достаточно продвинутым кодом и напишу документацию и тесты? Я сделал ставку, что это заставит меня изучать все очень глубоко, а поддерживающие проект люди оценит мою работу и будут готовы ответить на мои вопросы.

Возможности fascore

+20

Solgo Mar 20 2021 at 16:23

Покупка загородной недвижимости, выбор места

6 min

33K

HealthEcologyRemote work

Более 10 лет назад, мне как и многим, захотелось вырваться из «душного» города и начать жить на природе, в своем загородном доме. Как и большинство таких людей, я понятия не имел, с какими трудностями мне придется столкнуться. В данном цикле статей я хочу поделиться своим опытом проживания в загородном доме и помочь людям подготовиться к тем трудностям, которые могут возникнуть. А самое главное, помочь более трезво и расчетливо подойти к выбору объекта для покупки.

И так, начнем →

+23

116

Newchronik Nov 10 2020 at 15:01

Умная нормализация данных

8 min

94K

Python*Algorithms*Machine learning*Artificial IntelligenceData Engineering*

From sandbox

Эта статья появилась по нескольким причинам.

Во-первых, в подавляющем большинстве книг, интернет-ресурсов и уроков по Data Science нюансы, изъяны разных типов нормализации данных и их причины либо не рассматриваются вообще, либо упоминаются лишь мельком и без раскрытия сути.

Во-вторых, имеет место «слепое» использование, например, стандартизации для наборов с большим количеством признаков — “чтобы для всех одинаково”. Особенно у новичков (сам был таким же). На первый взгляд ничего страшного. Но при детальном рассмотрении может выясниться, что какие-то признаки были неосознанно поставлены в привилегированное положение и стали влиять на результат значительно сильнее, чем должны.

И, в-третьих, мне всегда хотелось получить универсальный метод учитывающий проблемные места.

Читать дальше →

+19

oldadmin Sep 1 2020 at 12:12

Вред хранимых процедур

3 min

52K

Website development*PostgreSQL*Programming*SQL*RUVDS.com corporate blog

В чат подкаста «Цинковый прод» скинули статью о том, как некие ребята перенесли всю бизнес-логику в хранимые процедуры на языке pl/pgsql. И так как у статьи было много плюсов, то значит, есть люди, а может быть, их даже большинство, которые положительно восприняли такой рефакторинг.

Я не буду растекаться мыслью по древу, а сразу накидаю кучку минусов использования хранимых процедур.

Читать дальше →

+105

535

Niccolum Sep 1 2020 at 21:22

Функциональное программирование в Python. Генераторы, как питонячий декларативный стиль

19 min

27K

Python*Functional Programming*

Общее введение
ФП
- Введение в ФП
- Основные принципы ФП
- Основные термины
- Встроенное ФП поведение в Python
- Библиотека Xoltar Toolkit
- Библиотека returns
- Литература
Генераторы
- Введение в итераторы
- Введение в генераторы
- Генераторы vs итераторы
- Генераторы как пайплайн
- Концепт yield from
- Маршрутизация данных на генераторах (мультиплексирование, броадкастинг)
- Пример трейсинга генератора
- Стандартные инструменты генераторы
- Выводы
  - Плюсы
  - Минусы
- Литература
Итоги

Общее введение

Читать дальше →

+20

brain_leo Aug 25 2020 at 10:56

Машинное обучение. Нейронные сети (часть 1): Процесс обучения персептрона

6 min

29K

Machine learning*

Заранее хочу отметить, что тот кто знает как обучается персептрон — в этой статье вряд ли найдет что-то новое. Вы можете смело пропускать ее. Почему я решил это написать — я хотел бы написать цикл статей, связанных с нейронными сетями и применением TensorFlow.js, ввиду этого я не мог опустить общие теоретические выдержки. Поэтому прошу отнестись с большим терпением и пониманием к конечной задумке.

При классическом программировании разработчик описывает на конкретном языке программирования определённый жестко заданный набор правил, который был определен на основании его знаний в конкретной предметной области и который в первом приближении описывает процессы, происходящие в человеческом мозге при решении аналогичной задачи.

Например, может быть запрограммирована стратегия игры в крестики-нолики, шахмат и другое (рисунок 1).

Рисунок 1 – Классический подход решения задач

В то время как алгоритмы машинного обучения могут определять набор правил для решения задач без участия разработчика, а только на базе наличия тренировочного набора данных.
Тренировочный набор — это какой-то набор входных данных ассоциированный с набором ожидаемых результатов (ответами, выходными данными). На каждом шаге обучения, модель за счет изменения внутреннего состояния, будет оптимизировать и уменьшать ошибку между фактическим выходным результатом модели и ожидаемым результатом (рисунок 2).

Рисунок 2 – Машинное обучение

Нейронные сети

Долгое время учёные, вдохновляясь процессами происходящими в нашем мозге, пытались сделать реверс-инжиниринг центральной нервной системы и попробовать сымитировать работу человеческого мозга. Благодаря этому родилось целое направление в машинном обучении — нейронные сети.

На рисунке 3 вы можете увидеть сходство между устройством биологического нейрона и математическим представлением нейрона, используемого в машинном обучении.

Читать дальше →

salaxieb Aug 13 2020 at 16:28

Обзор методов создания эмбедингов предложений, Часть1

18 min

11K

Python*Data Mining*Natural Language Processing*

Представте себе, как было бы удобно, написать предложение и найти похожее к нему по смыслу. Для этого нужно уметь векторизовать всё предложение, что может быть очень не тривиальной задачей.

По специфике своей работы, я должен искать похожие запросы в службу поддержки и даже имея достаточно большую разметку, бывает тяжело собрать необходимое количество сообщений подходящих по тематике, но написанных другими словами.

Ниже обзорное исследование на способы векторизации всего предложения и не просто векторизации, а попытка векторизовать предложение с учётом его смысла.

Например две фразы 'эпл лучше самсунг' от 'самсунг лучше эпл', должны быть на противоположном конце по одному из значений вектора, но при этом совпадать по другим.

Можно привести аналогию с картинкой ниже. По шкале от кекса до собаки они находятся на разных концах, а по количеству чёрных точек и цвету объекта на одном.

Читать дальше →

NeverWalkAloner Aug 4 2020 at 07:40

Пишем веб сервис на Python с помощью FastAPI

17 min

110K

Python*Programming*

Знаю, знаю, наверное вы сейчас думаете «что, опять?!».

Да, на Хабре уже неоднократно писали о фреймворке FastAPI. Но я предлагаю рассмотреть этот инструмент немного подробнее и написать API своего собственного мини Хабра без кармы и рейтингов, зато ~~с блэкджеком и~~ с тестами, аутентификацией, миграциями и асинхронной работой с БД.

Читать дальше →

+22

2 3 ...

9 10