skleg Dec 22 2022 at 20:10

Война ML фреймворков, русский стартап потеснит запад

7 min

11K

Python*Machine learning*Start-up developmentDevOps*Artificial Intelligence

+18

Comments 32

bazden Dec 22 2022 at 20:22

Буду Вам очень признателен, если расставите отступы к примерах кода :)

skleg Dec 22 2022 at 21:02

У меня они были, но странным образом исчезли :(

MentalBlood Dec 23 2022 at 10:35

Можно так (Fenced Code Block):

class MyExecutor(FastAPIExecutor):
    def run(self, my_image_path: str):
        cv2.imread
        …
        return result

skleg Dec 23 2022 at 12:12

Спасибо 🙏

TimID Dec 22 2022 at 20:27

Ну когда же "мир науки" повернется к простым трудягам-разработчиком лицом и перестанет клепать научноориентированные инструменты?
Может стоит уже подумать о тех людях, кому нужно внедрять нейросетевые технологии в свои продукты, которые написаны не на Python'е? Тем более если мы собираемся "догнать и перегнать" весь мир...

Ales_Nim Dec 22 2022 at 21:34

Для такого есть ONNX рантайм. Обучаете модель, конвертируйте ее и потом запускаете практически на любом другом языке.

skleg Dec 22 2022 at 21:35

да, можно хоть куда уже, Python отлично подходит для разных экспериментов, систем без больших нагрузок, хотя в целом и там можно поколдовать

whoisking Dec 22 2022 at 20:35

Много вопросов к статье и коду ... https://github.com/TatraDev/pipertool/blob/main/piper/services/ocr_data.jpg

skleg Dec 22 2022 at 21:02

Спасибо, убрал

-1

whoisking Dec 22 2022 at 21:49

Вопросов меньше не становится) https://github.com/TatraDev/pipertool/blob/main/main.py

Вы это на хабре продать пытаетесь?) Извиняюсь что без конструктива, но такие громкие заголовки и код проекта подсказывают, что конструктив будет скорее всего лишь тратой времени(

skleg Dec 22 2022 at 21:54

Действительно неконструктивно звучит без конкретного код ревью )
Тяжело читать мысли, я видел этот main файл
Заголовок же свое дело сделал,
Я верю в успех нашей концепции в Piper.
C радостью ждем Ваш ревью или PR

Ktator Dec 23 2022 at 00:50

Зачем вам такая куча закомментированного кода?
Добавьте pylint, что ли...

Это то, что можно сказать за пару минут обзора кода.

skleg Dec 23 2022 at 02:21

Этот файл еще не растащили в тесты, пережиток прошлого, когда перенесём его вообще не будет. Я придерживаюсь подхода, при котором сначала важный функционал, потом рефакторинг. Линтер конечно добавим когда-то, документацию понятную и пр. Без этих вещей мало кто будет пользоваться конечно. Но также никто не будет пользоваться, если не будет пользы и смысла, пока на нем концентрируемся

skleg Dec 23 2022 at 09:05

И у кого пригорело от этих файлов - приходите контрибьютить. У нас весело - кодогенерации, кишки питона, рефакторинг видимо еще теперь !

-1

maeris Dec 22 2022 at 21:35

Для тех, кому интересно, что там было.

skleg Dec 22 2022 at 21:45

Рандомный файлик из интернетов, нужен был реальный документ.
Мы уже поменяли на тестовый другой, в папке tests/ocr

ratatosk Dec 22 2022 at 22:28

Pied Piper?

skleg Dec 22 2022 at 22:33

Все совпадения случайны) Аналогия не с дудочником, а с некой трубой которую можно из частей собрать

connected201 Dec 23 2022 at 00:45

В заголовке чувствуется хейт к западу.

skleg Dec 23 2022 at 02:24

Нет никакого хейта, так получилось, что наш проект из России, где по сути мало подобных конкурентов, просто это хороший вызов, быть на уровне таких крутых проектов 👍🏻

AASelivanov Dec 23 2022 at 02:31

Ой, Моська...
У меня такой вопрос: а 🤗 знает, что происходит,что его теснят? Просто картинка в начале выглядит ну очень уж претенциозно.

Вообще, к сожалению, повествование местами сумбурное, как будто мешаются сущности разных классов.

Фактически одна мысль повторяется: piper – фреймворк на python, который позволяет из блоков собрать ml-решение и задеплоить его, при этом интегрируя с разными инструментами. Так? Если да, то здорово было бы увидеть реальный пример, как разработчик нас проведёт за ручку по процессу создания какого-нибудь небольшого пайплайна.

Часто по тексту встречается "на данный момент нет, но планируем добавить". Хотелось бы видеть больший акцент на том, что есть.
> На данный момент...у нас добавлены FaceRecognition, TesseractOCR, Milvus. ..
Можно ли ознакомиться с полным списком? И что используется для Face Recognition?

> Цель нашего фреймворка в ускорении ml разработки
Тогда нужна методика оценки этой скорости.
> При решение с Piper сборка производится на 90% за счет уже подготовленных модулей из библиотеки фреймворка
А если модуля нет?
А если тип данных отличается от изначального в модуле?
А если блок даёт низкую эффективность? Предусмотрен подбор гиперпараметров, иной AutoML?
Как вообще этот подход соотносится с no silver bullet theorem?

Генез оценок времени in-house непонятен.
Почему изучение задачи и подготовка среды в piper займёт в два раза меньше времени?
Почему в piper отсутсьвует этап подготовки данных – он сам чистит, преобразует во входной формат, отбирает фичи и кодирует?

Почему перенос кода в прод оценён именно такими значениями?

Вообще, почему числа именно такие, а не другие, для какойькоманды проводилась оценка, точно ли результаты аналогичны?

В общем пока что у меня больше вопросов, чем ответов, хоть и круто, что вы замахнулись на столь масштабный проект.

skleg Dec 23 2022 at 08:59

Да, лаим на Слона, сомневаюсь что ребята в курсе, вы не оттуда?) мы начали в этом году они лет 7 назад 🫶

Реальные примеры покажем в туториалах, обещаю.

Методика довольно субъективная, я кроме как - дать двум разработчикам н раз делать с Piper таску и без него - не вижу способа. И это тоже не очень точно звучит. Мне кажется не хватит у нас разработчиков и ресурсов набрать достоверную оценку прям.

Если нет модуля - вы добавляете свой. В этом основа фреймворка. Да, действительно, данные в наших проектах еще раз не готовили, так как уже были модули с полностью такой же обработкой данных по аналогии. Так что, тут, вы правы это время никуда не денется и это решительно невозможно как-то автоматически делать полностью. Это уже какой-то сильный ИИ нужен. Но Piper позволит взять сразу взять pandas/spark модуль и тут же заняться подготовкой данных не запариваясь об установке настройке, причем можете даже разными версиями пользоваться в разных участках кода, если нужно или разной конфигурацией Спарк. Тут выигрыш во времени мизерный, но по опыту знаю, что если что-то сработало в ноутбуках вообще не факт, что оно просто соберется в простом микросервисе. Так что выигрыш после это наш больший фокус.

Я хочу добавить AutoML и модули для генерации автоматических фичей, плюс будут модули разряда «забрать весь текст с PDF». С такими закрутками на зиму можно немного и препроцесинг данных ускорить, но сами мы его конечно не напишем.

Спасибо за интересные вопросы 👍🏻 пишите еще

george3 Dec 23 2022 at 20:58

Мне как ML прогеру мало интересны ваши компоненты, свои девать некуда и переучиваться на чужое как-то лень. за huggingface уже не угонитесь. Но развертывание ML-систем с динамическим автобалансом - это нужно. Сейчас я не знаю системы, которая взяв бы набор согласованных по портам HTTP-сервисов (т е всю кучу можно запустить на одном компе и будет по портам все прокидываться), начала бы их реплицировать-балансировать в зависимости от нагрузки на всю систему и прожорливость каждого сервиса в частности. Понимаю что такую систему можно написать на кубертенес и это избавило тыщи прогеров от необходимости заниматься руками этим гемором(правда и тыщи девопсов пойдут петь песни) может стоит копать сюда? )

evoq Dec 23 2022 at 07:14

Планируется по смыслу что-то похожее на урезанную версию Dataiku как понял?

skleg Dec 23 2022 at 09:11

По описанию звучит интересно, не слышал о них. Но похоже на baseten и думаю еще можно поискать пару проектов. Пока фундаментальная разница, что у нас опенсорс , а платно мы только доп модули будем продавать и облако для развертывания пайпера.

Пока не увидел ни у кого что-то подобного. И в таких проектах часто пытаются полностью подсадить на их парадигму, чтоб извлечь побольше денег, у нас нет задачи затягивать в Пайпер через ограничения, наоборот через количество модулей, которых у подобных конкурентов часто 3 штуки крестом.

evoq Dec 23 2022 at 14:18

очень странно разрабатывая ML-платформу не знать про топовые продукты) они стоят больше миллиарда уже, инвестировал сам гугл. продукт просто суперкрутой - я не будучи DSником легко разобрался в основах и смог сделать пайплайн за пару вечеров.

joc Dec 23 2022 at 15:50

Очень круто то, что вы делаете свой фреймфорк, значить есть вижен и планы на ML. Вопрос, я так понимаю, наиболее близкий фреймфорк к Piper это Hugginface? Ok, допустим, у Hugginface на их страничке сразу есть NLP примеры - вопрос, есть ли примеры на Piper, который можно развернуть в пару кликов?

skleg Dec 23 2022 at 15:53

Пока что можно взять сделать свой экзекьютор просто по аналогии с TestMessageAdder, тогда он развернется как FastApi сервис внутри докера

https://github.com/TatraDev/pipertool/blob/main/tests/base_test.py

joc Jan 7 2023 at 16:07

Ок, попробуем.

rasperepodvipodvert Dec 24 2022 at 11:42

Что-то я почитал и пришёл к выводу, что вы собрали что-то своё на python дабы помочь людям и назвали это опенсурсом, и этой статьёй просите сходить, разобраться в вашем коде и поконтрибьютить...??? Вместо того, чтобы сказать, вот у нас классная дока, совсем простая, чтобы использовать ML.

Вот если бы вы сказали, что мы собрали все известные опенсурс решения, докрутили чуть чуть воркфлоу и им можно теперь вот так пользоваться, просто кладёте это сюда, это сюда, запускаете docker compose up и у вас все работает. Хотите в облака, вот вам терраформ, хотите в к8s нате это... Мне кажется это было бы действительно вкладом, а так взять без разбирательств и написать свой инструмент и потом ходить по граблям тех кто начал 7 лет назад, и догонять их в этом, много ума не надо...

0Bannon Dec 26 2022 at 10:43

Молодцы, продолжайте в том же духе.

moldwebs Dec 30 2022 at 13:55

Gradio ?

Show the best of all time