Pull to refresh
128
0.5
Александр Казанцев @akdengi

Могу писать, могу не писать, могу игры создавать.

Send message

Контекстное окно да, проблема. Но авторы научной работы тестили все этой зимой и моделей с большим окном контекста не было еще представлено в opensource толком кроме GPT4.

10 последних лет полиграфию создаю в Inkscape/GIMP. Photoshop, Illustrator и InDesign только на последней миле при подготовке макетов в типографию, но тут потому что CMYK, трепинг , оверпринт и прочее больше никак нормально не вывести, а в GIMP/Inkscape спуск полос и полиграфию до ума все не доведут.

Почему не все в продукции Adobe? А мне нравится работать в данных продуктах и возможно, как человек начинавший в полиграфии в 2003 году, я привык к "старой школе" :)

"И на 10 день Чингачгук заметил, что у тюрьмы нет одной стены". Давно уже узнали, обсудили происки злобных русских хакеров и пофиксили это. Лучше бы написали про эксплоит в gitlab, который позволяет аккаунт на левую почту сбросить.

Обычно в аренду берут, чтобы понять необходимые мощности и потом уже решать, выходить на свое "железо" или арендовать, но что и в каких объемах.

В любом случае вы арендуете что-то: или серверное время (причем не факт, что оно вам на 100% достанется и вы не выберете ресурсы) или мощности. VPS или VDS - тут ваш выбор. Первое дешевле и уже в готовой конфигурации, выделенный же 100% гарантирует, что все эти мощности ваши и они тоже идут в готовой конфигурации. Я вот на тесте VPS-ки проверяя маленькие модельки в чатботе на CPU выбрал 500% загрузки процессора. То есть на любом таком ресурсе вы получите одну ноду забитую до отказа страждущими. И ресурсы там получит тот, кто больше заплатил.

По схемам же - вот такое есть: https://fullstackdeeplearning.com/cloud-gpus/dettmers_recs.png

Тут также можно не соглашаться :)

Официально они для рабочих станций, но и 3090/4090 игровые. ... и A4000/5000/6000 почему-то используют для обучения. Почему бы и нет?

Понятно что сейчас рекомендации A6000 или A100/H100 для больших моделей (официально от Nvidia) и 4080/4090 для S и M моделей (неофициально, но поддержка есть в дровах) и тем более с поддержкой 8-bit Float. Поэтому вопрос будет только в средствах. По мне взять недорогой сервер на A5000, например по цене в два раза меньше, чем на 4090, где по производительности обучения там около 60% разница, а не в два раза для LoRA и небольших датасетов будет оптимальным. И стабильность выше. Люди берут даже 3090 до сих пор для обучения (хотя тут A5000 при текущих ценах надежней будет и одинаково).

С чего вы взяли что они не для обучения? По производительности да, A4000 это 3070 Ti примерно, и сама NVidia именно A4000/5000 преподносила и для машинного обучения (да, это PCI-E, типа рейтрейс, CAD и видео, но по тестам норм и в обучение применяли, где хватало 16+ Гб). А вот наличие той же ECC памяти или необходимости работать пару суток под нагрузкой вам скажется на десктопных картах. Это извечный спор (reddit вам в помощь), что нафига карта в 3-5 раз дороже десктопной, но для чего то они существуют и покупаются? Вот пример бенчмарков на Deep Learn: https://www.exxactcorp.com/blog/Benchmarks/nvidia-rtx-a4000-a5000-and-a6000-comparison-deep-learning-benchmarks-for-tensorflow

Даже в инференсе по тестам та же 4090 на длинных текстах начинает ошибки выдавать в больших моделях (понятно, что которые влазят в 24 гига 4090) гораздо раньше и чаще, чем H100 - хотя карты тоже сравнимы.

Будет сравнение дальше с ценами, мощностью потребляемой и т.п. CPU, GPU разных поколении и типов. Просто сравнивать в MLPerf, данные которого есть массово не интересно, поэтому на модельках смотрим.

Сейчас прогоняю тесты на A4000/5000 4900 H100 Epyc 4-поколения на koboldcpp (хотя можно любой бенчмарк, но тут тоже удобно и окно ответа задать и gpu offload) на иференс с модельками Mixtral и Lllama с разным квантованием и размером.
Starling-LM-10.7B-beta-Q4_K_M.gguf
mixtral-8x7b-instruct-v0.1.Q3_K_M.gguf
llama-2-70b-chat.Q4_K_M.gguf

7.5, 26 и 41 гиг соответственно весят.

единственное что среднюю модельку попробую загнать по слоям полностью в GPU, возьму чуть меньше. Все с максимальный использованием gpu offload.

Еще добавлю свою личную RTX 4060 в сравнимых условиях, так как в теории она по производительности равна A4000 но проигрывает в памяти (8 против 14 гигов)

H100 у нас на EPYC 7451 24 ядерных, 4090 на i9-14900 или на Райзенах, но CPU не буду трогать, но попробую без GPU и на десктопных 8x7b модель.

Все в единую табличку сведем, еще добавлю производительности в том же Automatic1111 c SD XL моделью.

По обучению смотрю, как лучше тест сделать, чтобы сравнение было корректным, если подскажете, буду рад, как и по тестам, что еще хотелось бы сравнить.

Он тоже самое делает (подключает внешние модели или self- host через openapi) и таких там несколько плагинов. Все используют или Mixtral или LLama или микс или через API ChatGPT. Вопрос в удобстве манипуляции моделями и возможность автоматизации со своими запросами и сохранением форматирования.

8x7B модельки тяжелые, только для 4090 с 24 гигами или для 7900 если на GPU. Но вот на CPU теперь уже интересно проверить на AMD Epyc и Intel Xeon + сравнить на этих моделях A4000/5000 4090 и H100 (благо есть такая возможность).

Для той модельки, которая у меня на переводе, с моим процем и памятью на рабочей машине CPU совсем грустно и оптимально именно на видеокарте:

Model: Starling-LM-10.7B-beta-Q5_K_M
MaxCtx: 8192
GenAmount: 100

GPU

ProcessingTime: 19.89s
ProcessingSpeed: 406.92T/s
GenerationTime: 24.04s
GenerationSpeed: 4.16T/s
TotalTime: 43.92s
Coherent: True
Output: 11111

GPU + CPU

ProcessingTime: 28.55s
ProcessingSpeed: 283.39T/s
GenerationTime: 35.78s
GenerationSpeed: 2.80T/s
TotalTime: 64.33s
Coherent: True
Output: 11111

CPU

ProcessingTime: 968.03s
ProcessingSpeed: 8.36T/s
GenerationTime: 36.64s
GenerationSpeed: 2.73T/s
TotalTime: 1004.67s
Coherent: True

Тут возможно еще влияет качество подготовки моделей, но 4060 на 8 Гб 5-6 бит квантизация нормально переваривается, и я уперся только в размер модели и ее объем. LM Studio все-таки не самый оптимизированный вариант. Но задача была показать, что все можно сделать на "раз-два" и на достаточно типичной машине. Я на H100 тестил LLAMA2 на 70B, вот там вещь конечно. Ну и ориентируюсь на рекомендации авторов моделей, а они на 7B или 10.7B рекомендуют использовать Q5-6 M.

По CPU - я тут пытаюсь найти информацию про запуск на многоядерных процессорах типа AMD Epyc 4 поколения нейросеток и нахожу только или научно-исследовательские статьи или отклики про сырой и глючный ROCm. Не подскажете, в какую сторону "копать", так как тема утилизации именно CPU мощностей интересна и судя по тому, что находил, там выигрыш хороший может быть?

Идеален был для поездок. Я с ним в школьные годы и в Питер и в Москву и в другие города катался. Кадров много, фотик компактный.

Есть показатели контроля ФНС компаний и самозанятых, которые триггерили проверки. Где-то два последних года они были следующие:

  • использование работодателем труда самозанятого три и более месяцев подряд.

  • единственный источник дохода».

  • постоянная сумма.

    C 1 марта триггерами для проверок стали:

  • с компанией работают больше 10 самозанятых,

  • средняя выплата самозанятому более 20 000 рублей,

  • средняя продолжительность договора с физлицом более 3 месяцев.

    Все это грозит комиссией о нелегальной занятости для компании и аннулировании чеков (и возврата сумм) для самозанятого. Как я уже написал, кому-то пофиг, а где-то бухглатерия "на дыбы" встает. Ну и ФНС где-то решает зверствовать, а где то у них даже на ИП сил не хватает.

Самозанятый не может работать более 3-х месяцев с одной компанией, там потом ФНС впрягается. Кто-то на это закрывает глаза, но обычно после этого или идешь в штат (если ты нужен на проекте на длительный срок) или переключаешь оплату на ИП.

ГПХ сейчас по отчетности приравнен к штатному работнику и сдавать ЕФС-1 по общим правилам должны все (даже ИП заключившие такой контракт с физлицом), поэтому в любой момент его могут "пересчитать" в трудовой договор с большей вероятностью, чем при работе по договору с ИП (особенно если у последнего есть другие заказчики и поступления доходов). По ИП жены теперь стараемся услуги проводить как "ИП с ИП" или "ИП с самозанятым".

Это уже экзотика, старались упомянуть что массово и на слуху.

Тут вообще проблема со всеми "опенсурсами" :( Все вкусное - за денюжку. Сейчас готовлю тест-обзор разных методов "съезда" с OneDrive, везде какой то затык :(
Начиная от кредов, так как мигрировать профили пользователей не так легко, а поддержка LDAP и прочего как обычно только в Enterprise, до приколов с производительностью всех этих облачных "rsync". У меня у самого там под полтерабайта данных, которые еще местами и расшарены на разных людей и под разными правами, хочу понять что в итоге получится.

Так это один продукт :) Вопрос в функционале, так как таблицы Onlyoffice/Р7 косячит знатно, как и документы :( По моим тестам у этого пакета хуже всего совместимость при переносе в облако.

1
23 ...

Information

Rating
1,441-st
Location
Глазов, Удмуртия, Россия
Date of birth
Registered
Activity