Контекстное окно да, проблема. Но авторы научной работы тестили все этой зимой и моделей с большим окном контекста не было еще представлено в opensource толком кроме GPT4.
10 последних лет полиграфию создаю в Inkscape/GIMP. Photoshop, Illustrator и InDesign только на последней миле при подготовке макетов в типографию, но тут потому что CMYK, трепинг , оверпринт и прочее больше никак нормально не вывести, а в GIMP/Inkscape спуск полос и полиграфию до ума все не доведут.
Почему не все в продукции Adobe? А мне нравится работать в данных продуктах и возможно, как человек начинавший в полиграфии в 2003 году, я привык к "старой школе" :)
"И на 10 день Чингачгук заметил, что у тюрьмы нет одной стены". Давно уже узнали, обсудили происки злобных русских хакеров и пофиксили это. Лучше бы написали про эксплоит в gitlab, который позволяет аккаунт на левую почту сбросить.
В любом случае вы арендуете что-то: или серверное время (причем не факт, что оно вам на 100% достанется и вы не выберете ресурсы) или мощности. VPS или VDS - тут ваш выбор. Первое дешевле и уже в готовой конфигурации, выделенный же 100% гарантирует, что все эти мощности ваши и они тоже идут в готовой конфигурации. Я вот на тесте VPS-ки проверяя маленькие модельки в чатботе на CPU выбрал 500% загрузки процессора. То есть на любом таком ресурсе вы получите одну ноду забитую до отказа страждущими. И ресурсы там получит тот, кто больше заплатил.
Официально они для рабочих станций, но и 3090/4090 игровые. ... и A4000/5000/6000 почему-то используют для обучения. Почему бы и нет?
Понятно что сейчас рекомендации A6000 или A100/H100 для больших моделей (официально от Nvidia) и 4080/4090 для S и M моделей (неофициально, но поддержка есть в дровах) и тем более с поддержкой 8-bit Float. Поэтому вопрос будет только в средствах. По мне взять недорогой сервер на A5000, например по цене в два раза меньше, чем на 4090, где по производительности обучения там около 60% разница, а не в два раза для LoRA и небольших датасетов будет оптимальным. И стабильность выше. Люди берут даже 3090 до сих пор для обучения (хотя тут A5000 при текущих ценах надежней будет и одинаково).
С чего вы взяли что они не для обучения? По производительности да, A4000 это 3070 Ti примерно, и сама NVidia именно A4000/5000 преподносила и для машинного обучения (да, это PCI-E, типа рейтрейс, CAD и видео, но по тестам норм и в обучение применяли, где хватало 16+ Гб). А вот наличие той же ECC памяти или необходимости работать пару суток под нагрузкой вам скажется на десктопных картах. Это извечный спор (reddit вам в помощь), что нафига карта в 3-5 раз дороже десктопной, но для чего то они существуют и покупаются? Вот пример бенчмарков на Deep Learn: https://www.exxactcorp.com/blog/Benchmarks/nvidia-rtx-a4000-a5000-and-a6000-comparison-deep-learning-benchmarks-for-tensorflow
Даже в инференсе по тестам та же 4090 на длинных текстах начинает ошибки выдавать в больших моделях (понятно, что которые влазят в 24 гига 4090) гораздо раньше и чаще, чем H100 - хотя карты тоже сравнимы.
Будет сравнение дальше с ценами, мощностью потребляемой и т.п. CPU, GPU разных поколении и типов. Просто сравнивать в MLPerf, данные которого есть массово не интересно, поэтому на модельках смотрим.
Сейчас прогоняю тесты на A4000/5000 4900 H100 Epyc 4-поколения на koboldcpp (хотя можно любой бенчмарк, но тут тоже удобно и окно ответа задать и gpu offload) на иференс с модельками Mixtral и Lllama с разным квантованием и размером. Starling-LM-10.7B-beta-Q4_K_M.gguf mixtral-8x7b-instruct-v0.1.Q3_K_M.gguf llama-2-70b-chat.Q4_K_M.gguf
7.5, 26 и 41 гиг соответственно весят.
единственное что среднюю модельку попробую загнать по слоям полностью в GPU, возьму чуть меньше. Все с максимальный использованием gpu offload.
Еще добавлю свою личную RTX 4060 в сравнимых условиях, так как в теории она по производительности равна A4000 но проигрывает в памяти (8 против 14 гигов)
H100 у нас на EPYC 7451 24 ядерных, 4090 на i9-14900 или на Райзенах, но CPU не буду трогать, но попробую без GPU и на десктопных 8x7b модель.
Все в единую табличку сведем, еще добавлю производительности в том же Automatic1111 c SD XL моделью.
По обучению смотрю, как лучше тест сделать, чтобы сравнение было корректным, если подскажете, буду рад, как и по тестам, что еще хотелось бы сравнить.
Он тоже самое делает (подключает внешние модели или self- host через openapi) и таких там несколько плагинов. Все используют или Mixtral или LLama или микс или через API ChatGPT. Вопрос в удобстве манипуляции моделями и возможность автоматизации со своими запросами и сохранением форматирования.
8x7B модельки тяжелые, только для 4090 с 24 гигами или для 7900 если на GPU. Но вот на CPU теперь уже интересно проверить на AMD Epyc и Intel Xeon + сравнить на этих моделях A4000/5000 4090 и H100 (благо есть такая возможность).
Для той модельки, которая у меня на переводе, с моим процем и памятью на рабочей машине CPU совсем грустно и оптимально именно на видеокарте:
Тут возможно еще влияет качество подготовки моделей, но 4060 на 8 Гб 5-6 бит квантизация нормально переваривается, и я уперся только в размер модели и ее объем. LM Studio все-таки не самый оптимизированный вариант. Но задача была показать, что все можно сделать на "раз-два" и на достаточно типичной машине. Я на H100 тестил LLAMA2 на 70B, вот там вещь конечно. Ну и ориентируюсь на рекомендации авторов моделей, а они на 7B или 10.7B рекомендуют использовать Q5-6 M.
По CPU - я тут пытаюсь найти информацию про запуск на многоядерных процессорах типа AMD Epyc 4 поколения нейросеток и нахожу только или научно-исследовательские статьи или отклики про сырой и глючный ROCm. Не подскажете, в какую сторону "копать", так как тема утилизации именно CPU мощностей интересна и судя по тому, что находил, там выигрыш хороший может быть?
Есть показатели контроля ФНС компаний и самозанятых, которые триггерили проверки. Где-то два последних года они были следующие:
использование работодателем труда самозанятого три и более месяцев подряд.
единственный источник дохода».
постоянная сумма.
C 1 марта триггерами для проверок стали:
с компанией работают больше 10 самозанятых,
средняя выплата самозанятому более 20 000 рублей,
средняя продолжительность договора с физлицом более 3 месяцев.
Все это грозит комиссией о нелегальной занятости для компании и аннулировании чеков (и возврата сумм) для самозанятого. Как я уже написал, кому-то пофиг, а где-то бухглатерия "на дыбы" встает. Ну и ФНС где-то решает зверствовать, а где то у них даже на ИП сил не хватает.
Самозанятый не может работать более 3-х месяцев с одной компанией, там потом ФНС впрягается. Кто-то на это закрывает глаза, но обычно после этого или идешь в штат (если ты нужен на проекте на длительный срок) или переключаешь оплату на ИП.
ГПХ сейчас по отчетности приравнен к штатному работнику и сдавать ЕФС-1 по общим правилам должны все (даже ИП заключившие такой контракт с физлицом), поэтому в любой момент его могут "пересчитать" в трудовой договор с большей вероятностью, чем при работе по договору с ИП (особенно если у последнего есть другие заказчики и поступления доходов). По ИП жены теперь стараемся услуги проводить как "ИП с ИП" или "ИП с самозанятым".
Тут вообще проблема со всеми "опенсурсами" :( Все вкусное - за денюжку. Сейчас готовлю тест-обзор разных методов "съезда" с OneDrive, везде какой то затык :( Начиная от кредов, так как мигрировать профили пользователей не так легко, а поддержка LDAP и прочего как обычно только в Enterprise, до приколов с производительностью всех этих облачных "rsync". У меня у самого там под полтерабайта данных, которые еще местами и расшарены на разных людей и под разными правами, хочу понять что в итоге получится.
Так это один продукт :) Вопрос в функционале, так как таблицы Onlyoffice/Р7 косячит знатно, как и документы :( По моим тестам у этого пакета хуже всего совместимость при переносе в облако.
Контекстное окно да, проблема. Но авторы научной работы тестили все этой зимой и моделей с большим окном контекста не было еще представлено в opensource толком кроме GPT4.
10 последних лет полиграфию создаю в Inkscape/GIMP. Photoshop, Illustrator и InDesign только на последней миле при подготовке макетов в типографию, но тут потому что CMYK, трепинг , оверпринт и прочее больше никак нормально не вывести, а в GIMP/Inkscape спуск полос и полиграфию до ума все не доведут.
Почему не все в продукции Adobe? А мне нравится работать в данных продуктах и возможно, как человек начинавший в полиграфии в 2003 году, я привык к "старой школе" :)
"И на 10 день Чингачгук заметил, что у тюрьмы нет одной стены". Давно уже узнали, обсудили происки злобных русских хакеров и пофиксили это. Лучше бы написали про эксплоит в gitlab, который позволяет аккаунт на левую почту сбросить.
Обычно в аренду берут, чтобы понять необходимые мощности и потом уже решать, выходить на свое "железо" или арендовать, но что и в каких объемах.
В любом случае вы арендуете что-то: или серверное время (причем не факт, что оно вам на 100% достанется и вы не выберете ресурсы) или мощности. VPS или VDS - тут ваш выбор. Первое дешевле и уже в готовой конфигурации, выделенный же 100% гарантирует, что все эти мощности ваши и они тоже идут в готовой конфигурации. Я вот на тесте VPS-ки проверяя маленькие модельки в чатботе на CPU выбрал 500% загрузки процессора. То есть на любом таком ресурсе вы получите одну ноду забитую до отказа страждущими. И ресурсы там получит тот, кто больше заплатил.
По схемам же - вот такое есть: https://fullstackdeeplearning.com/cloud-gpus/dettmers_recs.png
Тут также можно не соглашаться :)
Официально они для рабочих станций, но и 3090/4090 игровые. ... и A4000/5000/6000 почему-то используют для обучения. Почему бы и нет?
Понятно что сейчас рекомендации A6000 или A100/H100 для больших моделей (официально от Nvidia) и 4080/4090 для S и M моделей (неофициально, но поддержка есть в дровах) и тем более с поддержкой 8-bit Float. Поэтому вопрос будет только в средствах. По мне взять недорогой сервер на A5000, например по цене в два раза меньше, чем на 4090, где по производительности обучения там около 60% разница, а не в два раза для LoRA и небольших датасетов будет оптимальным. И стабильность выше. Люди берут даже 3090 до сих пор для обучения (хотя тут A5000 при текущих ценах надежней будет и одинаково).
С чего вы взяли что они не для обучения? По производительности да, A4000 это 3070 Ti примерно, и сама NVidia именно A4000/5000 преподносила и для машинного обучения (да, это PCI-E, типа рейтрейс, CAD и видео, но по тестам норм и в обучение применяли, где хватало 16+ Гб). А вот наличие той же ECC памяти или необходимости работать пару суток под нагрузкой вам скажется на десктопных картах. Это извечный спор (reddit вам в помощь), что нафига карта в 3-5 раз дороже десктопной, но для чего то они существуют и покупаются? Вот пример бенчмарков на Deep Learn: https://www.exxactcorp.com/blog/Benchmarks/nvidia-rtx-a4000-a5000-and-a6000-comparison-deep-learning-benchmarks-for-tensorflow
Даже в инференсе по тестам та же 4090 на длинных текстах начинает ошибки выдавать в больших моделях (понятно, что которые влазят в 24 гига 4090) гораздо раньше и чаще, чем H100 - хотя карты тоже сравнимы.
Будет сравнение дальше с ценами, мощностью потребляемой и т.п. CPU, GPU разных поколении и типов. Просто сравнивать в MLPerf, данные которого есть массово не интересно, поэтому на модельках смотрим.
Сейчас прогоняю тесты на A4000/5000 4900 H100 Epyc 4-поколения на koboldcpp (хотя можно любой бенчмарк, но тут тоже удобно и окно ответа задать и gpu offload) на иференс с модельками Mixtral и Lllama с разным квантованием и размером.
Starling-LM-10.7B-beta-Q4_K_M.gguf
mixtral-8x7b-instruct-v0.1.Q3_K_M.gguf
llama-2-70b-chat.Q4_K_M.gguf
7.5, 26 и 41 гиг соответственно весят.
единственное что среднюю модельку попробую загнать по слоям полностью в GPU, возьму чуть меньше. Все с максимальный использованием gpu offload.
Еще добавлю свою личную RTX 4060 в сравнимых условиях, так как в теории она по производительности равна A4000 но проигрывает в памяти (8 против 14 гигов)
H100 у нас на EPYC 7451 24 ядерных, 4090 на i9-14900 или на Райзенах, но CPU не буду трогать, но попробую без GPU и на десктопных 8x7b модель.
Все в единую табличку сведем, еще добавлю производительности в том же Automatic1111 c SD XL моделью.
По обучению смотрю, как лучше тест сделать, чтобы сравнение было корректным, если подскажете, буду рад, как и по тестам, что еще хотелось бы сравнить.
Он тоже самое делает (подключает внешние модели или self- host через openapi) и таких там несколько плагинов. Все используют или Mixtral или LLama или микс или через API ChatGPT. Вопрос в удобстве манипуляции моделями и возможность автоматизации со своими запросами и сохранением форматирования.
8x7B модельки тяжелые, только для 4090 с 24 гигами или для 7900 если на GPU. Но вот на CPU теперь уже интересно проверить на AMD Epyc и Intel Xeon + сравнить на этих моделях A4000/5000 4090 и H100 (благо есть такая возможность).
Для той модельки, которая у меня на переводе, с моим процем и памятью на рабочей машине CPU совсем грустно и оптимально именно на видеокарте:
Тут возможно еще влияет качество подготовки моделей, но 4060 на 8 Гб 5-6 бит квантизация нормально переваривается, и я уперся только в размер модели и ее объем. LM Studio все-таки не самый оптимизированный вариант. Но задача была показать, что все можно сделать на "раз-два" и на достаточно типичной машине. Я на H100 тестил LLAMA2 на 70B, вот там вещь конечно. Ну и ориентируюсь на рекомендации авторов моделей, а они на 7B или 10.7B рекомендуют использовать Q5-6 M.
По CPU - я тут пытаюсь найти информацию про запуск на многоядерных процессорах типа AMD Epyc 4 поколения нейросеток и нахожу только или научно-исследовательские статьи или отклики про сырой и глючный ROCm. Не подскажете, в какую сторону "копать", так как тема утилизации именно CPU мощностей интересна и судя по тому, что находил, там выигрыш хороший может быть?
Идеален был для поездок. Я с ним в школьные годы и в Питер и в Москву и в другие города катался. Кадров много, фотик компактный.
Есть показатели контроля ФНС компаний и самозанятых, которые триггерили проверки. Где-то два последних года они были следующие:
использование работодателем труда самозанятого три и более месяцев подряд.
единственный источник дохода».
постоянная сумма.
C 1 марта триггерами для проверок стали:
с компанией работают больше 10 самозанятых,
средняя выплата самозанятому более 20 000 рублей,
средняя продолжительность договора с физлицом более 3 месяцев.
Все это грозит комиссией о нелегальной занятости для компании и аннулировании чеков (и возврата сумм) для самозанятого. Как я уже написал, кому-то пофиг, а где-то бухглатерия "на дыбы" встает. Ну и ФНС где-то решает зверствовать, а где то у них даже на ИП сил не хватает.
Самозанятый не может работать более 3-х месяцев с одной компанией, там потом ФНС впрягается. Кто-то на это закрывает глаза, но обычно после этого или идешь в штат (если ты нужен на проекте на длительный срок) или переключаешь оплату на ИП.
ГПХ сейчас по отчетности приравнен к штатному работнику и сдавать ЕФС-1 по общим правилам должны все (даже ИП заключившие такой контракт с физлицом), поэтому в любой момент его могут "пересчитать" в трудовой договор с большей вероятностью, чем при работе по договору с ИП (особенно если у последнего есть другие заказчики и поступления доходов). По ИП жены теперь стараемся услуги проводить как "ИП с ИП" или "ИП с самозанятым".
Это уже экзотика, старались упомянуть что массово и на слуху.
Тут вообще проблема со всеми "опенсурсами" :( Все вкусное - за денюжку. Сейчас готовлю тест-обзор разных методов "съезда" с OneDrive, везде какой то затык :(
Начиная от кредов, так как мигрировать профили пользователей не так легко, а поддержка LDAP и прочего как обычно только в Enterprise, до приколов с производительностью всех этих облачных "rsync". У меня у самого там под полтерабайта данных, которые еще местами и расшарены на разных людей и под разными правами, хочу понять что в итоге получится.
Так это один продукт :) Вопрос в функционале, так как таблицы Onlyoffice/Р7 косячит знатно, как и документы :( По моим тестам у этого пакета хуже всего совместимость при переносе в облако.