Pull to refresh

Comments 27

Спасибо за такую развернутую статью, я тоже пытаюсь заниматься созданием контента при помощи нейросетей. Мне кажется за этим будущее:+)))

В принципе нормально расписали, только вот нет рекомендаций по разрешению рендера, особенно в связке с HiresFix.

А рекомендации стандартные 512х768 и обратно, а в хай резе писал, не выше 1.3 не стоит повышать, на 1.8 вешается 4090 даже у меня.

Не самое удачное время для статьи, к сожалению.

По текущим requirements_versions собирается ботва, которая при highresfix конфликтует с AnimtedDiff:

RuntimeError: CUDA error: invalid configuration argument CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

Без highresfix SD вообще особого смысла не имеет. По issue предлагают запускать без xformers, но оно тогда даже на 4090 в разрешении 640х736 мгновенно ужирает 99.9% GPU, а уж на этапе highresfix я даже 1% не дождался, с такой скоростью быстрее банально разложить картинку на слои и анимировать вручную. Без навыков. :)

UP: Settings/AnimateDiff -> Optimize attention layers with sdp (torch >= 2.0.0 required) вроде помогает

Блин, а я даже не знал, потому что SDP поставил с самого начала =)

После того как в torch запилили нативную оптимизацию SDP смысла в xformers особо нет (если только разработчики всё-таки сделают поддержку Flash Attention 2 в windows).

Hidden text

При обычной генерации (без AnimateDiff) с параметрами запуска:

set COMMANDLINE_ARGS=--opt-sdp-attention --opt-channelslast
set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.9,max_split_size_mb:512

Скорость генерации EulerA, 512x512, 150 Steps — около 35 it/s.

При использовании --xformers — около 31 it/s.

Это с учётом того, что карточка в 70% поверлимите.

P.S: У меня и с SDP оптимизацией иногда вылетает эта ошибка.

set PYTORCH_CUDA_ALLOC_CONF=garbage_collection_threshold:0.9,max_split_size_mb:512

А у меня проблемы были с собиралкой мусора из-за такой конструкции плюс тормозило больше =)

После того как в torch запилили нативную оптимизацию SDP смысла в xformers особо нет

Хм. Не знаю. Попробовал только что - 2 минуты было с xformers, 3 стало с SDP.

А какая карта? Хформерс эффективнее на всем, что старее середины 30 серии. Топовые карты 30 серии уже лучше на sdp работают.

на 4090 sdp точно должен быть быстрее, дрова еще стоит обновить на видео.

В этой же, это расширение Deforum.

это персонаж-маскот одного из моих проектов

А можете ссылку скинуть, где почитать про то как воспроизводимо создавать одного и того же персонажа на разных картинках?

про гифки, выкладывайте видео h264, пинайте разработчикв хабра, когда закончится эти вср**ые 8-битные видеовставки, когда браузеры поддерживают адекватные форматы с 10-кратным выигрышем по трафику.

GIFки должны умереть!

Для меня на самом деле таким шоком было, что на хабре нельзя загружать mp4 или webm, это же просто дичь, несколько часов потратил, чтобы найти баланс между размером и качеством гифок.

Спасибо тебе добрый человек, все внимательно прочитал, ссылочки на модель и Лору использовал, Ваш труд очень ценен, огромная благодарность, учимся, двигаемся вперед, благодаря Вам!✨

Я уже надеюсь кто нибудь возьмёт и загонит в ИИ одни и те же фильмы разного качества - ts, hd и тд. Может оно когда нибудь обучится и будет выдавать приемлемый результат качества с рядовых экранок

Жду качественной перегонки текста в 3д, с последующей генерацией кадров на базе более гибкой и более устойчивой к артефактам анимации полученной 3д модели. И ролики будут подлиннее и управляемость получше.

А есть инфа про xl, сколько не искал, кажется все еще реализаций не существует?

Инфа есть, как и реализация, более того, она прям внутри этого же расширения доступна. Почитать можно тут https://github.com/hotshotco/Hotshot-XL, но меня совсем не устраивает что оно генерит и как, слишком сильно уступает 1.5 моделям, выжирая в два раза больше ресурсов. Даже с их фирменной моделью для разрешения 512 результаты получаются прям не очень. Будем подождать дальнейших оптимизаций. Но если очень хочется, можно уже тестить.

На гифках не совсем зум, это транстрав (dolly-zoom):

Надеюсь эта технология не умрет, так и не родившись.

Именно эта технология скорее всего тупиковый путь, но она может дать развитие системам сжатия видео (еще 10х к компактности).

Для качественной генерации ее нужно совмещать с генерацией 3d моделей и всей сцены.

Sign up to leave a comment.

Articles