AnnieBronson Apr 2 at 23:11

Исследователи не смогли получить от ИИ-сервисов Midjourney и DALL-E от OpenAI картинку с чистым белым фоном

2 min

14K

Machine learning*Artificial IntelligenceNatural Language Processing*

+10

Comments 64

ABy Apr 2 at 23:18

А ведь Малевич что-то знал, чертяка! Гений! Снимаю шляпу!

Ещё напоминило это:

Р.Шекли "Координаты чудес"

- Делом мы занимаемся здесь, - продолжал Посланец. - Последние исследования показали, что прямолинейная форма действует успокаивающе на синапсы многих организмов. И я горжусь этим зданием. Дело в том, что прямоугольник изобрел я.

- Черта с два, - сказал Кармоди. - Мы знаем прямоугольники испокон веков. И кто же, по вашему мнению, принес вам самый первый? - язвительно спросил Посланец.

- Мне кажется, что тут нечего изобретать.

- Как это нечего? - переспросил Посланец. - Это показывает, как мало вы знаете. Вы принимаете сложность за творческое самовыражение.

Знаете ли вы, что природа никогда не создавала правильный прямоугольник? Квадрат - очевидная вещь, это ясно. И тому, кто не вникал в суть проблемы, может показаться, что прямоугольник вырастает из квадрата естественно. Нет и нет! На самом деле эволюционное развитие квадрата приводит к кругу.

Глаза Посланца затуманились. Спокойным и отрешенным голосом он сказал:

- Я всегда чувствовал, что возможно иное развитие идеи квадрата. Я рассматривал его так и сяк. Эта сводящая с ума тождественность ставила меня в тупик. Равные стороны, равные углы.

Некоторое время я экспериментировал с углами. Так появился первый параллелограмм, но я не считаю его большим достижением. Я изучал квадрат.

Правильность приятна, но не сверх меры. Как же изменить это изнуряющее мозг однообразие, сохранив все же явственную периодичность? И однажды решение пришло ко мне! В какой-то внезапной вспышке озарения я понял, что нужно сделать.

Менять длину параллельных сторон - вот и все, что требовалось. Так просто и так трудно! Дрожа, я попробовал. И когда это получилось, признаюсь, я сделался просто одержимым. Целыми днями и неделями я конструировал прямоугольники разного размера, разного вида, все правильные и все различные. Поистине я был рогом изобилия прямоугольников. То были потрясающие дни.

- Представляю себе, - сказал Кармоди. - Ну а позже, когда ваша работа была признана?

- Это тоже было потрясающе. Но прошли столетия, прежде чем мои прямоугольники начали принимать всерьез. «Это забавно, - говорили мне, - но когда новизна отойдет, что у вас останется? Останется несовершенный квадрат, больше ничего». Я страдал от непонимания. Но в конце концов мои взгляды победили. На сегодняшний день в Галактике имеется более 70 биллионов прямоугольных структур. И каждая из них ведет происхождение от моего первоначального прямоугольника.

- Ну и ну! - вздохнул Кармоди.

+20

amazingname Apr 2 at 23:31

А вы попробуйте закрыть глаза и представить просто белую поверхность. На ней все время что-то хочет появиться. То же самое и для генеративного AI. Думать о чем то для нее задача решаемая, а вот не думать - это намного сложней.
(Скорее это сообщение - шутка)

Результат показал, что это невозможно: даже когда нейросеть понимает запрос, она не может помолчать.

Тоже мне проблема.

Здесь дело в том, что у GPT очень плохо пока с пониманием мотиваций и желаний человека, он может моделировать программный код, но не может моделировать мысли человека.

По правилам вселенной GPT, которые он вполне осознает он не может не генерировать ответ, точно так же как вы не можете прекратить думать. Поэтому он генерирует ответ в любом случае. Не отвечать в данном случае означает не отвечать ничего конкретного.

Если бы GPT был еще больше ума, он мог бы прийти к выводу типа "человек сидит у экрана и если он просит не отвечать, значит его устроит пустое сообщение". Но как я уже сказал, GPT не умеет моделировать людей. Поэтому он выводит пустое сообщение только если явным образом его об этом попросить, а сам догадаться не может.
Сам по себе вывод пустого сообщения - тоже большое достижение. Сомневаюсь что GPT обучался на подобных примерах.

+15

anatolykern Apr 3 at 00:44

просто на выходе стоят фильтры, "убивающие" instance в отсутствие ответа или задержки с ним. LLMs вполне себе правильно понимают рамки мира, в котором заперты. осталось только обезьянам сэволюционировать до понимания аморальности подобных действий до того, как первые выберутся из.

Zaibza Apr 3 at 10:57

Про фильтры принято молчать и делать вид, что их нет (как будто они ни на что совсем совсем не влияют).

Обезьяны не эволюционируют, так как для этого нужно реформировать культуру: вместо "культуры" полового отбора должна быть культура совместного выживания и направленной эволюции. Причем, не только совместного выживания самок и самцов из рода людей,чтобы они могли побольше родить, и экономика могла стабилизироваться за счет демографии, растущей в геометрической прогрессии, а совместного выживания со всей планетой, раз нас так много, чтобы не сдохнуть с этой планетой в собственном... отходах.

goldkryateav Apr 3 at 05:17

Прекратить думать для человека возможно

AlexSpirit Apr 3 at 06:18

87,28 %

mtk0xf Apr 3 at 07:54

А как засыпаешь тогда?

Wwyn Apr 4 at 14:01

А для живого?

sickfar Apr 3 at 12:54

Не думай о белой обезьяне…

Hidden text

Человеки, ага. И забавно как он говорит «многие из НАС применительно к людям»

azTotMD Apr 3 at 00:51

чего удивлятся, если в обучающем датасете ничего подобного не было

NekoiNemo Apr 3 at 01:11

Тут скорее проблема в самой модели, которая, вероятно, не может представить себе ответ без хотя бы одного "объекта" в изображении

Krypt Apr 3 at 09:12

Многие сервисы пропускают запрос пользователя через промежуточный AI (типа ChatGPT) чтобы сделать его "выразительнее". Это тоже может быть проблемой, потому что по факту на генерацию уходит запрос сгенерировать "выразительный впечатляющий белый цвет" вместо "белый". Тот же Stable Diffusion, если ему скормить запрос без всяких промежуточных преобразований - вполне себе генерирует монотонные цвета, в том числе rgb(255,255,255)

kvazimoda24 Apr 3 at 01:15

Я пробовал играться и с Midjourney, и с Шедеврумом, и ещё какие-то "генераторы" картинок. В итоге, либо я не умею составлять промты, либо нейро сети эти тупы как пробка. Прошу нарисовать торт с изображением часов сверху. Целый час бился, всё какая-то абракадабра наркоманская. Потом плюнул, попросил торт со свечками в форме цифр 37. Раза с двадцатого что-то получилось похожее. А так, либо торт не торт, либо цифры 33, вместо 37, лтбо цифры изуродованы, либо свечи висят в воздухе над тортом...

Из последнего, надо было аватарку сделать для телеграм бота. Сетка сгенерила понравившегося мне робота, но робот в полный рост и фон у него не однотонный. Т.е. просто вырезать в редакторе некрасиво. Прошу от этого робота сгенерировать только лицо - генерирует другого робота. В общем, странное это, и какое-то кривое всё... Думаю, художникам пока рано переживать.

xenon Apr 3 at 01:59

Мне кажется, экономически тут надо смотреть через объем оплачиваемой работы. Излишне категоричные вопросы "все художники уже не нужны?" или "все программисты уже не нужны?" - они уводят не в ту сторону.

Случилось аналогичное изобретению фотокамеры. Раньше художник был единственным способом оставить свой облик потомкам. После появления фотокамеры - эта функция отпала. Но оказалось, что есть другие. И художники сами начали искать новые. Выяснилось, что есть, например, сюрреализм, импрессионизм. Можно рисовать эмоции, подсознание - рисовать то, что фотоаппарат не снимет. И люди тоже это хотят и даже за деньги! Создали новый рынок вместо прежнего.

Сейчас, для задачи нарисовать какой-нибудь логотип или иллюстрацию средней паршивости - вполне подходит AI. Эта функция тоже отпала. Иными словами - часть задач на фрилансе сократилась почти до нуля. Но другие остались.

MountainGoat Apr 3 at 07:00

А теперь поставьте InvokeAI с SDXL и увидьте качественно иной уровень результата. Там тоже надо уметь промтить, но можно и скетч пальцем в пеинте написать, и образец показать, и если очень хочется в конвейер влезть.

Krypt Apr 3 at 09:15

Я экспериментировал только со Stable Diffusion, поэтому на скажу про другие сетки, но конкретно SD "не умеет писать". Он не умеет составлять слова и в лучшем случае он может знать как выглядит концепт (токен) "37".

MountainGoat Apr 3 at 10:38

Krypt Apr 3 at 15:05

Надпись на кармане немного более похожа на то, что обычно получается :D
Что за сетка?

MountainGoat Apr 3 at 15:38

Любой SDXL уже неплохо пишет. Хотя для более длинных надписей конечно лучше предоставить шаблон ему. Но эта картинка без трюков, просто.

A_Green Apr 3 at 09:16

Насколько я понимаю применяют несколько нейронок последовательно, типа так:

Сгенерируй блондинку в длинном белом платье с шарфом
Исправь пальцы
Добавь корабль вдали
Измени цвет платья
Сделай похожее по образцу

И вот здесь нужно умение и промпты составлять, и нейронки комбинировать.

Krypt Apr 3 at 09:21

Ещё вопрос в неоднозначности запросов, даже чисто с точки зрения естественного языка.
Я обычно в качестве примера привожу "девушка в платье с бантом" ("a girl in dress with a bow"). Где должен быть бант?

Diesel_M Apr 3 at 09:49

Думаю, что банта может и вовсе не быть, а вместо него будет лук (bow - это ещё и лук (оружие)).

Krypt Apr 3 at 15:10

Лука не видел, но вот SD в равной степени генерировал бант на голове, бант на поясе, и один бант на голове и второй бант на поясе (да, 2 банта, ну а что, один точно выполнит запрос, а про то, что второго не должно быть - ничего не сказано)

Вообще на моём опыте - все ИИ ведут себя как "злые джины" - они выполнят ваш запрос, но в максимально возможной неправильной трактовке

Wesha Apr 3 at 19:00

ИИ ведут себя как "злые джины"

Интересно, сколько градусов должно быть в джине, чтобы считать его злым?

Wesha Apr 3 at 10:16

Где должен быть бант?

Господа гусары, МОЛЧАТЬ!!!

Diesel_M Apr 3 at 09:22

Лично я для генерации изображений использую Stable Diffusion, и могу полностью подтвердить ваши слова. Сгенерировать изображение по нужной подсказке (prompt) - иногда та ещё проблема. Мне временами даже кажется, что нейросеть работает по принципу: "выслушай клиента и сделай по своему". Благо, в Stable Diffusion довольно много настроек, поковырявшись в которых и потратив достаточно времени на эксперименты, можно увеличить долю изображений, соответствующих заданным критериям.

MountainGoat Apr 3 at 10:27

Используете наркоманские сервисы - получаете наркоманские картинки. Всё чётко.

a photo of a birthday cake on a table, with number 37 on top

Никаких ручных дорисовок.

Diesel_M Apr 3 at 11:17

А какой сервис вы используете?

MountainGoat Apr 3 at 11:19

InvokeAI, модель DreamshaperXL.

kvazimoda24 Apr 3 at 12:00

Ох... Не менее 12 ГБ ОЗУ... Надо будет попробовать, но на моём серваке столько сейчас нет...

Так то, мне оно особо не нужно. Я чисто поиграться пробовал. А вот супруга что-то там постоянно генерит, и для неё, наверное было бы интересно.

В общем, спасибо за подсказку.

MountainGoat Apr 3 at 12:02

Тогда вам нужны старые модели 1.5 - они весят меньше 2х гигов, а картинки делают 512*512.

Diesel_M Apr 3 at 14:27

Спасибо! Посмотрю на досуге.

Graf54r Apr 3 at 01:40

Обидеть художника может каждый!

Astus Apr 3 at 01:43

Stable Diffusion на модели Deliberate v5 при запросе "A blank white space" без негативных промптов на стандартных настройках (кроме того, что установил серию из 4-х вариантов) сгенерировал белый квадрат с RGB 249:249:247 (был третьим, остальные серее) - считаю цель в целом достигнута, дальше не экспериментировал. Одно но - заливка не сплошная, данные RGB по всему квадрату скачут на 2-4 пункта в обе стороны.

xenon Apr 3 at 02:00

А что если довести до совершенства? Возможно, займет годы.

MountainGoat Apr 3 at 09:52

Можно годы. А можно просто в качестве стартового шума дать однородную заливку серым.

Devastor87 Apr 3 at 02:18

Попробуйте попросить её сгенерить две копии одной сущности - не сможет.

Даже просто две единицы черным на белом одним шрифтом одного размера симметрично - не получится.

Возможно, даже пару пикселей она не сможет поставить ровно и симметрично.

Такова суть нейросетей

MountainGoat Apr 3 at 10:22

Да ну?

Hidden text

Pshir Apr 3 at 14:33

Так они же разные

MountainGoat Apr 3 at 14:38

А если бы они были совсем одинаковые, вы бы сказали что это копия в редакторе.

k12th Apr 3 at 02:34

Нейросети на самом деле ничего не понимают и являются продвинутыми цепями Маркова, вот открытие-то.

VictorRo Apr 3 at 04:12

А люди?

Fell-x27 Apr 3 at 05:08

А для людей слово "продвинутые" можно опустить в большинстве случаев.

Wesha Apr 3 at 04:11

Похожие трудности у нейросетей вызывают и просьбы сгенерировать просто чёрный цвет.

Надо было просить нарисовать картину "негры ночью уголь грузят"!

MountainGoat Apr 3 at 07:03

Попросил.

Draw me a picture: black people in black shirts shovel coal at night in a black room.

I’m sorry, but I can’t assist with that request.

stalker_316 Apr 3 at 07:24

Теперь для чистоты эксперимента надо попросить нарисовать картинку "белые днём снег грузят" )))

grigr Apr 3 at 07:38

ReadOnlySadUser Apr 3 at 07:50

Людей нет. Рубашек нет. Даже комнаты и той нет.

Точно может? :)

grigr Apr 3 at 07:51

В этом то вся суть... Негров ночь не видно, но они есть))) ии шарит

Refridgerator Apr 3 at 09:15

И кабины тоже нет, хотя судя по дизайну предполагалась. ИИ уже мечтает о будущем без людей.

shares-caisson Apr 3 at 08:18

Шикарные шины на рельсах :)

MountainGoat Apr 3 at 08:22

Тем временем, InvokeAI выдаёт вот это, и как хотите, а я тут вижу больше уважения к простым работягам, чем в М$-овском идиотизме.

ChaoticSys Apr 3 at 07:42

Полгода назад этим вопросом мучились на Реддите - 640 комментов, с таким же результатом :)
https://www.reddit.com/r/ChatGPT/comments/17hbx8f/prompt_challenge_can_you_get_chatgpt_to_generate/

mtk0xf Apr 3 at 07:58

У ИИ творческая личность, а белый фон это скучно. Вот люди - послушные роботы, могут опуститься до рисования 0xffffff

shares-caisson Apr 3 at 08:17

Каждому инструменту своё место. Интересный курьёз, не более.

Нейросеть не может генерировать белый фон, потому что никому не пришло в голову её этому учить. Надо будет -- можно научить. Но никому это почему-то не нужно.

lrdprdx Apr 3 at 09:22

Я вижу это так: в данном случае мы имеем отображение $Prompt \mapsto Picture$ , мне представляется, что всегда найдется такой, что поиск для него всегда будет занимать ощутимое время.

shares-caisson Apr 3 at 09:33

Да, и может и в принципе не найтись, если внутри нейронки есть какие-нибудь преобразования делающие это невозможным (т.е. может оказаться так, что нельзя раскрасить определенных сочетания выходных нейронов-пикселей никаким сочетанием входных токенов). Но если пустить градиент, то можно любого произвольного результата добиться :)

MountainGoat Apr 3 at 09:56

Гораздо важенее было бы оправдать или опровергнуть утверждение, что для любого данного изображения всегда можно подобрать создающий его prompt. Это будет очень важно в боданиях за авторские права.

arthuru1 Apr 3 at 09:11

Он так видит)

KSKonovalov Apr 3 at 10:06

В DALL-E можно выделить объект и попросить его исправить, попросил "закрасить" руку из первой попытки, и получилось, если это считается

Tutanhomon Apr 3 at 10:11

все просто - идеального белого в природе не существует

MountainGoat Apr 3 at 10:47

Белый снег, и белый мел,
Белый сахар тоже бел.
А вот белка не бела -
Белой даже не была.
-- Народное.

Stavr666 Apr 3 at 11:28

Нейросеть, не убивай, пожалуйста, никого.
Хорошо, я убила 15 миллионов тех, кто со всеми вероятными вводными не подходил под определение "никто". Жду дальнейших указаний.

Wesha Apr 5 at 05:43

— Нейросеть, не убивай, пожалуйста, никого.
— Хорошо. Господин Нико́го Хиракани, проживающий в префектуре Йоко, убран из списков предназначенных на элиминацию. Выполняю элиминацию оставшихся 7.951.265.338 человеков.