Loe raamatut: «Dezgo – рисующая нейросеть»

Font:

Что важно знать о Dezgo

Для начала предупреждение. Всё, что написано в данном руководстве – преимущественно мои личные выводы, сделанные преимущественно в результате экспериментирования с Dezgo, они не основаны на глубоком понимании нейросетей (коего у меня совершенно нет) или на системном изучении неких справочных описаний (кое-куда я заглядывал, но отрывочно, одним глазом, более, чтобы увидеть, какие можно использовать интересные стили рисования или команды). Это любительское руководство от любителя, которое может ввести вас в какой-то мере в заблуждение в каких-то аспектах – наверняка не все мои выводы верны. Наверняка в чём-то я ошибаюсь, в чём-то не прав. Тем не менее, если вы тоже новичок в деле рисования в нейросетях и ещё не работали с Dezgo, уверен, оно неплохо поможет вам начать и сэкономит сколько-то времени. Как минимум я надеюсь на это. Ну а теперь переходим к собственно теме нашего разговора.

Dezgo – это сайт, содержащий основанные на нейросетях функции рисования и работы с рисунками. В данный момент он может генерировать картинки по текстовому описанию, редактировать картинки по текстовому описанию, увеличивать картинки вдвое, удалять фон у картинок, заменяя его на прозрачный, создавать чёрно-белые маски картинок. Не статичен, в том смысле, что его постепенно развивают и улучшают, что-то в нём меняется время от времени, потому всё здесь сказанное про него надо воспринимать именно в ключе текущего момента, в будущем оно может и измениться, в чём-то утратив соответствие. Dezgo позволяет работать с ним бесплатно, никак не ограничивая в количестве производимых операций и генерируемых картинок. У него есть платный режим, но как будто и бесплатный ни в чём важном не урезан, чуть медленнее работает, не позволяет генерировать более одной картинки за раз, вот фактически и всё. Впрочем, я не пользовался платным режимом и потому не могу ничего утверждать наверняка. Не требует регистрации. Главный недостаток Dezgo – мелковатость картинок у большинства функций. Всего лишь 672x384 или 384x672, и даже менее. У него есть XL функции, позволяющие генерировать изображения в размерах 1016x576 или 576x1016, но от них сложнее добиться качественности графики, особенно при рисовании людей, а перерисовка и редактирование в этих размерах вообще не предусмотрены. У него есть недавно добавленная flux-функция, эта рисует ещё крупнее – 1344x768, и довольно качественно. Только она не поддерживает специальные команды Dezgo, не имеет никаких настроек, что достаточно сильно ограничивает её возможности (в сравнении с другими функциями), хотя в целом они неплохи. Тоже не предусматривает перерисовок в функциях редактирования. Ну и важно отметить, и XL и Flux функции Dezgo работают медленнее, чем функции, рисующие мелко, потому последними пользоваться удобнее.

Далее значимые особенности Dezgo я всё же выделю в список, чтобы они были отчётливее для восприятия:

1) Большинство его функций содержат в себе не одну, а множество нейросетей, из которых вам дано задавать в качестве параметра нужную. Например, в данный момент у него 31 вариант нейросетей в функции генерации по тексту картинок размера 672x384. Одни рисуют реалистично, другие в стиле аниме, третьи ещё как-то, каждая нейросеть по-своему воспринимает задаваемые вами тексты, несколько отлично от других, имеет свои особенности понятливости ваших запросов, их интерпретации, готовности им следовать, и т.д. Ну и конечно создаёт свой собственный уникальный контент – рисует иное и иначе, чем прочие.

2) У него есть 4 функции перерисовки (как бы редактирования) картинок. Из них минимум две – это всё же генераторы картинок, они ничего вам не редактируют, они создают новые картинки, руководствуясь содержимым предоставленной исходной картинки. Они распознают это содержимое и рисуют примерно в таком же виде, а вы можете задать текстом, что желаете изменить, чтобы оно выглядело как-то по-другому. Лучше всего функции Dezgo распознают и воссоздают только то, что исходно нарисовано в нём, то есть лишь исходно сгенерированные в нём изображения они способны воспроизвести с точностью, близкой к 100% (при определённых условиях). Сторонние картинки вам навряд ли удастся перерисовать хоть сколько-то похоже – и физиономии персонажей, и их одежда и фон изменятся вероятнее всего кардинально. Лишь одна функция из указанных 4-х позволяет полноценно редактировать и сторонние картинки, а именно «Inpainting from text».

3) У редактирования изображений путём их полной перерисовки есть пара непреложных достоинств. Во-первых, конечная полученная картинка фактически никак не зависит ни от качества, ни от размеров исходной картинки. Вы можете подсунуть последнюю самого низкого качества, самых миниатюрных размеров – если её содержимое можно распознать, вы получите на выходе рисунок очень похожего содержания в полном размере и полном качестве. Во-вторых, возможности преобразований перерисовываемого графического контента ничем не ограничены. Поменять фон, поменять персонажу позу на абсолютно любую другую, переодеть его во что угодно, заменить ему физиономию, поменять пол, изменить возраст на любой другой в любом диапазоне, хоть с 80 лет на 5 или наоборот. Поменять положение в кадре, дорисовав части тела, которые ранее были за кадром. Вырезать из картинки кусок в фотошопе и перерисовать его в полный размер, либо дорисовать к нему другие детали, скажем, сохранив только лицо, сгенерировать персонажу новое тело, или сохранив кусок тела, сгенерировать всё остальное включая лицо. Делай вообще что хочешь. Правда не всё так просто. Добиться, чтобы при перерисовке картинка изменилась именно так, как вам надо – целое искусство, каковое освоить нелегко.

4) Отдельные функции редактирования Dezgo удивят вас убойно низким качеством картинок или же излишне малыми их размерами. Но эти картинки не обязательно воспринимать как конечный результат, можно как промежуточный, как редактирование более удобным способом с целью последующей перерисовки для получения в полном качестве и размере.

5) Цензура в Dezgo распространяется только на несовершеннолетних персонажей. Взрослых рисуй в чём угодно, занимающихся чем угодно. Впрочем, каждая нейросеть реализует цензуру по-своему и устремлена к разному контенту, не все нейросети Dezgo соответствуют двум указанным мной моментам. Но большинство кажется соответствует. Преимущественно цензура проявляется в увеличении возраста. То есть когда персонаж, которого вы указали нарисовать юным, рисуется взрослым – если сеть решила, что вы пытаетесь отобразить его в неподобающем виде. Иными словами, она всё равно его нарисует, именно в указанном виде, просто он будет старше, чем вы заказывали.

6) Вследствие пункта 5, Dezgo, при всех его замечательных возможностях, не та игрушка, которую посоветуешь, допустим, своему ребёнку. В нём обнажение не считается чем-то предосудительным и потому может произойти даже без каких-либо указаний на то с вашей стороны непредсказуемым образом. Иные его нейросети чуть ли не всякое ваше слово способны интерпретировать как намёк на пожелание минимализма в нарядах. И охотно воплотят его в графике. А порой обходятся и вообще без намёков.

7) Все тексты с указаниями, что и как рисовать, Dezgo принимает только на английском. Благо ныне есть онлайн переводчики.

8) По моим ощущениям (в коих я всё же не уверен на 100%) Dezgo не любит (бесплатную) работу с ним в несколько окон. Если вы откроете в браузере несколько его окон и станете генерировать несколько картинок одновременно, судя по моему опыту, вы получите за одно и то же время меньшее число изображений, а не большее, так как на генерацию каждого будет уходить заметно более времени. Надо открыть одно окно через ВПН, а другое без ВПН, вот тогда вы сможете рисовать по две картинки без замедления.

9) Dezgo практикует очень оригинальный подход к сохранению информации. Он записывает непосредственно в картинку всё, что вы задали для её рисования. Включая текст, по которому она была сгенерирована, включая текст с перечнем запрещённых вами к отрисовке объектов (negative prompt). С одной стороны это чрезвычайно удобно, вы всегда можете посмотреть у удачной картинки, как она была получена, дабы попытаться сгенерировать что-то подобное. В ней будут все необходимые сведенья. С другой, чтобы пользоваться столь знаменательной особенностью, надо как минимум о ней знать. А каким образом человек может получить это знание? Я не очень понимаю. Зацените, как его получил я. Догадался. Я никогда не слышал, чтобы текстовую информацию записывали внутрь графических файлов, даже не предполагал, что такое возможно. Но вот подумал, дай-ка проверю, не сохраняет ли Dezgo что-нибудь лишнее в картинках. Был уверен, что вряд ли, но так, на всякий случай, убедиться-то недолго. И вот те раз. Оказалось, у файлов jpg есть параметр «комментарий». В нём и сохраняются все данные. Но обратить на них внимание, если ты специально не озаботился этим, невозможно. Их невозможно заметить случайно (в принципе я не знаю, может быть в более новых версиях виндоус всё иначе, может там комментарии в подсказках подсвечиваются). Ну а у файлов png и вовсе такая структура, куда записывай всё что угодно, это не комментарий, оно вообще нигде не отображается. В результате получаем, что большинству людей пользы от данной особенности Dezgo никакой, а вот вред пожалуй есть – если вы разместите свою картинку в интернете, любой, кому хватит ума открыть её блокнотом, сможет в точности узнать, что вы писали для её получения. Определённо не всем авторам картинок понравится такой расклад. Ну, теперь вы знаете. Подробней о формате данных, сохраняемых в картинках, и о том, как от них при желании избавиться, я расскажу в предпоследней главе. Также могу предложить вам в качестве инструмента их просмотра и отчасти удаления из файлов свою программу «Dezgo Params Viewer». Написал специально для данного руководства. Скачать можно тут: https://dvo.my1.ru/DezViewer.htm. О ней чуть подробней я тоже расскажу в предпоследней главе.

Ну и ещё кое-что. В Dezgo очень много нейросетей. Суммарно более 40 на данный момент. И они совсем не одинаковы. Они не только рисуют по-разному, но и работают по-разному, и даже понимают вас каждая не так, как остальные. Как минимум в некоторых аспектах. Например, одна на слова «kitten mood» (в переводе что-то вроде «настроение игривого котёнка») иногда рисовала мне персонажа именно в настроении котёнка, это было чётко опознаваемо – поза, выражение лица, и никогда не рисовала котят, а другая рисовала только котят, и никакого тебе влияния на настроение. Одна на слова «splashes colors» создавала фон из вызывного разноцветия брызг и иных водных образований, а другая разноцветно размулёвывала только одежду персонажа, фон же оставляла банальным обыденным, и эффектов с водой ноль. Некоторые нейросети не распознают общепринятых сокращений, каковые большинство других сетей распознают, некоторые не реагируют на отдельные параметры. Некоторые склонны игнорировать сложные образы или какие-то противоречивые, некоторые наоборот, каждое твоё слово пытаются понять и задействовать при формировании картинки. Ну и так далее. Кстати, отдельные параметры могут вызывать смену механизмов действия нейросети. Вставляете в свой текст какое-то слово, и реакция на ваш текст вдруг меняется в той или иной степени. Ну то есть даже одна сеть может быть в действительности словно смесью сетей, из которых в разные моменты подключается нужная. Я это к чему говорю? Чтобы протестировать 40 разных сетей, нужен уже какой-то исследовательский коллектив, одному человеку такое наверное не под силу, да и вроде незачем. Я в Dezgo экспериментировал преимущественно с сетью «RealDream 12», ну и также в какой-то мере с «Envy Starlight XL 01 Lightning» и «JuggernautXL 9 Lightning» (первая рисует картинки обычного размера, прочие две размеров XL), а большинством остальных пользовался прям по чуть-чуть, лишь чтобы посмотреть, что они вообще могут. Почему именно эти сети я выбрал? RealDream тебе предлагают по умолчанию, то есть она уже выбрана, когда ты заходишь на Dezgo, ну а так как приходя на него, ты ничего не знаешь, что и зачем надо выбирать, всё равно начнёшь работу с ней, что со мной и произошло. В принципе она неплоха, качество мне нравится, единственно, тяготеет к рисованию преимущественно в одном стиле – реализме. Что касается Envy и Juggernaut9, я долгое время как-то и не знал, что тут есть рисование в размерах XL, не обращал внимания, а когда увидел, выбор нейросетей там был невелик, что первое чуть более приглянулось, тем и стал пользоваться. В общем, всё, о чём здесь далее пойдёт речь, прежде всего имеет отношение к «RealDream 12», несколько менее к «Envy Starlight XL 01 Lightning» или «JuggernautXL 9 Lightning», и не факт, что будет точно так же работать и в других сетях, а иногда не будет работать в каких-то отдельных сетях вовсе, в отдельных случаях. Имейте это в виду.

Сайт Dezgo: https://dezgo.com

Сайт, куда Dezgo направляет за справкой:

https://www.reddit.com/r/stablediffusion/wiki/tutorials

Блог Dezgo: https://blog.dezgo.com

Особенности рисования людей

Есть у меня ощущение, что людей Dezgo рисует иначе, чем всё прочее. На основании того, что я наблюдаю, я бы предположил, для него рисунок состоит из элементов двух типов – фона и объектов, и сии типы зачастую рисуются совершенно по-разному. При этом из всех видов объектов (человек, животное, автомобиль и т.п.) для рисования людей в нём предусмотрено несопоставимо больше различных механизмов. Людей он способен рисовать наиболее качественно, часто может воссоздавать и моделировать в 3d, у него имеются текстуры тел, одежд и так далее. Человек так или иначе ключевой объект внимания нейросетей. Потому их возможности при рисовании его и чего-либо иного несопоставимы. Правда, как ни странно, в случае Dezgo это не всегда в плюс. Например, у его XL функций качество графики картинок с людьми очень часто ниже приемлемого (на мой вкус), а у всех прочих картинок нет. Почему, бог его знает, я могу только гадать. Моё главное предположение – дело в бесплатности. На формирование фона, думаю, уходит гораздо меньше ресурсов, затрачивается гораздо меньше интеллектуальных операций, он намного экономичнее. Вследствие чего на него выделяется всегда одно и то же количество ресурсов. Его качество в целом стабильно, почти ни от чего не зависит, не изменчиво. А про объекты того же не скажешь. Особенно про людей. Наблюдается ли та же ситуация в платном режиме – интересный вопрос, на который у меня нет ответа. В общем, я бы выделил два проблемных момента, каковые следует учитывать при работе с Dezgo и возможно с другими нейросетями:

1) Зависимость качества от крупности плана. У иных сетей она носит критический характер. Крупный план человека – это в любой сети Dezgo красиво. Лицо во весь экран – великолепно. От головы до верха груди – замечательно. По пояс – очень хорошо. А далее уже начинаются варианты. Чем мельче человек в кадре, тем хуже он выглядит, становится меньше чёткость, проседает качество графики, при совсем мелких планах расплывается и деформируется лицо. В разных сетях это проявляется при разной крупности, в каких-то уже менее чем по пояс, в каких-то, когда человек входит в кадр более чем по бёдра, или по колено, порой и в полный рост покажут нормально, и более чем в полный, с зазором свободного пространства, допустим, от головы до верха кадра. Так или иначе, эта проблема есть у всех сетей Dezgo, и в целом весьма заметна. Наиболее она проявляется при горизонтальной (ландшафтной) ориентации картинок, то есть когда их ширина двукратно более высоты. При такой ориентации все объекты выходят значительно меньше размерами (исключая лежачие позы). По пояс в вертикальной ориентации и в горизонтальной – совсем не одно и то же, в первой человек будет намного крупнее. И значит в одной и той же сети проблемы мелкого плана начнут проявляться в ландшафтной ориентации гораздо ранее (на гораздо более крупных планах). Я в экспериментах с Dezgo фактически отказался от рисования людей в ландшафтной ориентации, при том что люблю именно её. Наиболее подвержены потере качества при мелких планах картинки, рисуемые в полном реализме (когда человек выглядит словно настоящий на фото), наименее – нарисованные в мультяшных 2d стилях. Если же говорить о сетях XL функций Dezgo, есть у них проблема совсем уж странного свойства. У большинства из них при недостаточной крупности плана резко ухудшается общее качество графики. Начинается размытие, сильное зашумление (шумы – это сторонняя информация, в графике выглядит словно грязь на однотонных областях вроде кожи, и так же как зернистость и нечёткость линий). Вид просто мерзкий. Подчеркну, всё это характерно для рисования преимущественно именно людей. Всё, что может быть нарисовано просто как фон (то есть почти всё кроме людей) не имеет выраженных проблем зависимости от крупности плана. По моим ощущениям не имеет. В том числе в ландшафтной ориентации. Безусловно, что угодно крупно рисуется красивее. Но критического проседания качества при мелкой отрисовке элементов фона как правило нет. В общем, при рисовании людей в Dezgo всегда надо следить за крупностью плана, ловить приемлемую и стремиться делать её по возможности больше (если вы хотите чтобы люди у вас выглядели красиво).

2) Разнообразие стилистик фона значительно беднее. Имеется в виду, по сравнению с людьми. Последних многие сети позволяют рисовать по-разному, а некоторые в бесконечности разных стилей, умеют тонко смешивать, напиши им «фотореалистичное аниме», или «мультяшное 3d искусство», или «2d цифровой аниме мульт рисунок», они тебе нарисуют. А фон нет, те же самые сети не факт что соизволят и просто в реализме или в аниме без всяких смесей. В качестве примера – рисовал я в одной из нейросетей Dezgo персонажа, как раз экспериментируя со стилями. Наверное десяток разных стилей смог применить. А потом попробовал проделать тот же трюк с динозавром. И бесполезно, что ни указывай в качестве стиля, он никак не менялся. Я тогда указал нарисовать человека и динозавра в одной картинке, думаю, ну сейчас-то ты мне сменишь стиль. Сменила, но только для человека, он стал, как указано, трёхмерным аниме, а всё остальное осталось в стилистике близкого к реализму рисунка. Это смотрелось странно, мягко говоря. Вот с фоном примерно так и обстоят дела. По-моему большинство сетей сами выбирают ему стиль, и выбор у них не очень широк. При рисовании аниме персонажей на природе стиль природы как правило реализм, при рисовании фантазийных картинок на сказочные темы чаще всего фон выглядит как рисунок с обложки книг сказок, даже у сетей, которые рисуют в реализме. Но конечно не исключение и когда стиль персонажа и фона совпадают, просто не всегда и не для всех стилей это возможно.

Трудности с фоном наверное не слишком критичны, особенно по сравнению с качеством графики, а вот оно – весьма неприятный момент, который не проигнорируешь. Отчасти он есть и в других нейросетях, не только в Dezgo, в нейросети Сбера «Кандинский2.1» я тоже сталкивался с серьёзным ухудшением отображения людей при недостаточно крупных планах. Но там всё же нет словно намеренного понижения общего качества графики до неприемлемо плохого, как в здешних XL нейросетях. Лично я, когда поэкспериментировал впервые с XL-функциями Dezgo, понял, что мне не нравится результат, как бы был разочарован, ну и продолжил работать с обычными сетями, которые меня вполне устраивали. Если вы новичок в деле рисования в нейросетях, могу посоветовать то же самое и вам, во всяком случае при генерации картинок людей в стилях реализма. Например, сеть «RealDream 12» в портретной ориентации обеспечивает прекрасное (по моим ощущениям) качество при крупности плана как минимум по бёдра, иногда и по колено и более, бывает что и в полный рост сносно нарисует. В ней не надо заморачиваться, подбирать какие-то усиливающие качество параметры. Ну а если вам не лениво и позаморачиваться, то отдельные XL-сети тоже могут в определённых ситуациях породить вполне качественный контент с людьми – только чтобы заморчиваться, надо знать, как и чем усиливать качество в Dezgo, а когда знаний нет – «RealDream 12» прекрасная альтернатива. Ну или новая функция Dezgo – flux, эта не особо реагирует на попытки усиления качества, в ней оно сразу усилено, вам уже вроде и делать ничего не надо, только составлять тексты. Единственная проблема – при работе с flux функцией вы не научитесь работать с Dezgo, потому что все его прочие функции работают иначе, чем она. По поводу рисования людей добавлю, главный деструктивный элемент при маленькой крупности плана – лицо (ну и морда у животных и монстров). Физиономия расплывается, искажается, деформируется, становится уродливой. Если же человек стоит спиной или лицо его скрыто (рыцарь в шлеме, к примеру), то соответственно требования к крупности плана уменьшаются или вовсе сходят на нет. Правда тогда человек может быть нарисован как часть фона и в стилистике фона. Ну и вообще при излишне мелких планах он может быть так нарисован.

Из прочего о людях. Весьма занятный момент, на котором я бы хотел заострить внимание – эмоции. В иных нейросетях Dezgo персонажи наделяются ими автоматически в зависимости от ситуации. Это опять же мой личный вывод, а значит, я не могу утверждать наверняка, что всё так и есть. Но тем не менее. Почему вопрос эмоций важен, ну наделяются и наделяются, что с того? Хитрость в том, что эмоции персонажей влияют не только на выражения их лиц, но и их управляемость. Особенно значимо при перерисовках. Я буду сейчас говорить в какой-то мере забавные вещи. Представьте, у вас есть картинка, на ней персонаж, и вы хотите перерисовать её, указывая что-то поменять в его действиях или позе. Но сколько бы вы ни перерисовывали, что-то идёт не так, он вас словно откровенно не слушается, не делает того, что вы указываете. Тут есть ещё такая штука, как настройка процента сохранения контента, чем она выше установлена в функции перерисовки, тем менее значимые изменения удастся внести в рисунок. Есть и противоречивость инструкций, тоже способная стать источником затруднений. Скажем, если из внешности персонажа вы описали только красоту глаз, маловероятно, что вам его покажут не крупным планом, сколько бы вы ни писали нечто вроде «стоит на отдалении». Нейросеть понимает, что красоту глаз нельзя оценить издалека. Разных подводных камней реально много. Так или иначе, эмоции тоже один из них. Если вы задаёте рисовать персонажа в таких условиях или обстоятельствах, которые должны ему не нравиться, или пугать, или смущать… некоторые нейросети это обрабатывают, просчитывают, как он должен реагировать на ситуацию. И он реагирует, игнорируя все ваши инструкции, противоречащие его естественным реакциям. Сколько бы вы ни делали попыток перерисовки, сколько бы ни правили текст в деталях, вы не добьётесь ровным счётом ничего. Будет происходить всё что угодно кроме того, что вы заказывали. Я сталкивался с чем-то подобным. Причём это может происходить от таких невинных вещей, на какие никогда не подумаешь, и не догадаешься. Например вы задаёте в описании персонажа «прячется в тени». Где тут что-то проблемное? Но оно есть, нейросеть начинает додумывать – прячется, значит от кого-то. Видимо от кого-то опасного. И наступает реакция испуга. Суть в том, что у проблемы эмоций существует очень простое решение. Нужно всего лишь указать, что персонажу нравится происходящее. Нравится быть в аду, нравится наблюдать за зомби или демонами. Или что он «весело прячется в тени». Именно такой подход устранял у меня все проблемы эмоций сразу и до конца. Это моё изобретение, каковое вероятно может показаться странным – нейросеть это инструмент, мы указываем ему, что хотим от него, а он должен исполнять. Задавать персонажу настроение только чтобы его нарисовали согласно нашим пожеланиям? Словно немного противоречит здравомыслию. Я всё же подозреваю, современный искусственный интеллект не такой уж и интеллект. Он не понимает, что вы от него хотите, он обрабатывает ваши текстовые запросы по определённым алгоритмам. Эти алгоритмы видимо ещё не настолько совершенны, чтобы избегать странностей и казусов.

Иногда нейросети Dezgo могут неправильно определять пол. Например, я такое достаточно часто наблюдал при использовании слова «model». Пишешь его, чтобы женский персонаж был посимпатичнее, а тебе рисуют нечто явно промежуточное между мужчиной и женщиной. Мужская причёска, порой и мужская физиономия на женском теле. И указания на женский характер одежды (платье, чулки или т.п.) как-то не очень помогают. Почему-то нейросети откровенно тупят, изредка, когда речь идёт о поле. С мужскими персонажами тоже могут быть те же проблемы. Знаете Наруто? Известный персонаж аниме. Мне его как-то нарисовало с явно женскими формами под одеждой. Решается указанием пола. Female – женский («female model»), male – мужской. Можно использовать и другие слова, «девушка» например («girl model»). Главное тут вообще обращать внимание, понимать, что такое бывает. Видите, что у женского персонажа вроде бы и женские формы тела, но уж слишком мужская причёска, и физиономия не блещет женственностью, значит, некие проблемы имеют место, и потому надо бы указать пол, дабы вернуть внешности гармоничные черты. Кстати, о слове «girl». Это весьма широкое понятие в английском языке, означающее лиц лет от 5 и до 25. Нейросети обычно пытаются определить по контексту возраст персонажа, если вы его не указали специально. Пишете что-то нейтральное, чаще всего будет рисоваться взрослым (впрочем это зависит от конкретной сети), пишете с оттенком чего-то детского (упоминаете сказочные детали, допустим), вероятно будет ребёнком. Возраст проще всего задавать с помощью сокращения «yo» – «girl 20yo», «fairy 5yo», абсолютное большинство нейросетей понимают его. Но не все. В Dezgo есть минимум одна нейросеть, не принимающая указание возраста в таком виде, ей надо писать «20 y. o.» или «20 old».

Некоторых существ можно превращать в антропоидов. Придавать им человекоподобие. Для этого наверное есть разные варианты, но самый простой, пожалуй, слово «anthro». Пример: «female anthro tiger» – по идее нарисует нам даму с человеческим телом (возможно в тигриных полосках) и тигриной головой. Это не всегда срабатывает с первого раза, в том смысле, что нейросети своевольны, порой не хотят понимать вас в нужном ключе, вполне вероятно вам понадобится сколько-то попыток, чтобы получить картинку человека-тигра. Но так или иначе вы её получите.

По умолчанию большинство сетей Dezgo по-моему рисуют персонажей корейской национальности. Как минимум азиатской. То есть когда вы пишете без подробностей, без деталей, коротенькие тексты вроде «cute girl», вероятнее всего вам сгенерируют выраженную азиатку. Любые детали – это образы, образы могут поменять национальность, чем их больше, тем видимо больше вариантов, кем персонаж может быть. Некоторые сети хорошо знают национальности, просто пиши им rus, jpn, eng, thai или прям указывай страну: «France», «Indonesia». Есть реально знающие физиономические национальные черты (у них китаец и японец не одно и тоже именно в плане физиономии), знают национальные наряды, некоторые плохо в этом смыслят. Я почти не экспериментировал насчёт национальностей в Dezgo, а вот в нейросети Кандинский 2.1 как-то у меня получился текст, фактически приводящий к случайной генерации разнообразных экзотических национальностей. Это был прям экскурс по ним, я большинство и не знаю, с национальными украшениями, нарядами, физиономически очень непохожие (но почти все весьма красивые – Кандинский знает толк в гармонии лиц, если речь идёт о достаточно крупных планах). Далеко не факт, что они все реальные, а не выдуманные, однако если подсовывать Кандинскому прямые указания на национальность, он рисует их тоже, видно же, что как минимум примерно всё соответствует. В общем, целый атлас национальностей всего мира, сборник, позволяющий вам ознакомиться с ними при желании. Вот чем в том числе могут служить некоторые нейросети.